一.需求背景
课题中心:招聘网站的职位招聘数据预处理
之前的文章,我们已经对职位薪资数据进行了爬取(9000条)数据,然后进行了数据的清洗,最终得到了4000条有效数据。
具体需求:
- 按不同的类别划分职位中的薪酬数据,画盒图/箱线图,检查孤立点/离群点;
- 使用分位数图、分位数-分位数图方法处理数据;
本次任务的结构图:
技术要点:
爬虫库(Beautifulsoup、requests-html、Scrapy)、数据预处理(python、kettle)、数据可视化(matplotlib、pyecharts、tebleau)、python-web框架(Flask)
二. 任务开始
2.1 薪酬的中位数、均值和众数和数据倾斜模块详细设计
已Java为例,python和Go类似流程:
1.经过过去的爬虫和数据清理等步骤,我们得到了4000条左右的有效数据,我们先将其读取进来:
data = pd