作者
Huangsupreme,责编
郭芮出品
CSDN博客封图
CSDN下载于视觉中国随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大。因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于在校生,还是对于求职者来说,都显得很有必要。本文基于这个问题,针对51job招聘网站,爬取了全国范围内大数据、数据分析、数据挖掘、机器学习、人工智能等相关岗位的招聘信息。分析比较了不同岗位的薪资、学历要求;分析比较了不同区域、行业对相关人才的需求情况;分析比较了不同岗位的知识、技能要求等。做完以后的项目效果如下:动态效果如下:信息的爬取(基于51job招聘网站的数据爬取)
爬取岗位:大数据、数据分析、机器学习、人工智能等相关岗位;
爬取字段:公司名、岗位名、工作地址、薪资、发布时间、工作描述、公司类型、员工人数、所属行业;
说明:基于51job招聘网站,我们搜索全国对于“数据”岗位的需求,大概有页。我们爬取的字段,既有一级页面的相关信息,还有二级页面的部分信息;
爬取思路:先针对某一页数据的一级页面做一个解析,然后再进行二级页面做一个解析,最后再进行翻页操作;
使用工具:Python+requests+lxml+pandas+time
网站解析方式:Xpath
1)导入相关库
importrequestsimportpandasaspdfrompprintimportpprintfromlxmlimportetreeimporttimeimportwarningswarnings.filterwarnings("ignore")2)关于翻页的说明
#第一页的特点