程序员

注册

 

发新话题 回复该主题

Python爬取近十万条程序员招聘数据 [复制链接]

1#
作者

Huangsupreme,责编

郭芮出品

CSDN博客封图

CSDN下载于视觉中国随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大。因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于在校生,还是对于求职者来说,都显得很有必要。本文基于这个问题,针对51job招聘网站,爬取了全国范围内大数据、数据分析、数据挖掘、机器学习、人工智能等相关岗位的招聘信息。分析比较了不同岗位的薪资、学历要求;分析比较了不同区域、行业对相关人才的需求情况;分析比较了不同岗位的知识、技能要求等。做完以后的项目效果如下:动态效果如下:信息的爬取(基于51job招聘网站的数据爬取)

爬取岗位:大数据、数据分析、机器学习、人工智能等相关岗位;

爬取字段:公司名、岗位名、工作地址、薪资、发布时间、工作描述、公司类型、员工人数、所属行业;

说明:基于51job招聘网站,我们搜索全国对于“数据”岗位的需求,大概有页。我们爬取的字段,既有一级页面的相关信息,还有二级页面的部分信息;

爬取思路:先针对某一页数据的一级页面做一个解析,然后再进行二级页面做一个解析,最后再进行翻页操作;

使用工具:Python+requests+lxml+pandas+time

网站解析方式:Xpath

1)导入相关库

importrequestsimportpandasaspdfrompprintimportpprintfromlxmlimportetreeimporttimeimportwarningswarnings.filterwarnings("ignore")2)关于翻页的说明

#第一页的特点

分享 转发
TOP
发新话题 回复该主题