本站小编为你精心准备了探析数据挖掘的大学生就业市场需求参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:“择业难”“就业难”已是大学生面临的两难问题。该文基于网络校园招聘,利用Python和SPSS工具需求视角分析就业现状。研究表明,热门职位集中在计算机、互联网,主要分布在北上广深城市,但“新一线”需求比例在上升,并且私营企业占比最大。另外,企业更看重大学生的基础能力、工作态度和品质。该研究为大学生就业、择业提供参考和借鉴。
关键词:就业指导;大学生招聘;数据挖掘;Python
1 背景
随着我国改革开放不断深化,高校教育模式也从精英转为大众教育,导致大学生就业压力日益增大。通过分析,人们发现“就业难”的影响因素之一就是“择业难”。由于企业和学生存在信息不对称问题[1],导致人才结构性化短缺。因此,本文用爬虫算法收集招聘网站信息,分析需求的热门区域、热门职业、热门职位的技能要求等。为高校和大学生解决“就业难”“择业难”的问题。
2 大学生招聘方式分析
企业针对大学生招聘通常会采用校园招聘或者网络招聘。校园招聘是专门针对应届大学生的招聘方式。目前,应届毕业生主要就业途径就是校园招聘,但是,艾瑞咨询在《中国校园招聘大学生洞察白皮书》中指出获得1~3家企业面试的学生比例近 40%,这说明应届毕业生虽然参与不少校园招聘,但成功获取Offer还是具有一定难度。网络招聘是以招聘平台为载体,企业在平台招聘信息,它可以将就业信息全方位地提供给学生[2],相较于传统的线下招聘,它更节约时间成本和空间成本。典型的招聘网站如“前程无忧”“智联招聘”等。网络招聘发展至今,已经积累了大量的职位信息,随着AI技术的日渐成熟,依靠网络就能够实现精准的职位推荐[3],对于促进大学生就业是十分有意义的。
3 企业招聘市场需求数据挖掘
3.1 数据获取
1)数据源的选择。招聘网站有很多,但是最有影响力的综合招聘网站非前程无忧(51job.com)莫属。前程无忧招聘网站上具有海量的招聘信息,覆盖的知名企业较多。所以本文选择从前程无忧招聘网站上获取职位信息。
2)Python爬虫获取数据。Python阅读简单,代码结构清晰、明了[4]。利用爬虫算法获取以下信息。①获取热门职位名单。前程无忧网有各类职位信息,职位名称众多,为了 Python 爬虫可以实现,我们需要先确定职位名称。由于前程无忧没有提供职位名称集合,我们选择从 BOSS 直聘首页获取职位名称。②获取热门职位信息。由于我们研究的市场需求是针对大学生就业,所以在爬取职位信息时,将工作年限参数设置为“在校生/应届生”。获取热门职位的爬虫代码如下:def count_page():"根据boss 直聘首页的职位名获取职位名称集合,再从前程无忧上获取热门职位"driver_path = r"D:\Chrome\Downloads\chromedriver.exe"file_name = r"D:\Python_code\Python程序\爬虫相关代码\51job\原始数据\数量.xlsx"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;x64) Apple Web Kit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}browser = webdriver.Chrome(executable_path=driver_path)url = []browser.get(url)html = browser.page_sourceselector = etree.HTML(html)job_names += selector. xpath("//div[@class= 'job-menu']//div[@class='menu-sub']//li/div[@class='text']/a/text()")name_nums = {}for name in job_names:browser = webdriver. Chrome(executable_path=driv⁃er_path)input_tag = browser.find_element_by_id("kwdselectid")input_tag.send_keys(name)input_tag.clear()click_tag = browser.find_element(By.LINK_TEXT, "搜索")click_tag.click()html = browser.page_sourcehtml = etree.HTML(html)job_url = html. xpath("//div[contains(@id, 'filter_work⁃year')]//li[2]/a/@href")web = requests.get(job_url, headers=headers)web.encoding = "gbk"dom = etree.HTML(web.text)page_nums = dom.xpath("//span[@class='td']/text()")[0]nums = page_nums.split(",")[0][1:-1]name_nums[name] = int(nums)browser.quit()names_nums = dict(sorted(name_nums.items(), key= lamb⁃da x: x[1], reverse=True))df_dic = {"岗位名": list(names_nums.keys()[:11]),"数量": list(names_nums.values()[:11])}end_df = pd.Data Frame(df_dic)end_df.to_excel(file_name, encoding="gbk",index=None)③爬取的结果。利用 Python 中的 requests 库获取职位信息,将其存入 EXCEL 表格,最后获取职位信息原始数据量为68197条。如图1所示。
3.2 数据预处理
由于网络爬虫获取的职位信息是杂乱、残缺的,还夹杂无意义字符,为此就需要进行预处理。首先,清理原始职位信息中重复、残缺的;然后,根据需要对清洗后部分字段数值化。
1)数据清洗。通过数据审查,进行数据清洗。
2)数据数值化。对清洗后的数据进行灰色关联度分析,对行业和公司类型进行主观分析,完成数值化处理。本文对工作地点进行数值化时,将北京、上海、广州和深圳归为一类,“新一线”城市归为一类,其余城市归为一类;公司规模原本是一段区间表示,现在用区间的中间数来表示公司规模。3.3 数据分析与挖掘数据挖掘技术可以对就业信息进行优化,更有针对性地就业指导[5]1)统计分析。根据研究需要,对相关字段进行词频统计,并将统计结果可视化。①热门职位统计。由于职位种类众多,本文运用职位列表页数来判断热度;②热门城市。利用经过清洗后的职位信息进行词频统计;③热门行业。与热门城市统计类似,唯一不同的是按行业分组;④工作描述。本文针对职位中的工作描述、职位要求进行的词频统计分析,以词云形式展示该职位求职者能力和技能要求;⑤其他统计分析。利用 Py⁃thon 对招聘组织类型进行归类,再分析市场中招聘组织的比例、各热门城市占行业的比例;利用SPSS计算各个行业的平均工资,计算得出平均工资最高的行业;分析热门职位的分布情况,职位主要集中在哪些区域;分析热门职位的薪资水平,计算各个热门的薪资情况等。2)灰色关联度分析。一个职位的薪资水平受多个因素的影响,本文选取工作地点、公司类型、公司规模和行业对薪资的影响四个维度,分析每个职位受这四个因素的影响程度。
4 招聘市场需求数据挖掘结果分析
4.1 本年度企业招聘市场总体情况
1)热门职位情况。如图 2 所示,根据热门职位统计结果。发现销售是市场需求量最大的职位,其后是数据分析和运营;但是与计算机、互联网相关技术的职位占据了热门职位的一半左右,表明市场对计算机互联网技术人才仍然有很大需求。
2)热门行业。热门行业统计可知,计算机软件和互联网的词频数遥遥领先,但是较为传统的行业,如房地产、金融贸易和教育行业,仍占有一定的比例。
3)热门城市。热门统计结果显示,北上广深“老牌”一线城市的职位需求量仍是最大,其后是成都、杭州、南京和武汉等属于“新一线”的城市。总之招聘需求主要集中在相对发达城市。
4)招聘组织类型。如图3所示,招聘组织中私营企业的需求最大,其次是国企,而政府机关和外企代表处的招聘需求是最小的。
5)热门城市行业发展情况。从统计结果可知,需求最大的三个行业是互联网、网络游戏和计算机软件,总份额占百分之五十;而需求的角度判断行业的发展,毫无疑问在广州发展情况最好。
6)行业平均薪资。统计可知,薪资前十行业中,平均薪资最高的是银行,其次是金融、房地产和学术,出乎预料的是招聘需求大的互联网行业的平均薪资并不高。
4.2 具体岗位分析结果以Java技术岗位为例。
1)职位描述词云。以Java岗位为例,对大学生有三方面要求,即技术能力、编程素养和个人品质方面的要求。如图 4所示。
2)职位城市分布。可以看到 Java 职位数量最多的省份是广东,而从整体上看,Java职位分布在广东、上海和浙江等中国的东南区域。职位分布符合地区整体经济发展水平。
3)薪资分布区间。Java 技术岗的薪资主要集中在 2000-8000,其次是 8000-14000,而高于 14000 的 Java 岗位还是占少数。但整体情况是高于全国毕业生的平均工资的。
4)薪资的影响因素分析。根据统计结果发现,公司类型与薪资的关联度最高,其次是公司规模,出乎预料的是工作地点与薪资的关联度较低。总之,公司类型的选择对薪资影响最大,而城市对薪资影响反而不大。
4.3 大学生择业对策建议
对高校而言,要加大对互联网技术人才培养的力度,强化学生专业技术训练;同时,高校还应该培养学生完整的知识体系,让学生成为具有专业技能与通识能力的复合型人才。对学生而言,在做职业规划时要了解市场,在将来工作的行业、城市和薪资都有整体规划;同时,对于有能力、有愿望的非计算机专业学生,可以自学计算机技术;最后,学生要对自己有正确认知,不要盲目从。
参考文献:
[1] 郜双,罗庆玲.企业招聘中的信息不对称问题分析及对策[J].现代商业,2019(11):54-56.
[2] 赵婷婷,陈敏 . 智慧就业服务模式在高校大学生就业中的应用[J].科教导刊(上旬刊),2019(22):163-164.
[3] 董春辉 . 用好大数据实现大学生就业“私人订制”[J]. 人民论坛,2020(4):116-117.
[4] 杨荣领.《Python语言程序设计基础》课程教学改革实践[J].高教学刊,2019(3):135-137.
[5] 王硕鹏.基于数据挖掘的毕业生就业信息管理决策模型研究[J].东北电力大学学报,2019,39(5):86-90.
作者:胡鹏 李长云 傅荣鑫 单位:哈尔滨理工大学