基于k-means和关联度分析的网络招聘信息数据挖掘

作者：放心测系统发表时间：2022-03-27 05:17:06 浏览次数：217

1 引言(Introduction)在“大数据时代”的背景下，网络招聘数据呈爆炸式增长，但是对于网络招聘数据隐含的信息挖掘方面，国内并没有太多的学者进行深度研究，其中原因有网络招聘虚假信息较多、信息杂乱、时效性弱[1]。本文在充分考虑诸多原因的前提下，重点着手于对招聘信息隐含信息的挖掘，并根据分析结果进行短期前景预测。与此同时归纳挖掘方法，在日后进行类似方向研究的过程中，只需要抓取相应的数据，应用相应算法即可得到预期结果，大大节省了同类问题的时间成本。

2 关联规则技术概述[2](Correlation analysis)

设是D中全体项组成的集合。设任务相关的数据D是数据库事务的集合，其中每个事务T是项的集合，使得对应每一个交易有唯一的标识，记作TID。设X是一个I中项的集合，如果，那么称交易T包含项集X。若X、Y为项集，,并且,则形如的表达式称为关联规则。

支持度是指所有交易中X与Y同时出现的频率记为：

(1)

支持度是对关联规则在整个事务数据库中的统计重要性的衡量，它说明了该规则在所有事务中有着多大的代表性，支持度越大，规则就越重要。

置信度是指所有出现了X的活动中出现Y的频率记为：

(2)

置信度是一个对关联规则准确性的衡量指标，有些关联规则置信度高，但是支持度却很低，这表示该规则实用的机会很小，一般而言并不重要。

本文使用spss Modeler软件作为关联度分析相关工作的首选工具。

3 数据挖掘过程(Data mining process)

3.1 数据抓取

本文在国内三大招聘网站(智联招聘、前程无忧网、中华英才网)上抓取了一线城市北京、上海、广州(简称,“北上广”)，二线城市大连、长沙、福州(简称,“大长福”)六个城市的招聘信息，时间跨度为三个季度共九个月，这样选取数据的好处在于分析的时候一方面可以根据一二线城市进行相关度分析，又可以从南到北的地域上职业类型差距进行相关度分析。相对全国数据来说，具有很好的代表性。

3.2 数据预处理

由于招聘信息的纷呈复杂，所以我们需要进行数据的预处理，目的是得到具有较为规范格式的实验数据。

首先进行招聘信息的去重去空处理，然后将处理好的招聘数据按照时间序列进行统一安放在Excel表格文档中。其次我们需要建立一个包含职业类型特征词的词袋，词袋是作为文本信息聚类的标准，所以词袋的准确程度直接决定了文本聚类效果的好坏，我们将招聘网站上职业分类运用jieba中文分词工具进行分词处理，经过剔除无效数据和重复数据后，得到具有较好区分度的词袋文档。

3.3 文本向量化

由于计算机并不能够直接读取文本信息，所以我们需要将文本数据向量化，表达成计算机能够直接处理的数字形式。我们选用的文本向量化的模型是向量空间模型(VSM)[3]，文本向量化的准备工作是将词袋特征词进行权重赋值，权重赋值的方法是根据TF-IDF算法[4]的理论应用得到，具体使用公式和方法如下：

(3)

(4)

然后用特征词权重做作为文本向量的维度赋值，从而得到各个实验数据的空间向量。

3.4 聚类分析

在完成文本信息向量化处理后，使用统计分析软件SAS中IML模块进行矩阵化运算[5],通过对K-means聚类算法的研究和应用[6,7]，得到关于职业类型的聚类结果，我们对经过聚类分析的数据进行挖掘，便可以得到网络招聘信息中关于职业类型、薪资、地域、学历和工作经验的知识模式。

4 结果分析和预测(Interpretation of result and

prediction)

4.1 对整体数据进行分析和挖掘

(1)通过北上广职业分布和大长福职业分布词云图(图1和图2)对比可以得出：

相同点：销售行业在两类城市占比最高，依此可以推断出在全国范围内，销售行业仍然占据主流招聘人群。

不同点：一线城市中除销售相关职业外，“PHP”“.NET”

“JAVA”“UI设计师”“iOS”“C++”等词出现频数较大，直接说明了大数据和IT相关职业在一线城市的兴起和热门，而二线城市各个行业需求较销售都比较小，借此推断高端技术的需求量和城市类型有一定关系。

图1 北上广职业分布词云图

Fig.1 The first position word cloud

图2 大长福职业分布词云图

Fig.2 The second position´s word cloud

(2)对比两类城市的学历、经验分别与平均薪资的分布图(图3和图4)可以看出，无论是哪类城市，随着学历的提高，薪资水平提高明显；随着工作经验的丰富，薪资水平同样提高明显。

所以我们有理由得出：工作经验和学历都与薪资水平呈正相关系，即随着学历的提高和经验的丰富，薪资水平提高明显。

图3 总体经验要求的平均薪资分布图

Fig.3 The experience and average salaries´

distribution diagram

图4 总体最低学历的平均薪资分布图

Fig.4 The education and average salaries´

distribution diagram

(3)通过聚类结果，得到关于职业类型和对应的平均薪资待遇的表格(表1)。

表1 各职业类型平均薪资

Tab.1 Different professional types of average salary

职业

类型传媒

艺术制造

生产销售

市场医师

服务业互联网

通讯房产

建筑法律

教育财务

人力金融

银行

平均

薪资 6584.7

元 7949.4

元 7267.8

元 5534.4

元 8919.5

元 7611.8

元 7487.0

元 4302.5

元 11862

元

通过对上述平均薪资状况的对比得知：金融银行业相应职位平均薪资最高，其次是要求专业技术较高的互联网通讯行业平均薪资条件优秀，其余产业薪资水平接近，但是鉴于职位供应地区是一二线城市。所以数据显示薪资水平与实际相比较为合理。

4.2 大数据和IT行业的预测

鉴于近年来大数据和IT行业的崛起，高精尖产业和职业的兴起已经成为了当今社会的主流走向，所以对这类行业进行分析更有价值。

(1)通过对这类专业招聘信息和总体招聘信息对比，得出大数据相关职业所占百分比条形图(图5)。通过对图表信息的解读，我们可以得到三点结论：

大数据相关职业招聘比例在2016年9月开始快速增长，到2017年2月开始放缓增长速度，但是仍然以一种放缓的趋势增长。

根据上图所示，大数据相关职业招聘比例最大的三个月份是2016年8月、2017年3月和2017年4月，结合实际分析，可以得出每年的这两个季度是大学生毕业求职的高峰期，也是传统意义上的秋招和春招，侧面说明了大数据行业对于学历要求和能力要求较高。所以集中大学生毕业求职期间发布招聘信息。

对比2016年8月和2017年4月数据可以得出，大数据行业正在逐渐增长所占比重。因此可以认为短期内，大数据相关行业所占比重在未来短期内会持续上升。

图5 大数据和IT相关职业占总体职业的比例

Fig.5 The proportion of the big data and IT in all

positions

(2)我们针对从整体数据中筛选出的大数据和IT行业的招聘信息数据的分析，得到关于大数据和IT行业的学历与经验要求柱形图(图6和图7)，从图像中我们可以得到如下结论：

根据图6得出，大数据和IT行业需求学历更高，半数以上的最低学历要求是本科，专科及以上学历占据绝大部分比例。说明这个行业对人才的要求更高，所以相对应聘者来说除专业适合以外，学历要求门槛也较高。

根据图像可以看出，经验要求大部分集中于经验三年以下和不限经验。参考社会大背景下，大数据和IT行业较传统工商业起步晚，说明现有供给量已经无法满足日益增长的需求量，基于此原因出现了经验要求低的现状。

结合以上两点，我们大胆预测市场急需关于大数据和IT行业的人才，正处于求大于供的阶段，而且学历越高、经验越多的人才薪资待遇越好。

图6 大数据和IT行业最低学历所占比例

Fig.6 The big data and IT´s education distribution

图7 大数据和IT行业经验要求所占比例

Fig.7 The big data and IT´s experience distribution

(3)通过对编码后各指标之间的关联规则进行挖掘，结果显示图如图8所示。

其中编码对应文本信息为：

c1=北京；c2=上海；c3=广州；c4=大连；c5=长沙；c6=福州。

s1=0-5k；s2=5-10k；s3=10-15k；s4=15-20k；s5=20-25k；s6=25-30k；s7=30k以上。

e1=高中以下；e2=大专以下；e3=大专；e4=本科；e5=硕士；e6=不限；e7=其他。

w1=一年以下；w2=1-3年；w3=4-5年；w4=5年以上；w5=其他。

图8 关联分析部分结果

Fig.8 The part of correlation analysis

通过图8的结果表示，在所有的大数据和IT相关职位中，存在的关联规则如下：

(1)如果一个企业在长沙，且要求学历是大专，工作经验一年以下，那么这家企业95.54%的概率提供平均薪资为0—5k。

(2)如果一个在北京的企业提供平均薪资为20k—25k，且要求工作经验是4—5年的人才，则有85.7%的概率需要最低学历为本科。

5 结论(Conclusion)

数据挖掘是一项综合技术，熟悉运用数据挖掘技术可以得到许多有价值的信息，通过对网络招聘信息的分析与挖掘可以得到学历和经验直接影响薪资水平，各类型职业的平均薪资状况，而且有针对性的对大数据和IT行业的行业现状分析，得出了相关行业有较大缺口，正处于求大于供的阶段。通过对大数据和IT相关信息的挖掘，得出在置信度很高的关联规则下的解读信息。本文针对大数据和IT行业着重进行分析和挖掘，并没有得到所有职业类型数据信息，这是本文存在的不足之处，同样也是我们下一步的研究方向。

参考文献(References)

[1] 赵鹏.企业网络招聘的现状与对策研究[J].人力资源,2016,

11:145.

[2] Benites,et al.Evaluation of Hierarchical Interestingness Measures for Mining Pairwise Generalized Association Rules[J].IEEE TRANSACTIONSON KNOWLEDGE AND DATA ENGINEERING,2014,26(12):3014-3015.

[3] Erkens,et al.Improving collaborative learning in the classroom:Text mining based grouping and representing[J].International Journal of Computer Supported Collaborative learning,2016,11(4):389-391.

[4] 田瑞.针对特定主题的短文本向量化[J].软件,2012,33(11):

202-203.

[5] 张晓冉.统计分析及其SAS实现[M].北京:清华大学出版社,2011.

[6] Chen,et al.Discriminative Hierarchical K-Means Tree for Large-Scale Image Classification[J].IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS,2015,26(9):2200-2202.

[7] Liu,X&Li,M.A Predictive Fault Diagnose Method of Wind Turbine Based on K-Means Clustering and Neural Networks[J].JOURNAL OF INTERNET TECHNOLOGY,2016,17(7):1521-1528.

作者简介：

章胤(1978-)，男，硕士，讲师.研究领域：微分方程数值解，数学建模.

赵文慧(1996-)，女，本科生.研究领域：应用统计和大数据分析.

包恒玥(1995-)，女，本科生.研究领域：应用统计和大数据分析.

李亚健(1995-)，男，本科生.研究领域：应用统计和大数据分析.

周克强(1995-)，男，本科生.研究领域：应用统计和大数据分析.

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时删除处理。

上一篇: 卫星导航信号模拟器加速度性能测试方法研究下一篇: 电力输电线路自动故障诊断系统研究

学术新闻相关资讯

学术不端查重入口

硕博初稿查重系统

检查语种：中文,英文,小语种预计时间：2小时-6小时

系统说明硕博初稿检测（一般习惯叫做硕博预审版），论文查重检测上千万篇中文文献，超百万篇各类独家文献，超百万港澳台地区学术文献过千万篇英文文献资源，数亿个中英文互联网资源是全国高校用来检测硕博论文的系统，检测范围广，数据来源真实，检测算法合理!本系统含有（学术库与源码库）。（限制字符数30万）

检查范围硕士、博士论文初稿【误差一般在3%左右，不支持真伪验证】

498.00元/篇

立即检测

维普论文检测系统

检查语种：中文,英文预计时间：60分钟

系统说明论文查重软件,维普论文检测系统：高校，杂志社指定系统，可检测期刊发表，大学生，硕博等论文。检测报告支持PDF、网页格式，性价比高！

检查范围毕业论文、期刊发表

4.00元/千字

立即检测

本科高校内部版系统

检查语种：中文,英文,小语种预计时间：2小时-6小时

系统说明比定稿版少大学生联合比对库，其他数据库一致。出结果快，价格相对低廉，不支持验证，适合在修改中期使用，定稿推荐PMLC。——不支持验证！！！

检查范围本/专科毕业论文,不支持验证

288.00元/篇

立即检测

本科定稿查重系统

检查语种：中文,英文,小语种预计时间：24小时-72小时

系统说明本科定稿查重版（一般习惯叫本科终评版），论文抄袭检测系统，专用于大学生专、本科等论文检测的系统，大多数专、本科院校使用此检测系统。（限制字符数6万）

检查范围本科论文检测【是提交学校前进行的一次摸底评估，基本一致】

388.00元/篇

立即检测

万方论文查重系统

检查语种：中文预计时间：60分钟

系统说明论文检测网站,万方数据平台推出的万方查重系统是目前较为热门的检测系统。究其原因，万方数据通过近年的发展，在高校中也确立了自己的相应地位，特别是部分高校直接将其视为毕业检测系统，其真实性和权威性无可厚非。其次，相对于知网而言，万方检测费用少，上手容易，是学生初次论文查重的推荐系统。

检查范围毕业论文、期刊发表

4.00元/千字

立即检测

PaperPass论文查重系统

检查语种：中文预计时间：60分钟

系统说明PaperPass检测系统是北京智齿数汇科技有限公司旗下产品，网站诞生于2007年，运营多年来，已经发展成为国内可信赖的中文原创性检查和预防剽窃的在线网站。系统采用自主研发的动态指纹越级扫描检测技术，该项技术检测速度快、精度高，市场反映良好。

检查范围学位论文和学术期刊

3.00元/千字

立即检测

职称评审论文查重系统

检查语种：中文,英文,小语种预计时间：3小时-72小时

系统说明职称评审论文检测系统针对编辑部来稿，已发表的文献，学校、事业单位职称论文的检测!大部分杂志社用的文献抄袭检测系统。可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端文献，学术不端论文查重可供期刊编辑部检测来稿和已发表的文献,检测结果和杂志社一致,已发表过的文章检测时注意填写第一作者,才能排除已发表文献复制比。（限制字符数1万）

检查范围投稿/发表/职称评审

98.00元/篇

立即检测

格子达论文查重系统

检查语种：中文预计时间：60分钟

系统说明格子达依托学术期刊库收录了海量对比资源，其中包括中国论文库、中文学术期刊库、中国学位论文库等国内齐全的论文库以及数亿级网络资源，同时本地资源库以每月100万篇的速度增加，是目前中文文献资源涵盖全面的论文检测系统，可检测中文、英文两种语言的论文文本。

检查范围毕业论文、期刊发表

4.00元/千字

立即检测

PaperTime论文查重

检查语种：简体中文、英文预计时间：60分钟

系统说明PaperTime论文查重系统，拥有海量的对比数据库，总收录超过9000万的学术期刊和学位论文以及一个超过10亿数量的互联网网页数据库组成，保证了比对源的专业性和广泛性。采用多级指纹对比技术结合深度语义发掘识别比对，利用指纹索引快速而精准地在云检测服务部署的论文数据资源库中找到所有相似的片段，该项技术检测速度快、准确率高，市场反映良好。

检查范围毕业论文、期刊发表

2.00元/千字

立即检测

龙源期刊论文查重系统

检查语种：中文预计时间：80分钟

系统说明龙源期刊论文查重系统，自主研发高效稳定的计算服务，最快35S即可获得检测结果，大片段、长短句，不遗漏一处相似，区分论文中的正确引用参考文献。

检查范围期刊投稿、职称评审

4.00元/千字

立即检测