基于数据挖掘的大型企业人力资源需求预测研究

　　摘要：对企业的人力资源需求预测方法进行梳理和分析，提出人力资源需求预测作为数据挖掘问题的研究思路。通过对典型数据挖掘工具支持向量机的理论分析，设计了一种针对人力资源需求预测的改进的支持向量回归算法，并通过实例证明了本文提出的方法对企业人力资源需求预测具有良好的实际参考价值。
　　一、问题的提出
　　人力资源是企业可持续发展的第一资源。现代人力资本理论认为，人力资本是企业的最核心资产，也是为企业赢得持久竞争优势的最后一项资产。同时人力资源成本的快速提高，使企业不得不进行更加精细化的人力资源管理规划，以有效控制人工成本，实现企业发展战略。
　　人力资源需求预测是人力资源规划的重要工作内容。其一般根据企业内部运行情况及外部环境分析，预测企业未来人力资源运行趋势，以便提前制定相关策略，最终支撑、服务企业发展战略。大型企业是国民经济的根本，是改革创新的主力，在民生、国防等领域发挥着中流砥柱的作用。大型企业不仅规模大、部门齐全，同时组织架构复杂、岗位性质迥异，其人力资源需求预测需要考虑多方面因素。本文在梳理企业人力资源需求预测方法的基础上，引入数据挖掘的相关概念，提出了一种基于数据挖掘的多因素人力资源需求预测方法，以期为相关企业的人力资源需求规划提供参考。
　　二、人力资源需求预测一般方法
　　目前，国内外人力资源需求预测方法一般可分为定性的宏观预测和定量的微观预测两大类。常用的宏观预测方法包德尔菲法、经验预测法、经理判断法等。该类方法一般基于专家（人）的经验判断，非常灵活，能够适应多变的内、外部环境，但同时受人的主观因素影响较大，因此常用于对趋势的判断。常用的微观预测方法主要包括趋势分析法、比例分析法等，该类方法使用数据分析的理念，建立在企业的客观指标下，能够给出明确的预测结果，易于解读、理解，在实际应用中更具有操作性。但目前实际应用微观预测法时，预测模型的选定只能依据预测者的经验，并往往需要对影响因素和历史情况进行简化以保证可接受的计算复杂度，非常容易将关键因素错误的排除，导致预测失败。
　　三、基于数据挖掘的多因素人力资源需求预测方法
　　1.数据挖掘原理
　　数据挖掘是通过各种方法（一般为数学算法）从数据中探索隐藏的规律性信息的过程。从本质上讲，企业人力资源需求预测，可以看作是通过分析企业内部情况及外部环境等因素，发现企业人力资源需求与影响因素间的内在规律的过程，可作为典型的数据挖掘问题处理。
　　机器学习是在20世界80年代兴起的用于数据挖掘的学科。它一般利用统计学方法来探索输入数据中存在的规律性，并可根据训练模型对新的输入进行结果预测。支持向量机（SVM）作为一种优秀的非线性机器学习工具，由Cortes&Vapnik;在1995年首先提出。它根据Vanik和Chervonenkis提出的统计学习理论，通过最小化结构风险，获得对历史数据实现最优分类的超平面，具有理论完备、使用方便的特点，是机器学习研究的一项重大成果和研究热点，目前仍在是机器学习领域的核心算法之一。
　　虽然支持向量机最初是为解决分类问题提出的，但其核心的核函数与支持向量概念，使其很容易推广到回归分析，即支持向量回归机（Support Vector Regression，SVR）。SVR通过核函数，将输入向量映射的一个高维特征空间中，寻求使所有样本点离超平面的总偏差最小的超平面，从而取得在原空间非线性回归的效果。同时，SVR仍保持着小样本数据挖掘的出众性能，非常适合用于企业人力资源需求预测。
　　一般的，定义回归函数为：
　　（1）
　　SVR将输入量通过核函数映射到高维特征空间，并引入松弛变量 和惩罚系数C，将优化目标函数记作：
　　（2）
　　通过构建拉格朗日函数计算极值点，最终获得最优的回归超平面。
　　2.变权重支持向量回归机
　　人力资源需求预测问题输入的历史数据从本质上是时间序列数据。时间序列的重要特点是历史数据的重要性随着时间的回溯而下降，即在回归过程中近期数据和早期数据的回归误差要求是不同的。而传统SVR模型回归过程中松弛变量 的权重是相同的，将导致回归超平面会偏向大方差样本，而非近期样本，容易造成回归失真。
　　为了解决这一问题，引入权重系数向量 来实现对每个样本采用不同的惩罚力度，以区别样本序列中近期数据和早期数据的重要程度，调整各样本在回归中的作用，即变权重支持向量回归机。调整后的模型形式为：
　　（3）
　　权重系数可采用指数化的权重系数，即
　　（4）
　　其中，N为历史数据合计年份数。
　　四、某大型企业人力资源需求预测实例
　　以某汽车行业企业为实例，对其人力资源需求进行分析，以验证本方法对企业人力资源需求预测的效果。通过相关性分析，我们对影响该组织人力资源需求的因素进行筛选。选择销量、在研型号、产值、利润、采购经理指数五大因素作为影响其人力资源需求的关键因素，具体数据如表1所示，其中2010年至2015年为企业真实历史数据，2016年为预期目标数据。
　　1.数据的预处理
　　从表1可以看到，关键因素之间的数值量级差距很大，导致各因素的序列方差差距很大，直接应用将导致回归结果只取决于方差大的影响因素，因此需要对数据进行预处理。这里采用z-score方法对每组关键因素进行处理，公式如下：
　　（5）
　　经过预处理后，所有关键因素具有了近似的数值量级，处理结果见表2。
　　2.变权重SVR人力资源需求预测
　　选用LibSVM作为变权重SVR模型的实现环境，在原LibSVM函数SVMModel中加入指数化权重矩阵。采用高斯函数作为核函数：
　　（6）
　　根据实验和经验，设定核宽度 =20以实现对数据的高维非线性映射。惩罚因子C设置为100，可以避免惩罚因子过小对训练数据造成欠学习或过大造成对训练数据的过学习而导致的泛化性能恶化。模型中松弛变量基数取0.01，数据点的逼近精度较高，同时训练模型中支持向量的数目较少保证模型具有良好的外推性。
　　为验证本方法的预测精度，首先选取2010-2014年5年的历史数据作为训练集，获得回归模型。将2015年各关键因素带入获得的SVR模型后，输出2015年该组织的人力资源需求为5653人，人力资源缺口181人。与2015年实际5647人，补充175人相比，人员总数预测偏差为0.1%，人员缺口预测偏差为3.43%。而实际上，2015年该公司的人力资源情况较好的满足了公司战略实现的需要，证明预测结果具有良好的参考价值。
　　为预测2016人公司人力资源需求，重新选取2010-2015年6年的历史数据作为训练集训练新的SVR模型，带入2016年各关键因素，预测2016年该组织的人力资源需求为5962人，即该组织2016年的人员缺口为315人。
　　五、结论
　　本文从数据挖掘的角度研究企业人力资源需求预测问题，在传统SVR的基础上，通过引入样本权重向量实现对历史数据时间序列重要度的区分，更好的适应了企业历史数据的特点。实例证明了本方法对企业人力资源需求预测具有良好的参考价值。
　　由于影响大型企业人力资源需求预测的关键因素较多，如何更好地选择、提取和综合各因素，使其与数据挖掘方法更科学的结合，仍是需要进一步研究的问题。
　　参考文献
　　[1]孙海法.现代企业人力资源管理[M].广州：中山大学出版社，2002
　　[2]韩亚明.浅析人力资源需求预测常用方法[J].人力资源管理，2011（4）：51-52
　　[3]C Cortes，V Vapnik.Support-Vector Networks[J].Machine Learning， 1995，20（3）：273-297
　　[4]Chih-Chung Chang and Chih-Jen Lin. LIBSVM： A library for support vector machines[J]. Acm Transactions on Intelligent Systems & technology， 2011，2（3）：389-396
　　作者简介：
　　李鹏，男，1984年生，博士研究生，工程师，研究方向为数据分析与挖掘
网站目录投稿：碧竹