基于线性回归的保险公司员工选拔模型。
一、研究背景。
随着中国改革开放的推进,保险行业也迎来了一个新的春天。尤其是加入wto后以来,中国保险行业市场越来越完善,发展也越来越迅猛。但整体来看,中国保险业由于起步较晚,规模较小[1],目前仍处于发展与挑战并存的机遇期。
作为行业发展的一个必备力量,人才的选拔和任用将会直接决定一个企业的长远发展。想要使企业在激烈的市场竞争中获得一席之地,就必须把人力资源的管理放在首位,拥有和储备一大批在知识和技能上胜任保险工作需要的员工[2](本文主要以保险**人为研究对象)。
因此如何选拔出保险行业最需要的员工成为摆在保险公司人力资源者面前的最主要问题。之前对于人才招聘的研究大多是从人力资源的角度出发,比如最常见的员工胜任力模型、评价中心技术等等。这些研究大多是从传统的人才评价理论出发进行定性研究、问卷统计研究。
而另一方面,在招聘的现实情况中,又存在其他一些“潜在招聘规则”。比如某些企业的招聘人员会下意识进行性别选择、户口选择(农业或非农业)、婚育情况选择、学历选择、工作经历要求等等,这些或软性、或硬性的选人指标,被很多人hr认为是最实用、最实际的招聘方法。普遍意义上来说,这些指标是可以提高公司员工的质量,但从另一个角度来考虑,它们也限制了人才的选拔,使得很多简历“不好看”,但是有实际能力的人才被埋没。
造成这一现象的最主要原因就是,这些指标都是**于经验或者主观臆断,没有比较科学、数理的方法来验证。
本文将尝试从新的研究角度出发,根据某一保险公司的真实数据,以计量经济学中线性回归模型为研究方法,**保险公司员工(保险**人)的保险业绩与哪些因素有关。以此来对保险公司更好地选拔员工和保险**人提供建议。
二、数据说明与文章框架。
本文中主要选取了泰康公司2023年保险**人的实际工作业绩为数据。主要使用的数据是“**人业务数据”和“tsr员工人员信息”表,数据真实可信。
本文包括七个部分,除背景介绍外,首先会对数据进行初步处理和描述性统计。之后的模型介绍一节包括了对理论模型和计量经济学模型的原理介绍。随后进行模型结果的分析,包括参数估计、假设检验、马尔科夫假设的验证等。
文章还包括对模型反思与修正,以得到更好的模型形式。后一部分进行了以方差分析为主的拓展研究以验证回归分析的结果。最后根据以上的建模过程与结果进行政策建议。
三、数据处理。
一)数据处理。
1.数据筛选。
首先将“tsr员工人员信息”中员工“姓名”与“美日泰康9-11月**人业务数据”中“**人”姓名一致的记录筛选出来。将“tsr员工人员信息”中的“姓名”、“出生日期”、“性别”、“户口性质”、“最高学历”、“婚姻状况”、“是否复职”、“生育”、“第一次参与工作时间”、“住房情况”属性保留,将“美日泰康9-11月**人业务数据”中“**人”、“年化标保”属性保留,将其按照“姓名”及“**人”的一致关系整理成一张新的**。
2.记录剔除。
新生成**中存在大量含有空数据的记录,为尽量多地保留各属性中包含的信息,现将含空数据的记录剔除,而不是将含空数据的属性剔除。剔除操作完成后,剩余46条员工信息记录。
3.变量转换。
对剔除后的数据按照“姓名”进行排序,然后将每个**人的“年化标保”求和,生成新的属性“总业绩”。
接着,利用“出生日期”数据计算出**人在2023年的“年龄”,并生成新属性;利用“第一次参与工作时间”数据计算出截至2023年各**人的“工作时间”,并生成新属性。
最后,将“性别”、“户口性质”、“最高学历”、“婚姻状况”、“是否复职”、“生育”、“住房情况”这几个分类变量转化成虚拟变量:“性别”属性转化为变量“是否为男性”;“户口性质”属性转化为变量“是否为非农业户口”;“最高学历”属性转化为变量“最高学历是否为初中”、“最高学历是否为高中”、“最高学历是否为中专”、“最高学历是否为大专”;“婚姻状况”属性转化为变量“是否已婚”;“生育”属性转化为变量“是否未育”;“住房情况”属性转化为变量“是否自有住房”、“是否租赁住房”。上述变量中,“1”代表“是”,“0”代表“否”。
二)数据的预研究。
首先对数据进行描述性统计——针对数值型变量,描绘其直方图观察其大致分布;针对分类变量,绘制饼图观察各类别所占比例。
1.直方图。
总业绩:年龄:
工作时间:其中总业绩分布接近于幂律分布,原理应类似于财富分布的“二八法则”;年龄分布接近于正态分布,主要集中在30岁左右;而工作时间并未有突出的分布形态规律。
2.饼图(左侧饼图依据不同类别员工数量汇总绘制,右侧饼图依据不同类别员工业绩汇总绘制):
性别:户口:
婚姻状况:生育状况:
最高学历:住房情况:
观察以上各组中的左图,从直观上可得出以下结论:在保险业中,女性员工多于男性员工;农业户口员工所占比例较大;未婚员工多于已婚员工(这从一定程度上与“员工年龄集中在30岁左右”相呼应);拥有大专以上学历的员工少之又少,大专学历的员工为**人主要组成部分[3]。
对比上述各组中的左右两图可推知:男性员工业绩优于女性员工业绩;农业户口员工业绩优于非农业户口员工业绩;未婚员工业绩优于已婚员工业绩;已育一子女员工的业绩优于已育两子女员工的业绩优于未育子女员工的业绩;大专学历员工业绩优于其他学历员工业绩;自有住房员工的业绩优于租赁租房员工的业绩。
接下来,从跟深层次的角度挖掘各个解释变量与被解释变量之间的联系。
四、模型介绍。
回归被用于研究可以测量的变量之间的关系。线性回归则被用于研究其中一类特殊的关系,即可以用直线或多维直线描述的关系。在本文中,我们建立多元回归模型如下:
一)理论模型。
经过上一节中对数据的预处理,同时考虑企业招聘中的现实情况,我们将初步建立一个多元回归模型。其中因变量为保险公司**人的工作业绩,自变量包括性别、户口类型、最高学历、婚姻状况、生育状况、住房情况这些虚拟变量和年龄、工作时间这两个数值型变量。初步设定回归模型都是线性关系。
二)计量经济学模型。
总结上述研究,建立计量经济学模型如下:
总计有12个回归变量。其中mid、seni、tec、juni分别表示最高学历是否为初中、高中、中专、大专,marry表示是否已婚,nonbab表示是否未育,male表示是否为男性,nonagri表示是否为非农业户口,ownh表示是否自由住房,trenth表示是否租赁住房,age表示年龄,wtime表示工作时间。……是偏回归系数。
举例来说,表示其他变量保持不变的情况,学历是否为初中对于因变量工作业绩的影响。
三)线性回归方程。
由于总体回归参数……未知,所以就必须用样本数据去估计。在这里采用的是最小二乘法估计参数。
最小二乘法的简单表述为:找出让残差平方和最小的参数。即:
本文主要运用spss来进行研究,具体结果与参数检验、显著性检验及模型进一步修正见下一部分。
五、回归分析及前提检验。
一)计算结果分析。
根据上述方法,得到回归结果如下:
其中参数估计结果为:
但从参数检验(t检验)结果来看,一些自变量对因变量的解释效果并不显著,如:性别(p值为0.317)、最高学历(mid对应p值为0.
613,seni对应p值为0.467,tec对应p值为0.169)、生育状况(p值为0.
307)、工作时间(p值为0.2)、住房情况(ownh对应p值为0.431,renth对应p值为0.
181)。
且从整体线性检验(f检验)结果来看,该模型并未通过检验(p值为0.134)。
从共线性诊断的检验结果来看,各解释变量的vif值虽然并不是特别大,均与1有相应偏离,这可能是模型解释能力差的原因。接下来用逐步回归来对模型改进,希图得到解释能力好且不冗杂的回归模型。逐步回归就是依据一定准则,把没有显著影响的变量去掉的方法。
具体做法是,让变量经过检验,逐个的进入(标准是使决定系数增加的最大)。变量的增减会使自变量对回归方程的贡献发生变化,所以选最大的决定系数对应的变量个数进入模型。逐步回归结果如下:
逐步回归的最终结果是——只剩下“年龄”对“总业绩”进行解释。原始的多元线性回归模型变为单元线性回归模型,用公式表达即:
而单元回归中整体线性检验与参数检验效果相同,检验的均是唯一的自变量对被因变量的解释效果。由以上图表可知,模型通过了整体线性检验(p值为0.032),这说明:
“年龄”对“总业绩”作用能力显著。而模型的参数估计结果为:,这表明:
年龄越大的员工,其绩效越高。
二) 前提条件检验。
在此,利用计算结果对回归的前提假设做出检验。
1.误差项的期望值是0,且方差σ2相同(方差齐性);
在这里,我们做了标准化**值和标准化残差的散点图(横轴为标准化**值,纵轴是标准化残差)如下:
可以看出,大部分散点都位于(-3,3)之间,根据文献[4],我们可以说基本满足此假设。即随机误差的方差不随解释变量的变化而变化,其方差是相同的。
2.随机误差项是服从正态分布的随机变量:
为验证假设,本文中做了残差的直方图和p-p图如下:
可以看出,p-p图中的样本点基本都处在直线的两侧,可以说随机误差符合正态分布。
3.多重共线性检验。
由于逐步回归后得到的模型为单元回归模型,满足无完全的多重共线性即解释变量的取值不一样。回归所用数据显然满足这一点(共线性诊断结果vif=1亦能说明这一点)。
综上所述,本研究中的数据基本符合多元回归中的前提假设。
六、模型反思与修正。
一)对数形式。
在前述模型中,因变量“总业绩”取值恒正,且数值较大。恒正的因变量往往意味着条件分布是异方差的或者是倾斜的,这与高斯马尔科夫假定不相符合。而取对数可以缩小取值范围,减少异常观测的负面影响。
引起,对“总业绩”取对数并将其作为新的因变量可能更加合适。
对其进行逐步回归,得到结果如下:
最终结果仍为只剩下“年龄”对因变量进行解释。用公式表达即为:
而参数检验及整体线性检验结果均说明“年龄”对因变量的解释能力仍旧很显著,由此所得结论与此前也无显著差异。
二)二次式形式。
按照常理来讲,员工开始工作的时间越早,其积累的工作经验越丰富,则绩效也可能相对较高,“工作时间”与“总业绩”在理论上应存在较强关联。而在此前两次逐步回归中,“工作年龄”都未被保留在最终模型当中,这表明“工作时间”对“总业绩”的解释能力并不显著。
那么,加入“工作时间”平方项后的模型呢?
含“工作时间”的项依然没有进入回归模型,这说明其对“总业绩”的解释效果的确并不明显。
七、拓展研究。
通过上两节中回归模型的模拟,发现很多在现实中常见的选拔指标比如户口类型、性别、学历高低等,对于因变量的影响并不大,并没有通过显著性检验。但是考虑到,这些指标在各大公司中的普遍运用,因此本文将采用其他方法来进行拓展研究。这里主要运用的是方法分析法,单独对某些因素进行研究。
方差分析,简单来说就是通过分析研究中不同**的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。这里采用这个方差分析的方法,不仅能够更有针对性地去单独**某些变量的影响,同时因为不需要数据属性全部齐全,因此可以减少数据筛选,最大程度的利用样本数据。
计量经济学大作业
题目 1960 1999年美国城镇工资与生产率和失业率关系的实证分析。学院 国际经济与管理学院。班级 国际经济与 10 1 学号 1065137125 姓名 郝江萍。美国的失业率在1994年年底跌倒6 以下,当时有很多经济学家 美国的通货膨胀势必要升高,因为经济学界大多数认为美国的自然失业率大约为6...
计量经济学大作业
计量经济学实验报告。姓名 沈娴婷学号 班级 金融班。影响城镇居民人均可支配收入的因素分析。一 研究的问题。近年来,随着经济的快速发展,人均国内生产总值在不断地提高。城镇居民家庭人均可支配收入在近几十年里也逐步提升,有了些许改变。为了研究影响城镇居民人均可支配收入的原因,和各种原因影响因素的程度关系,...
计量经济学大作业
计量经济学实验报告。姓名 沈娴婷学号 1043117 班级 10金融1班。影响城镇居民人均可支配收入的因素分析。一 研究的问题。近年来,随着经济的快速发展,人均国内生产总值在不断地提高。城镇居民家庭人均可支配收入在近几十年里也逐步提升,有了些许改变。为了研究影响城镇居民人均可支配收入的原因,和各种原...