《数据挖掘与商务智能》小组作业

发布 2022-09-09 19:16:28 阅读 5757

决策树算法在人力资源管理中的应用研究。

1 数据挖掘技术在人力资源管理中的应用。

随着信息技术的迅速发展,特别是数据库技术和计算机网络的广泛应用,企业拥有的数据量急剧增加。在大量的数据与信息中,蕴藏着企业运营的利弊得失,若能够对这种海量的数据与信息进行快速有效地深入分析和处理,就能从中找出规律和模式,获取所需知识,帮助企业更好地进行决策。数据挖掘技术和产品在这种市场需求中逐渐发展成熟,并使企业获得极高的投资回报。

图1 数据挖掘在人力资源管理中的应用。

1)员工招聘。

员工的招聘是具体人力资源管理的开始。人力资源管理者利用各种方法和手段,如网路招聘、接受推荐、刊登广告、举办人才交流会、到职业介绍所登记等从组织内部和外部吸引优秀人才。招聘是企业获取人力资本的重要手段,企业要生存并持续发展就必须招聘。

因此,招聘的结果直接关系到企业能否保持优良的员工素质和合理的结构,也影响企业的人员流动和人力资源管理的费用控制。现实中往往经常存在着这种现象,企业急需优秀员工但招聘者找不到合适的人才,而有能力的求职者又找不到合适的工作。这些问题主要就是因为二者的许多潜在的联系没有被挖掘出来。

比如说,招聘的企业不了解求职者离职的普遍原因,不了解求职者普遍要求的薪资水平等,这就导致企业在招聘过程中盲目性。而要解决这类问题,就目前的技术而言,采用数据挖掘技术是一种方便有效的解决方案。在数据挖掘子系统中,数据挖掘技术所要解决的问题之一就是找出求职者身份、特点与离职的各种原因之间的关系并建立模式,以公司可以通过调整薪资、福利,甚至更换工作环境等手段来留住所需的人才,对新的求职者做出**,以帮助人力资源部门招聘人员找到正确的招聘对象。

2)员工绩效考评。

对在职员工的管理,不能只局限于记录和管理相关的数据,如员工基本信息,员工考核信息等,更重要的是应该能整理和分析这些数据,并提出有价值的报告。例如:通过对员工考评数据的分析,企业可以了解到目前的整体绩效状况;通过对工资结构分布的分析,可以提出成本控制的建议等。

所以我们要求人力资源管理系统不但要对企业整体的人力资源状况做出判断,更重要的是可以向企业高层提出支持性的建议,引入数据挖掘技术,即可达到该目标。在该系统中运用数据挖掘技术,比如通过对人才年龄的分析,判断公司年龄结构是否合理,应补充哪一年龄层次的人才等;收集和分析人力资源供给与需求方面的信息,**人力资源供给和需求的发展趋势。这些统计与分析结果为人力资源部制订人力资源招聘、调配、培训、开发及发展计划等政策和措施提供准确、量化的依据。

3)员工离职。

在市场化的人才就业机制下,人才的流动是一种必然现象,而且我国正处于社会转型期,人才的流动更为频繁。适度的员工流动率对企业发展有益,但是员工流动过于频繁,对于企业和社会都具有不利影响。对于企业来说,过高的员工流动率意味着企业人才的流失,以及企业在员工身上所进行的人力资源投资的丧失,包括招聘,培训等费用的空耗,还面临着巨大的重置成本。

特别是核心员工的离职,往往对企业产生非常重要的影响,甚至决定企业的生存与否。离职员工从不同的方面对企业的生产经营过程产生着各种各样的影响,特别是现在的人员流动经常是以团队方式进行的,一个人的离职可能会产生连锁反应,严重的有可能使企业陷入瘫痪。企业应充分认识到人才流失对企业经营带来的巨大风险,建立完整的针对人才流失危机管理机制,从而避免优秀人才的流失可能给企业带来的巨大损失。

人力资源管理者通常是通过书面调查和口头询问得到的信息来定性的分析员工离职原因,但是这种分析带有很大的主观性。通过数据挖掘技术建立起员工分类模型,发现离职员工的主要特征,然后利用这个模型挖掘出在职员工中的潜在的离职者,对于其中的优秀员工,企业应该引起重视,并采取措施留住人才。

诚如上文所述,人力资源的管理的目标是人——员工,他是一个复杂的、易变的对象,传统的分析方法已经不能满足管理者的需要。数据挖掘技术在近几年刚刚出现,它在挖掘数据中隐含的规律以及解决具体问题方面而言,是其他技术方法所不能比拟的。现已经在实际领域得到广泛的应用,并且产生了良好效果。

此外,数据挖掘技术的优点是可以集成到具体的人力资源管理系统之中,从而利用已有信息系统存储的数据进行挖掘计算,利用计算机应用程序,把高深复杂的统计技术、挖掘算法封装起来,使人们不用掌握这些技术也能完成同样的功能,从而更专注于自己所要解决的问题。

下面是一些数据挖掘技术在人力资源管理系统中研究和应用的实例。

1)ibm在管理系统解决方案中,数据挖掘部件使用的是intelligent miner。它提供以下功能:a.

广泛的数据挖掘技术和算法集;b.在数据规模和计算性能方面有非常高的可伸缩性,可在许多ibm和非ibm的平台上运行;c.具有大量能被用来开发用户化数据挖掘应用程序的编程接口;所有的数据挖掘引擎和数据操纵函数能通过共享c++库被访问。

intelligent miner支持分类、**、关联规则产生、聚类、顺序模式侦测和时间序列分析的算法。大多数算法是由ibm研究所研发出来的,是ibm专有技术,只存在于intelligent miner中。intelligent miner是一个客户服务系统,客户机用于控制用户界面和数据可视化函数,而数据挖掘和数据操纵引擎在服务器上intelligent miner支持展开文件并提供对db2的直接访问。

intelligent miner支持数据挖掘在人力资源管理系统中的应用。

2)enterprise miner是sas公司推出的数据挖掘工具。它支持关联、聚类、决策树、神经元网络和经典回归技术,它能运行在客户服务模式下。其对数据的访问是通过标准的sas数据程序(sas/access模块)。

总的来说,它适用于企业在数据挖掘方面的应用和人力资源管理的决策支持应用。

国内目前也有不少的软件公司开发出了自己的人力资源管理系统产品,但他们的产品大部分停留在对员工信息的记录上,对数据挖掘部分比较弱化。这与我国的数据挖掘技术应用水平有一定的关系。但随着人力管理管理系统在我国的进一步发展,企业对数据挖掘部分的要求会越来越高,因此加强数据挖掘技术在人力资源管理方面的应用研究,有利于提高我国企业对人力资源管理系统理论的进一步认识和促进我国企业人力资源管理系统应用水平的提高。

2 决策树应用。

2.1 基于id3算法的决策树应用。

决策树技术是用于分类和**的主要技术,决策树学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理除决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支,然后进行剪枝,最后在决策树的叶节点得到结论。

所以从根到叶节点就对应着一条合取规则,整棵树就对应着一组析取表达式规则。基于决策树的分类有很多实现算法。id3是较早提出并普遍使用的决策树算法。

quinlan提出的著名的id3学习算法是较早的经典算法,它通过选择窗口来形成决策树,是利用信息论中的互信息寻找训练集具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支过程。

2.2 决策树方法在员工离职分析中的应用。

1、员工分类过程中的总体结构。

利用决策树对离职员工资源进行分类的目的,是在公司在职员工中挖掘出潜在离职者。然后,就可以有针对性地对一些潜在离职的重要员工,采取一些措施进行挽留,减少企业由此带来的损失,形成一个稳定的员工团体。主要的措施分为三类:

一、激励机制留人才;二、建立合理的薪酬结构;提供有竞争力的薪酬水平;三、重视人本管理,给员工的发展提供机会。

员工分类过程的总体结构如图2所示:

图2 数据挖掘在人力资源管理中的应用。

2、数据准备。

1)数据选取。

从数据源中得到的历史数据存在着量大、属性繁多、定义复杂、不完整的特性,分析人员需要从大量的数据中选择适合分析的数据。不同时间段的员工具有不同的特征,比如,现在员工学历普遍比过去十年前的高,因此不能用十年前的相关数据来建立模型,**现在员工相关情况。系统选取数据的过程中,将运用sql查询语句得到近几年的数据。

2)数据清理。

数据清理也可称为数据清洗。数据清理是在数据中清除错误和不一致,并解决对象识别问题的过程。数据清理包括空值处理、噪声处理及不一致数据处理等。

数据不一致性导致数据挖掘结果的信任度降低。数据清理去除噪声或无关数据,并处理数据中缺失的数据域。

3)数据归纳。

数据挖掘上机作业

数据挖掘 实验。实验要求 一 所有选课的学生都必须提交上机实验报告 二 实验报告应包括如下内容 1 算法基本思想的描述。2 编程实现算法。3 输出运算结果。三 分类技术和凝聚技术的两个问题中,可以各选择一个题目,关联规则挖掘的题目必选,即每个人至少选三个题目。实习一分类技术及其应用。实习题1 基于决...

数据挖掘技术平时作业

第一次 1 什么是数据挖掘?当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。参 数据挖掘是指从大量数据中提取有趣的 有价值的 隐含的 先前未知的 潜在有用的 关系 模式或趋势,并用这些知识与规则建立用于决策支持的模型,提供 性决策支持的方法。很多学者把数据挖掘当作另一术语kdd的同义词,而...

数据挖掘第二讲作业

第二讲大数据分析处理概述。1 hadoop是一个 c a.进行大数据分析处理的操作系统。b.专门存储大数据的数据库。c.大数据计算框架。d.收费的商业数据分析服务提供商。2 hadoop集群可以运行的3个模式是 abc 多选。a.本地模式。b.伪分布模式。c.全分布模式。d.离线模式。3 在hado...