R-C4.5决策树模型在高职就业分析中的应用

来源:网络(转载) 作者:张继美 桂红兵 发表于:2011-08-15 10:55  点击:
【关健词】R-C4.5;就业质量;高职就业分析;决策树
阐述了决策树分类技术和R-C4.5决策树模型。以某高职院校近几届毕业生的个人信息、教育信息和就业信息数据为研究对象,对实验数据进行数据预处理,运用R-C4.5决策树分类技术进行数据挖掘,挖掘出影响高职毕业生就业质量的相关因素,为政府和学校提高就业质量的各类措施和

The Application of R-C4.5 Decision Tree Model in Higher Vocational Employment
  ZHANG Ji-mei, GUI Hong-bing
  (Information Engineering, Bozhou Vocational and Technical College, Bozhou 236800, China)
  Abstract: Expounds the decision tree classification technology and R-C4.5 decision tree model. In a recent graduates of higher vocational colleges of education personal information, information and employment information data for the research object, experimental data in the data pretreatment, using R-C4.5 decision tree classification technology data mining, dig out the influence the quality of higher vocational graduate employment related factors, for government and schools improve employment of the quality of all kinds of measures and reform provides decision-making basis.
  Key words: R-C4.5; Employment quality; higher vocational employment analysis; decision tree
  随着网络信息技术和数据存储技术的迅速发展,出现了数据挖掘技术。数据挖掘是一种数据分析的方法,它对给定的数据样本集进行分析,提取当前数据集中的规则或特征知识以得到预测性的信息。决策树是数据挖掘中用于分类和预测的主要技术,它通过构造决策树来建立分类处理模型。对决策树分类技术的研究,国内外己经取得了很多成就,并成功地应用到了许多领域,但在教育领域中的应用并不广泛,特别是将决策树分类技术应用到高职院校毕业生的就业分析中的研究更是很少。
  1 决策树技术
  决策树的构造方法是采用自上而下的贪婪算法实现递归构造。在每个内部结点处选择分类效果最好的测试属性对训练样本集进行分类,递归调用该过程以构造下面的子分支,直到所有属性都被使用过,或所有训练样本均属于同一类别为止。
  决策树算法的核心问题是测试属性的选择问题。一般的测试属性选择标准有信息增益、信息增益率、Gini指数等。
  决策树算法主要有Quinlan开创的ID3算法、由Breiman和Friedman开发的CART算法、Quinlan的改进决策树C4.5算法、允许递增式学习的ID4算法和可以增加新样本而不重建决策树的ID5算法等。此外,各种决策树算法对噪声数据、缺失数据、连续属性等也进行了研究。但是这些算法都是从机器学习角度研究和发展起来的,对于大训练样本集很难适应。针对这个问题有很多尝试性的算法,比较有代表性的是Agrawal等人提出的SLIQ算法和SPRINT算法,它们强调了决策树对大训练集的适应性。另外,Gehrke等人提出的Rainforest算法能在大型数据集中构建决策树的挖掘构架。其他的研究集中在高效决策树剪枝、决策树中规则提取技术与算法等方面。
  C 4.5决策树算法起源于ID3算法,是对ID3算法的改进,得到业界的普遍肯定,常常作为分类问题研究与分析的参考基准。多数的决策树算法都是将数据划分为越来越小的子集,而C4.5决策树算法在划分中会产生更多的碎片,因为大量碎片的存在降低了分类的准确度和决策树模型的健壮性。
  2 R-C4.5决策树模型
  针对C4.5决策树的问题,刘鹏等人提出了一种有效的C4.5改进模型:R-C4.5决策树模型。该模型是在C4.5决策树模型的基础上,通过合并信息熵值较高的那一部分分枝节点而达到减少分支节点数,可以有效的避免C4.5 决策树模型的碎片问题。
  R- C4.5决策树模型的算法如下:
  1)计算每个候选测试属性对应的样本子集的信息增益(熵)。
  2)计算样本子集熵的平均值,将那些熵值大于平均值的样本子集合并成一个临时的复合样本子集,再计算复合样本子集的熵值。
  3)根据熵值小于等于平均值的样本子集和复合样本子集的熵值计算当前节点的修正信息增益。
  4)修正信息增益最高的属性被选为当前节点的测试属性,测试属性的分支是复合样本子集和未合并的样本子集。其余部分均与C4.5决策树模型的算法相同。
  刘鹏等人还提出了R- C4.5的两种简化版本:R- C4.5c和R- C4.5s,可以生成更简单的决策树,而且R- C4.5s是通过在数据预处阶段完成,更容易实现。
  3 R-C4.5决策树模型在高职就业分析中的应用
  3.1 数据采集与处理
  通过调查问卷采集到某高职院校已毕业学生的就业数据。考虑到可能影响毕业生就业的相关因素及最终的挖掘目标,将高职毕业生信息分为个人基本信息、教育信息、就业信息和就业质量四个部分。个人基本信息包括姓名、性别、专业、身体状况、人际交往能力、心理因素等。教育信息包括学业成绩、英语程度、获奖与处分情况、专业能力等。就业信息包括企业地域、企业性质、职位、行业、是否跟专业相关、薪资待遇、工作环境等。就业质量主要考虑薪资满意度、职业满意度和工作环境满意度。
  对采集的实验数据进行数据清洗,数据集成转换处理和数据消减处理。quality(就业质量)属性取值太多不利于进行分类数据挖掘,因此对quality属性取值进行泛化处理,将其所有的取值均泛化到若干离散的区间内。泛化处理如下:
  1)对所有的quality<0.70,泛化为:quality=低;
  2)对所有的0.70=  3)对所有的quality>=0.75,泛化为:quality=高。
  同理,对Contacts(沟通交往能力)属性进行泛化处理:
  1)对所有的Contacts<0.15,泛化为:Contacts=强;
  2)对所有的0.15= 3)对所有的Contacts>0.22,泛化为:Contacts=差。
  根据上面的泛化处理原则,得到训练样本数据集合如表1所示。
  表1 训练样本数据集合
  3.2 构造决策树
  3.2.1 信息增益
  信息增益以信息论为基础,指期望信息或信息熵的有效减少量。在决策树归纳方法中,通常使用信息增益方法来帮助选择测试属性。采用信息增益可以使产生的各样本子集中的“不同类别混合度”降为最低,可以使样本集分类所需要的划分次数有效减少,以确保生成的决策树较为简单。
  设有s个样本数据集合S,类别属性有m个不同取值,对应于m个不同类Ci (i=1,2,…,m),设类Ci的样本数为si,则样本数据集S进行分类所需的信息量为: (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.