R-C4.5决策树模型在高职就业分析中的应用(2)

来源:网络(转载) 作者:张继美 桂红兵 发表于:2011-08-15 10:55  点击:
【关健词】R-C4.5;就业质量;高职就业分析;决策树
(1) 其中,Pi是指任一样本属于类别Ci的概率,Pi=Si/S。 设一个属性A有n个不同的取值:{a1, a2 , ,an},根据属性A可以将样本集划分为n 个子集{ S1,S2,,Sn },其中Sj包含了样本集中所有属性A取值为aj的样本。若

   (1)
  其中,Pi是指任一样本属于类别Ci的概率,Pi=Si/S。
  设一个属性A有n个不同的取值:{a1, a2 , … ,an},根据属性A可以将样本集划分为n 个子集{ S1,S2,…,Sn },其中Sj包含了样本集中所有属性A取值为aj的样本。若属性A被选择为测试属性,设子集Sj中属于类别Ci的样本数为sij。则利用属性A划分当前样本集所需要的信息熵计算如下:
   (2)
  其中(slj+s2j+…+smj)/s项可以理解为第j个子集的权值。而对于一个给定的子集Sj的信息量计算如下:
   (3)
  其中Pij=sij/|Sj|,即为子集Sj中任一样本属于类别Ci的概率。
  根据属性A对样本进行划分所获得的信息增益为:
   (4)
  3.2.2 计算每一个候选属性的信息增益或修正信息增益
  表1中训练数据集合的类别属性为:“quality”,该属性有三个不同的取值:{高,中,低}。因此有三个不同的类别,m=3。设C1对应属性取值为“高”类别,C2对应属性取值为“中”类别,C3对应属性取值为“低”类别。则C1类别包含9个数据记录,C2类别包含8个数据记录,C3类别包含3个数据记录。
  根据公式1计算出对训练样本数据集进行划分所需的信息量为:
  I(s1,s2,s3)=-9/20*log29/20-8/20* log28/20-3/20*log23/20=1.46。
  根据信息增益计算公式,计算所有属性的信息增益或修正信息增益如下:
  Gain(Sex)= Ⅰ(s1,s2,s3)- E(Sex)=0.308。
  Gain(Major)= Ⅰ(s1,s2,s3)- E(Major)=0.17。
  Gain(Score)= Ⅰ(s1,s2,s3)- E(Score)=0.35。
  Gain(Leader)= Ⅰ(s1,s2,s3)- E(Leader)=-0.19。
  Gain(P_ability)= Ⅰ(s1,s2,s3)- E(P_ability)=0.28。
  Gain(Collective)= Ⅰ(s1,s2,s3)- E(Collective)=0.44。
  Gain(Contacts)= Ⅰ(s1,s2,s3)- E(Contacts)=0.28。
  Gain(Part_time)= Ⅰ(s1,s2,s3)- E(Part_time)=0.12。
  Gain(Correlation)= Ⅰ(s1,s2,s3)- E(Correlation)=0.16。
  3.2.3 选择测试属性构造决策树
  选择具有最高信息增益的Collective属性作为当前节点的测试属性。根据Collective属性的三个不同取值,产生三个不同的分支,当前的训练样本数据集被划分为三个子集。对于每一个分支,重复调用R-C4.5算法。最终生成的完整决策树如图1所示。
  3.3 提取分类规则
  从决策树的根节点到任一个叶节点所形成的一条路径就构成一条分类规则,这些抽取出来的分类知识可以用IF-THEN的形式表示。其中,IF部分对应的是沿着决策树一条路径所形成的“属性—值”对的合取项;THEN部分对应的是叶节点所标记的类别,即规则的结论内容。
  根据图1所示的决策树,可以得到以下分类规则:
  1) IF (集体活动积极性=高) AND (专业=专业1)AND (性别=男) THENQuality=高。
  2) IF (集体活动积极性=高) AND (专业=专业1)AND (性别= 女) THENQuality=中。
  3) IF (集体活动积极性=高) AND (专业=专业2)THENQuality=高。
  4) IF (集体活动积极性=高) AND (专业=专业3)THENQuality=中。
  5) IF (集体活动积极性=一般) AND (成绩=好)THENQuality=高。
  6) IF (集体活动积极性=一般) AND (成绩=较好)THENQuality=高。
  7) IF (集体活动积极性=一般)AND (成绩=一般)AND (在校期间兼职经历=多) THEN Quality=中。
  8) IF (集体活动积极性=一般) AND (成绩=一般)AND (在校期间兼职经历=少) THEN Quality=中。
  9) IF (集体活动积极性=一般) AND (成绩=一般)AND (在校期间兼职经历=无)AND (工作与专业是否对口=有相关性)THEN Quality=低。
  10) IF (集体活动积极性=一般) AND (成绩=一般)AND (在校期间兼职经历=无)AND (工作与专业是否对口=一点不相关)THEN Quality=中。
  11) IF (集体活动积极性=低) THENQuality=低。
  3.4 分类规则的结果分析
  3.4.1 毕业生就业质量高的相关规则
  以上由决策树生成的规则中有四条是关于就业质量高的规则,列出如下:
  1) IF (集体活动积极性=高) AND (专业=专业1)AND (性别=男) THENQuality=高。
  3) IF (集体活动积极性=高) AND (专业=专业2)THENQuality=高。
  5) IF (集体活动积极性=一般) AND (成绩=好)THENQuality=高。
  6) IF (集体活动积极性=一般) AND (成绩=较好)THENQuality=高。
  3.4.2 涉及毕业生就业质量低的相关规则
  以上由决策树生成的规则中有两条是关于就业质量低的规则,列出如下:
  9) IF (集体活动积极性=一般) AND (成绩=一般)AND (在校期间兼职经历=无)AND (工作与专业是否对口=有相关性)THEN Quality=低。
  11) IF (集体活动积极性=低) THENQuality=低。
  根据以上规则表明,毕业生在校时参加集体活动积极性高的,就业质量都很高。如果参加集体活动积极性一般但成绩较好的毕业生就业质量也高。说明,毕业生的就业质量与在校时是否参加集体活动或参加集体积极性有很大关系,而且与学业成绩也有一定的关系。
  根据前两条规则,对于专业1的毕业生,就业质量还与性别有关系,男生的就业质量要比女生高。
  根据前四条规则,就业质量也与学生所学专业有关系,专业1和专业2的毕业生就业质量要高于专业3的毕业生。
  4总结与展望
  介绍了一种基于C4.5决策树算法的改进模型R-C4.5算法,并将R-C4.5决策树算法应用到高职毕业生就业质量分析中。对采集到的实验数据进行数据预处理得到样本集合,对样本训练集构造决策分类树,并根据决策树提取分类规则,通过对分类规则的结果分析得到极具价值的规则知识。研究目的是为高职院校的教育教改和就业工作提供决策支持和依据。
  运用决策树分类技术对高职就业分析的研究还处于探索阶段,在以下几个方面还有待进一步的提高和深入研究: (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)
顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.