基于数据挖掘的高校学生信息海量数据处理(2)

来源:网络(转载) 作者:孙胜耀 聂利颖 发表于:2011-09-18 22:25  点击:
【关健词】数据挖掘;决策树;关联性规则;页面分页算法
2) 很多信息需要多个数据进行联合运算得出结果 例如我们需要学生的详细的家庭信息,可能要经过多个表的联合运算才可出现结果,众所周知,在数据的联合运算中,往往采用笛卡尔积的形式,数据会是以几何增量的方式累

2) 很多信息需要多个数据进行联合运算得出结果
  例如我们需要学生的详细的家庭信息,可能要经过多个表的联合运算才可出现结果,众所周知,在数据的联合运算中,往往采用笛卡尔积的形式,数据会是以几何增量的方式累加,本已经是海量的数据,经过联合运算,数据更大,更难进行处理[4]。
  3) 数据的处理往往交给服务器
  大量的数据都是在服务器端运行,作为提交用户的客户端很少或基本不参与到运算中来,形成瘦客户端胖服务器的格局;目前提倡的云计算、网格计算等对该方式是极力排斥的,在海量数据处理中,如果让客户端参与到处理过程中来,将会大大减轻服务器的负担,提高服务器的性能[5]。
  4 数据挖掘在学生信息管理中的应用
  对以上现实中存在与学生管理中的问题,可以通过数据挖掘的理论和一些其他的处理技巧来完成。
  1) 决策树在学生信息管理中的应用
  在学生管理中关注的只是一些比较特殊的数据,可以通过决策树的训练分类规则,首先通过表征数据的关键属性段建立根节点,建立数据训练集,输入已有数据,通过决策树的构建,生成预测学生信息的决策树,这样大量数据可以分成具有数据表征数据,便于直接定位学生管理者感兴趣的数据。以学生综合测评为例分析:
  综合素质测评涉及多个方面,主要为政治思想素质、学业成绩平均分数、社会实践能力、体育活动等,而这些指标中只有部分是可以量化的。学生管理部门对这些数据的处理主要采用人工测评方式,利用层次分析模式抑或模糊分析方式进行评价。人工测评受主观因素影响非常大,准确度不够理想,同时还需要设计不同的效用函数给各个指标不同的权值,处理过程比较复杂且难推广[6]。
  在评测过程中,分别把政治思想素质分成若干等级:例如优、良、中、差分成四类集合,以学生的学号作为表征数据的根节点树,通过数据的分类,表征不同的数据对象,通过决策树递归,形成“政治思想素质”决策树;同理学业成绩平均分数、社会实践能力、体育活动等也会有不同的训练决策树,再把几种决策树作为新的决策树的数据,把几种决策树通过数据挖掘的再次分类和预测;其中分类就是预测分类标号( 或离散值),根据训练数据集和类标号属性, 构建模型来分类现有数据, 并用来分类新数据;其中预测就是建立连续函数值模型;通过该种方式可以摒除在学生数据管理中大量的无用数据,从而得出学生管理者感兴趣的数据,大大降低无用的数据的数量。
  2) 关联集分析方法在学生信息管理中的应用
  由于各种学生信息之间具有前后的联系,所有的信息都似乎循序渐进的,需要学生根据在校内的各种表现进行完善。同时,学生信息的完善在时间上具有一种线性的关系。可以使用数据挖掘中的关联规则分析方法,用来分析学生信息检索过程中之间信息的关联系;例如学生首先完善基本信息,才能完善学生家庭信息,然后每个学期根据校内表现完善各种伴生信息,因此根据关联系原则,在搜索某一学生信息时,可以把一些没有必要的数据直接不让参与运算,例如搜索大二学生的信息,就不要把大三表现的情况信息参与到运算中来。
  通过对数据库中学生信息进行回归分析、关联分析,探究学生的信息和其他各种伴生信息之间的关联性,很容易找到处理不同的数据(例如处理不同年级学生)合适的处理方法,进而减少了数据的操作量。
  关联规则的分析方法除适用以上方面,还可以有效的分析学生的学年学期情况、成长过程以及生活情况等诸多方面进行描述和评估,进而使学生管理者更容易即使发现学生的问题,进行针对性的指导与疏导。
  3) 缓存技术在学生信息管理中的应用
  处理数据的时候,按照时间这一维度,把数据放于不同缓存数据文件中,这样有助于减少客户查询数据时,减少查询时间,并且数据量越大,该方式效果越明显;即按照页面缓存的原理,先从海量数据中获得用户感兴趣的信息,以页面缓存技术储存在客户端上,再次从服务器上索要数据时,首先在本地缓存上进行查询,根据分页的页面算法获取数据,从而减轻服务器端的负载量,提高服务器的负载能力,更好的为用户提供服务[8]。
  根据缓存技术的原理,同样可以运用到高校学生海量数据的处理上,以综合素质测评为例,学生管理者关心的数据是前40%学生的信息,初次查询出的数据,可以存放于客户端上,利用缓存分页技术,当用户再次提取数据时,根据分页算法,先查询客户端存放的数据,当数据不存在或不满足需求时,再从服务器上进行索取,从而大大提高服务器的处理能力,提高在学生信息管理中海量数据的处理能力。
  5 结束语
  数据挖掘作为一种新兴技术工具,对人类未来将会产生重大影响,将其应用于高校学生信息海量数据的处理中,将会带来效率提高,可以帮助学生管理工作者在日常海量的数据时及时的发现数据的规律和学生潜在存在的问题,为决策提供信息支持,从而不断的提高高校学生的管理质量,提高高校的竞争力,为未来的发展提高强有力的支持。
  参考文献:
  [1] Janwei Han and Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007.
  [2] 朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南大学出版社,2006.
  [3] 刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010(5):1130- 1133.
  [4] 潘锋.浅谈数据挖掘技术在高校教学管理中的应用[J].重庆科技学院学报:社会科学版,2008(4):100-101.
  [5] 张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报:哲学社会科学版,2004(2):133-135.
  [6] [美]John Papa.Matthew Shepker[M].北京:机械工业出版社,2000.
  [7] 百度文库.SQL效率之索引.
  [8] 张占杰.浅谈海量数据处理技巧[J].信息科技,2011,1,1(下).
 

(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)
顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.