Dealing with College Students Date Based on Date Mining
SUN Sheng-yao,NIE Li-ying
(Soft College of Henan University, Zhengzhou 450008, China)
Abstract: With numbers of the college students increasing and information of students increasing, how to deal with these date is the key problem which student manager cares about. This article comes up with a method: firstly, dealing with date promisingly based on date mining, then dealing with huge information about students according to cache-page-algorithm. In fact, it is valuable in dealing with date.
Key words: date mining; decision trees; connected rules; cache-page-algorithm
近时间来,随着高校的扩招,学生规模日益扩大,导致在高校工作中出现了诸多问题,尤其表现在学生管理工作中;高校工作管理者为提高工作效率,需要常常处理大量的关于学生的数据,这些数据有着非常大的查询和分析价值。但随着数据量的增大,对于如何处理海量数据查询效率的问题,已经迫在眉睫;这些数据主要是学生的基本信息以及从基本信息中衍生出的伴生信息,这些数据之间存在着一定的联系,在其中蕴含着一些经分析后的一些重要信息,如何将信息快捷处理,并少产生冗余数据,是每个学生管理者关心的问题。近年来数据挖掘技术运用越来越广泛,若将数据挖掘技术运用于学生管理工作中海量数据处理中,通过数据挖掘技术,搜集分析学生信息中数据的各种特征和相互关系,有助于减少学生工作者的分析数据的工作量,从而提高管理工作的质量和效率。
1 数据挖掘
数据挖掘(Data Mining)是从大量的无关数据中,得出潜在的、有价值的知识(模型或规则)的过程,是一种数据深层次的分析方法。数据挖掘是一门交叉性学科,其包括机器学习、神经网络、数据库、模式识别等计算机学科方面的知识,又包括数理统计、粗糙集、模糊数学等相关数学方面的学科知识。数据挖掘过程经过数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示一系列的过程。该过程不是一次完成的,其中的一些步骤或整个过程都是经过数次数次或反复进行的。进行数据挖掘的非常多,比较常见的有:关联规则方式、多层次数据汇总归纳方式、决策树方法方式、神经网络方法方式、正比例覆盖排斥反例方式、粗糙集方式、遗传算法、公式发现、统计分析方法、模糊论方法、可视化技术等[1];以上诸多方式中,以下几种方式比较适合于高校学生信息海量数据处理。
1) 关联分析。关联规则挖掘是数据挖掘处理数据的重要方式,也是最常见的一种技术。
关联规则描述的是存储在数据库中数据数据项之间的潜在关联。其理论来源于现实生活中市场购物篮物品分析模型,目的是通过分析购物篮内物品,得出顾客购买物品方式;现在关联性原则不在局限于分析消费者潜在的购物模式,已经拓展到诸多领域内,例如学生管理工作,通过分析学生几个学期内的学生表现,得出适合学生的最佳学习模式等等。
2) 分类与预测。分类是将数据根据某种数据分类原则,将大量数据划分到若干个类别中的某一类别中,减少数据的分析量。
分类预测一般分成两个步骤:第一步,构造分类器,利用构造所得的分类器对数据进行分类;分类其实是一种指导数据学习的过程,将数据置放于已知的样本训练集中,并且这些类别是根据模型预先设计好的,个数是确定的,目的是将分类的模型用于下一步的预测中;第二步,预测;预测是根据源于的模型和经学习训练的模型对未知的数据和数据类别对象进行类别预测,得出分类的数据,从而减少数据的查询量。
3) 聚类
聚类和分类预测大致相同,主要区别在于聚类是一种无指导的学习过程,面对海量数据,事先并不知道样本的类别,也不知道样本类别的个数,而是将数据划分成若干个组,在划分中使同一组内的数据对象具有较高的相似性,而不同组中的数据对象相似性较低;形成的聚类运用于不同数据处理过程,有效降低数据处理量。
4) 决策树方法
决策树数据挖掘方式是利用信息论中的信息(信息增益),从中寻找存储于数据库的数据具有最大信息量的属性字段,把该字段建立为决策树的一个结点,然后根据该结点字段的不同取值建设树的分支,决策树的每一个分支的结点按照同理的方式建立结点和下层的分支。决策树是一种数据的“分治策略”,将比较复杂的问题分解成若干个相对简单些的子问题,通过解决若干分支简单问题,从而解决整个复杂问题。并且,分支的问题还可以递归,在对问题进行分解,即接着分解,直至分解成最简单的元问题为止。其中,在该树中每个内部逻辑结点表示为对数据的某个特征逻辑判断;边表示成逻辑判断的结果;树的叶子结点是数据的每个类别的标记;从树的根节点出发到任意一个叶子,经过的边就是某一类数据的特征序列 [2]。
2 目前处理海量数据的方式
目前海量数据处理主要集中在数据库的设计上,采用的方式有:
1) 对海量数据进行分区操作
把不同数据表征的数据存放于不同的物理磁盘空间下,通过该方式把数据分散开,用于减少在数据读取和存放时的磁盘I/O操作,进而减少了整个系统的符合,这些数据表征中同样包括日志文件和索引文件。
2) 创建索引
创建索引的目的是提高数据的查询效率,通过建立索引,便于数据操作时快速定位到操作的数据,但该方式会降低服务器的操作效率,故在系统中是否建立索引和建立什么样的索引要根据实际的需要进行权衡。
3) 创建索引表
建立索引时,在数据表上创建索引或复合索引,当索引较多时,我们可以为索引建立索引,提高数据检索效率。
4) 创建存储过程
把数据的操作交给数据库自身进行处理,不通过程序架构的中间层。
5) 采用B/S模式
不再专门制作客户端,减少数据的中间访问层次,从而提高数据的访问速度与效率[7]。
以上五种方式是目前面对海量数据处理时大家采用的应对方式。
3 问题分析
1) 很多信息经过处理后并非我们需要的数据
以学生年终考核信息为例:我们需要的是排名前20的学生的名字、学号和平均考核成绩即可判定出那些学生年终考核是优秀的,而一些伴生信息如性别等我们并不需要,而在查询中往往出现,大大加重了服务器的负担[3]。 (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)