基于web针对网页优化的数据挖掘技术

来源:网络(转载) 作者:肖小兵 发表于:2012-04-19 14:59  点击:
【关健词】数据挖掘 web挖掘 关联规则挖掘 页面优化设置
首先分析了Web数据挖掘的基本概念以及发展状况,然后介绍了Web数据的使用模式挖掘,并重点对关联规则挖掘进行研究,研究了关联规则挖掘中的apriori算法,最后利用apriori算法对网站数据进行实验,来进行检测,通过对实验结果的分析关联规则挖掘在页面优化设置中的作用。

 1 概述
   数据挖掘就是从存放的海量的数据当中经过处理之后得到有用的具有价值的知识,随着现代网络技术的不断发展和丰富,存在于互联网的网页数据不断的累积,而且部分在不同的区域,如何利用数据挖掘技术从这些巨量的数据当中寻找具有有价值的信息是目前人们需要解决的课题之一①。
   在数据挖掘技术当中Web挖掘是热门研究的领域,是在对海量互联网数据进行一定的分析之后,利用数据挖掘的算法进行有用知识的提取完成挖掘过程②。与其他的数据挖掘不同的是,Web挖掘面对的数据具有很大的不一样,例如有些数据是非结构的,半结构的,这些是数据是传统数据无法保存的,Web数据挖掘就是需要解决非结构化的数据的信息处理③。
  2 Web数据的使用模式挖掘
   一般来说,用户通过数据挖掘可以实现二个重要的功能就是描述和预测。描述的数据挖掘是对数据库当中的数据的普遍的特性,而预测性的数据挖掘则是在对数据的一般描述的基础上进行推测,对数据的可能性进行预测④。另外,对于Web数据挖掘的使用模式来说也有着多种不同的访问模式的挖掘技术,例如浏览路径分析,关联规则和序列模式发现等⑤。在这里主要关注于关联规则方面的数据挖掘。
   在关联规则挖掘当中,就是对发生交易数据库中不同商品项之间的内在的规律进行发现,这些内在的规律反映了顾客购买商品这个行为的模式,通过对交易数据的分析可以发现对于用户是非常有用的信息,从而可以在一定程度上帮助用户进行购物行为的分析、商品广告设计、商品货架设计以及对顾客用户的分类等,可以说关联规则在商业行为的分析当中具有广泛的应用。在关联规则当中的主要实现的是web数据挖掘的经典算法Apriori算法,Apriori算法就是对目标数据库进行扫描操作,对每个目标向出现的次数进行计数,收集在这些目标项构成频繁项目序列集L1,但这个频繁项目序列集必须不得低于最少支持度阀值;接着,对这个频繁项目序列集L1链接操作得到候选工作集C1;利用这个候选工作集C1对数据库再次进行扫描操作,从而计算得到C1中每个项目集的支持,如果不低于最小支持度阀值的项目,则记录下来构成频繁项目序列集L2;不断的重复上面的过程,直到不再有新的候选产生为止。在实现上述的Apriori算法中需要强调的是频繁项集的任何非空子集必定也是频繁的,如果项集{a,b,c}是频繁的,那么项集{a,b}也一定是频繁的。这一性质极大的降低了候选项集求解的规模,提高了算法的效率,尤其当K=1,2时。web数据挖掘的经典算法apriori算法具有的频繁项集的任何非空真子集必定也是频繁的,非频繁项集的任何超集必定不是频繁的这样的性质。
  3 关联规则挖掘的实验与应用
  3.1 关联规则挖掘实验
   实验采用的数据是微软网站(www.microsoft.com)在1998年二月一个星期内的访问数据,经过随机筛选后的得到的5000位用户的访问数据,共涉及294个页面,为方便实现,将页面进行编号,取最小值支持度minsupport=0.03,应用apriori算法得到频繁项集,如图1所示。
  
  图1 频繁项集挖掘结果
   共得到32个频繁项集,对于k>1的相集取最小置信度minconfidence=0.4对频繁项集产生的强关联规则进行挖掘,得到5条结果,按支持度大小排列,可得表1。
  表1 强关联规则挖掘结果
  
  3.2 实验结果分析
   根据关联规则的定义可以看出,支持度反映出了一个项集在全部事物中出现的 频繁程度,由图1可以看出,页面1008(/msdownload)的支持度是最高的0.335,也就是说明,有33.5%的用户对其进行了访问,其次是1034(/ie)页面,有28.8%的用户对其进行了访问,有26.5%的用户访问了1004(/search)页面,依次类推。网站页面之间的访问模式的支持度反映了网站用户对网站页面访问路径的频繁程度。由图1可分析,从1008(/msdownload)到1034(/ie)访问模式支持度最高16.5%,是最频繁的访问模式,然后是1009(/windows)到1008(/msdownload)的访问模式有7.4%,依次类推。
   在关联规则中,可以得到用户的对于路径访问的频繁的程度,也可以在一定程度上反映了用户对于原因集所产生的结果集,反映了用户的可能性--规则的置信度。由表1可知,比如第一条规则反映了在访问了页面1008(/msdownload)的访问事务中有49.3%转向访问1034(/ie)页面。而访问了1034(/ie)页面的访问事务,又有57.3%访问了1008(/msdownload)。访问了1009(/windows)页面的访问事务中有55.3%同时访问了1008(/msdownload)页面。而访问了1025(/gallery)页面的访问事务中有60.8%同时又访问了1026(/sitebuilder)页面。经过上述的类推和根据关联规则,就可以得到比较顺利的挖掘到用户的频繁访问的路径,进而可以对用户的可能的行为预测,在商业上就可以对潜在的用户进行商业行为的操作例如在不同的网页不同的未知插入不同的广告,达到商业营销的目的,还可以对用户的行为做进一步的分析,做个性化的营销行为。
  3.3 挖掘结果在页面优化设置上的应用
   可见在实验中,支持度反映出了页面被访问的频繁程度,而置信度则反映出了相关页面之间的关系密切程度。从而我们可以根据这些信息来进行网页的优化设计,这些主要是通过链接的调整实现的。
   因此根据实验结果,我们可以针对微软的网站页面设置进行如下调整:
   首先,对于1008,1034,1004等支持度较高的页面,以及1008和10034,1009和1008等支持度较高的路径访问模式,表明用户对其进行了频繁的访问,我们可以采取在主页上添加相关链接的方法,使得用户可以从主页上直接对其进行访问,以提高访问的效率。
   其次,对于1008 1034, 1034 1008, 1041 1026等置信度高的路径访问模式中,则表示访问过上层页面的用户有很大可能性继续访问下层页面,应该在上层页面中添加下层页面的链接,而对于1008 1034, 1034 1008这样的两个方向置信度都很高的情况,则应该在两个页面中添加双向的链接,以方便用户访问。
   另外,对于强关联规则和实际网站的链接的数据挖掘当中,可以发现如果强关联规则越高,用户在这些页面集在网站链接结构中的连通性差。这是由于用户是通过缓存访问页面的,因此在进行页面设计的时候需要进行着重考虑到这一点,并且在页面的适当的地方加上链接,以方便用户使用网站,提高网页的使用效率。对于如何改进链接有以下几种情况及解决方法: (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.