(1)对于内容相近页面的且用户频繁一起访问的情况,即用户一起访问的置信度大,比如存在如下关联规则, {Z.htm,T.htm} {X.htm ,Y.htm}; {Z.htm,T.htm,X.htm, Y.htm} {K.asp, W.asp},几个网页之间内容相近,并且这些
(1)对于内容相近页面的且用户频繁一起访问的情况,即用户一起访问的置信度大,比如存在如下关联规则, {Z.htm,T.htm} {X.htm ,Y.htm}; {Z.htm,T.htm,X.htm, Y.htm} {K.asp, W.asp},几个网页之间内容相近,并且这些规则都具有较高的置信度,如果他们之间不连通,则只能通过缓存进行访问,降低效率。
(2)对于同一导航页面上的链接所指向的页面用户频繁一起访问的情况。如存在下列规则:{default.asp,index.asp,a.htm} {V.asp}; {default.asp,U.asp} {b.htm},index.asp,default.asp等作为引导页,而a.htm,b.htm,V.asp,U.asp则是他们之上的链接指向的页面。则以上的情况可能是用户浏览完页面之后,又返回重新寻找感兴趣的话题。
(3)有些情况下链接主题有误导倾向,导致不相关的页面被用户频繁访问。这种情况一般是用户被链接误导进入一个他本身不感兴趣或无关的页面,一般这种情况是网页设计时的错误造成,这里加上链接并不能解决问题,需要重新对页面链接标题进行设计。
(4)某些情况下存在信息使用时间误差。例如,假如在规则中有一条,{default.asp} {g.htm}他的置信度可能接近100%,在计算置信度中只能用近期的网站链接结构,以避免规则主观重要度高。
4 结论
在本文中,重点阐述了关联规则的挖掘,讨论了它的基本概念和特点,并研究了web数据挖掘的经典算法apriori算法。最后通过一组微软网站数据进行实验,来进行检测,通过对实验结果的分析,对网页的优化设置提供了一些改进的方案。
注释:
① Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2004:3-4.
② 陈莉,焦李成.Internet/web数据挖掘研究现状及最新进展[J].西安电子科技大学学报(自然科学版),2001,28(l):114-118.
③ 严彩梅.web用户模式[J].扬州大学学报,2002,5(3):54-58.
④ 江宝林,申展,张川,等.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32.
⑤ 沈模卫,崔艳青,陶嵘.超文本阅览中人的因素[J].浙江大学学报,2002,29(3):356.
(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)
顶一下
(0)
0%
踩一下
(0)
0%
版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.