目标页面与期望位置之后,将形成如表1的目标页面与期望位置匹配集
[13]。
(3)调整站点结构。根据该算法的挖掘结果,很多内容页面(目标页面)的实际位置与用户所期望的位置不一致,可以考虑依据这些目标页面的用户期望位置来调整目标页面的实际位置。第一期望位置、第二期望位置……这些页面从某种角度看是围绕同一主题展开的,访问了其中部分页面的用户往往也会访问其他页面,因此可以在这些页面之间设置推荐链接。
3.3.2 用户群访问模式的路径优化。对用户群访问模式的问题,采用挖掘频繁访问的最大序列的方法可以挖掘出更有普遍意义的模式,算法包括有apriori算法,最大向前序列法,参考长度法和树形拓扑结构法等。它们先将日志中的用户浏览历史记录转换成一个浏览子序列集:最大向前序列法根据用户折返的特性形成若干浏览子序列;参考长度法根据用户在网页上停留的时间形成若干个浏览子序列;树形拓扑结构法则把整个日志当作浏览子序列。然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。频繁浏览路径就是指按照一定顺序组成的网页序列集,用户依照此序列访问网站的频度很高。
根据频繁访问路径算法得到频繁访问路径fp,对应记录为x(fp,np),其中fp表示url组成的序列,np表示浏览路径集合中fp出现的次数
[14]。
for all x∈fp
for all y∈fp and y≠x
if x. fp∈y. fp. sub then x.np=x.np-y.np
∥ 检查x. fp是否为另一记录y. fp的子序列
if x. np > n
∥ n为预先设定的次数阈值
set suplnik( x . fp)
∥设计新的从x. fp起点指向终点的超链。
该方法可以用于重构web站点的页面之间的链接关系,及重构web站点的拓扑结构、发现相似的客户群体,开展个性化的信息服务和有针对性的电子商务活动,应用信息推拉技术构建智能化web站点。
4 结 语
站点路径优化就是通过web挖掘技术来收集和统计用户访问过的历史数据,挖掘当前用户频繁访问的页面序列,对个体用户获取其兴趣模型,以便在用户以后的访问过程中根据兴趣模型自动向用户推荐内容,指导用户的浏览行为,提高浏览信息效率。对群体用户获取其访问路径规则与模式,通过增加超链改进站点结构,将页面加入缓存提高访问速度,提高用户对站点访问的满意度
[15]。访问规律的获取对算法提出了较高的要求,可以借鉴现有模式发现算法实现浏览结构的优化。
[参考文献]
[1] 程舒通,徐从富,但红卫. 基于改进频繁模式聚类算法的网站结构优化[j]. 计算机应用研究,2008(4):268—269.
[2] 阳小华,周龙镶. 基于用户访问模式的www浏览路径优化[j]. 软件学报,2001(6):847—850.
[3] 缪 勇. 匿名用户浏览路径挖掘研究与实现[d].南京理工大学,2006.
[4] 阮备军. web使用挖掘若干关键问题研究[d]. 复旦大学,2004.
[5] 张素兰,杨炳儒,范艳梅. 一种基于图结构挖掘web用户访问模式的方法[j]. 计算机工程与应用,2004(12):37—39.
[6] 易 明,张 扬. 基于全信息的“点击流”信息资源开发利用研究[j].情报科学,2007(12):198—203.
[7] 杜文华. 基于点击流技术的个性化信息服务研究[j]. 情报杂志,2006(10):22—23.
[8] 余轶军. web访问信息挖掘若干关键技术的研究[d]. 浙江大学,2006.
[9] 易 明,张金隆. “点击流”信息资源开发方法研究[j]. 图书情报工作,2006(7):85—88.
[10] 王 勇,张 伟,陈 军. 基于模糊聚类的web浏览路径分析方法[j]. 计算机工程与设计,2007(6):1484—1486.
[11] 杨清莲. web日志中序列模式挖掘及其应用[d]. 南京工业大学,2005.
[12] 陈 娟. 构建基于关联规则的网络行为挖掘系统[j]. 科学技术与工程,2007(13):250—253.
[13] 易 明,邓卫华,曹高辉. 基于“点击流”数据的站点信息组织优化[j]. 现代图书情报技术,2006(1):51—54.
[14] ming—syan chen,jong soo park,p.s. yu,data mining for path traversal patterns in a web environment,16th ieee international conference on distributed computing systems (icdcs 96):385.
[15] 陆 云. 聚类分析数据挖掘方法的研究与应用[d]. 安徽大学,2007.
上一页 [1] [2] [3]