优化。二是通过对web日志的挖掘,发现用户访问页面的相关性,从而对密切联系的页面之间增加链接,方便用户使用。如图2所示。
图2 利用web挖掘技术的路径优化模型
3 站点路径优化的实现
3.1 web日志数据收集
web服务系统是一个多层次的逻辑结构,包括客户端、代理服务器端、web服务器端。本文挖掘的是本站点用户的频繁访问路径、用户聚类等,因此适合采用web服务器端的用户访问模式挖掘
[8]。web服务器日志由三部分组成:访问日志、引用日志和代理日志,包括用户访问web站点时,所访问的页面、时间、用户id等信息。
3.2 站点数据预处理
web站点及访问数据预处理部分主要包括站点结构数据预处理、内容数据预处理和web日志数据预处理。其中,结构数据预处理的任务是描述站点的拓扑结构图、站点页面文件链接有向图,并明确站点各个页面文件链接的请求(request)方法,如get、post、head等。站点内容数据预处理包括将文本、图片、脚本和其他多媒体文件转变为用户对站点浏览模式记录信息的开发与利用有用的格式
[9]。
用户访问序列挖掘的web日志数据源预处理包括数据过滤、格式转换、用户识别、会话识别、路径补全和事务识别,预处理过程是保证后继挖掘质量的关键。
3.3 基于web日志挖掘的路径优化实现
在数据预处理之后,对所形成的用户会话文件,利用数据挖掘的一些有效算法(如关联规则、聚类、分类、序列模式等)来发现隐藏的模式规则。由于传统的手工决策规则系统方法、基于内容的过滤代理系统方法、协作过滤系统方法的种种不足,并且就分析和建立模型的技术而言站点路径挖掘和传统的数据挖掘差别并不是特别大,所以路径优化模式除了可以运用web数据挖掘的很多方法和算法思想,也可以采用一般的统计方法和在线分析处理方法,如聚类分析方法、关联规则分析方法和序列模式分析方法等
[10]。
站点路径优化可以分为两类:用户群访问模式挖掘的路径优化和个性化挖掘的路径优化。一般访问模式挖掘的路径优化通过分析在特定时间点的特定用户群的访问记录来了解用户的浏览模式和倾向,以改进站点的组织结构;而个性化挖掘的路径优化则倾向于分析个别用户的偏好,其目的是根据用户的访问模式,为其提供定制服务。
3.3.1个性化的浏览路径优化。web站点的链接结构是web设计者根据一定的策略建立起来的,可能与用户期望的链接结构之间存在一定的差距。如图3.1所示,目标页面x放在页面b
1下,但是用户浏览路径是f→a
2→b
2,因此用户期望页面x的位置在a
2或b
2下。如果事先能了解用户的期望位置,从而在a
2(或b
2)和页面x之间建立导航链接,自然就方便了用户,提高了网站的访问效率
[1]。
(1)发现用户期望位置。
设{p
1,p
2,...,p
n}为用户访问过的页面,p
n是一个目标页面,b=ф;∥b为回溯点的集合;
图3 用户访问站点路径
for(i=2;i<=n-2;i++)
{if(p
i-1=p
i+1) or (no link from p
i to p
i+1) add p
i to b} ∥pi是一个回溯点;
if (b not empty) add
n,b,pn-1> to table;
通过该算法,就可以找到用户的返回点,这个位置可能是期望位置,也可能是目标页面,但可以通过确定时间阈值来解决这个问题。当用户在返回点停留的时间较长,超过指定的阈值,则认为该页面是目标页面,否则可以认为该页面是期望位置。通常用户在浏览web站点时,在第一期望位置找不到目标页面,就会在第二期望位置找,如果还找不到,会在第三期望位置找……,其中最受关心的是第一期望位置,而且是那些被第一期望且发生频率高于系统设计者指定值的所有页面。因此,寻找第一期望位置便成了我们关注的焦点[12]。
(2)目标位置和期望位置的判定。设ei表示第一期望位置,算法如下:先以用户的id为主关键字,时间为次关键字,对web日志文件建立索引,扫描web日志索引文件,对每一个用户id,摘取出页面序列。
for (i=1;i<=1;i++)∥n为web日志中的记录数
{统计ei中所有页面支持数;
sort page by support;
if support(p)>=si ∥si为web设计者制定的阈值;
则p为被第一期望且发生频率高于系统设计者指定值的页面}
经过提取
上一页 [1] [2] [3] 下一页