利用网络使用挖掘提高网站有效性
立即解锁
发布时间: 2025-08-17 00:32:44 阅读量: 4 订阅数: 8 


网络使用分析与用户画像研讨会论文集
### 利用网络使用挖掘提高网站有效性
#### 1. 导航模式比较规则
在网络使用挖掘中,为了比较不同日志中发现的导航模式,我们制定了以下规则:
- **规则 R1**:若两个模式的 g - 序列至少前 n 个值相同,则这两个模式具有可比性。分析人员可根据情况设置 n 的值。若怀疑客户和非客户访问完全不同的页面,可将 n 设为较小值,如 1 或 2;否则,可将 n 设为每个 g - 序列的长度,使只有包含相同 URL 的 g - 序列模式才可比较。
- **规则 R2**:在每个模式中,仅考虑频繁路径片段(即子序列)进行比较,去除不频繁的片段。直观的下限是用于在整个客户或非客户日志中发现频繁模式的支持阈值,此下限仅适用于模式内的片段,有助于去除罕见出现的片段。
#### 2. 建立待比较模式集合的步骤
根据上述规则,建立待比较模式集合分为两个阶段:
- **阶段 I**:
1. 在客户日志中发现 g - 序列 g1, …, gk,在非客户日志中发现 g - 序列 ng1, …, ngm。
2. 针对每个 g - 序列 gi,向非客户日志发出描述其前 n 个变量结构和 URL 的 MINT 查询,得到与 gi 具有相同 URL 但统计数据不同的 g - 序列 ngi。对每个 ngj 也在客户日志中进行相同操作。
3. 去除所有共同前缀置信度比率低于噪声阈值的 gi, ngi 对,仅保留能体现客户和非客户行为差异的 g - 序列。
4. 构建潜在可比结果集合 R = {((gi, CPi), (ngi, nCPi))},其中 gi 和 ngi 是保留的 g - 序列,CPi 和 nCPi 分别是它们的导航模式。
5. 从 R 中的每个导航模式里,去除模式内罕见的所有路径片段(依据规则 R2)。
6. 从每个 ((gu, CPu), (ngu, nCPu)) ∈ R 对中,提取所有单个路径对 (x, y),形成集合 R′。
为比较单个路径,引入“后继置信度”统计量,即路径中每个节点 a 与其前一个节点 a′的访问比率:SC(a, a′) ≡ SC。
- **阶段 II**:对于非客户路径 y,可能出现以下情况:
1. 存在客户路径 x · x′,其中 x 包含与 y 相同的 URL,但支持度较低。比较 y 和 x · x′中每对连续页面的后继置信度,直到找到 y 中第一个对其前一个页面的 SC 值低于 x · x′中相应页面的页面,该前一个页面需重新设计。
2. 存在客户路径 x · x′,其中 x 包含与 y 相同的 URL,但支持度较高。找到形式为 y · y′的非客户路径,比较每个 y′和 x′的内容。关注具有不同后续页面 ay′和 ax′的共同页面 a,若 ay′的 SC 值大于 ax′,则应重新考虑该页面在客户模式中与 ax′的连接,因为非客户显然更喜欢另一个页面。
3. 存在客户路径 x1 · x · x2,其中 x 包含与 y 相同的 URL。找到形式为 y1 · y · y2 的非客户路径,使 y1 在客户路径中无对应项。每个这样的路径片段 y1 表明需要改进的路线。
最后,没有可比客户路径的非客户路径可视为用户对网站的感知与设计者假设完全不同的反映。若此类用户众多,可考虑为他们对网站进行特殊调整。
#### 3. 实验设置
我们在 SchulWeb 网站(http://www.schulweb.de)上进行了实验。该网站拥有网络上最大、最全面的德国高中数据库,组织形式类似在线目录,用户可通过填写表格指定感兴趣学校的标准,查询数据库服务器后动态生成学校列表,用户可浏览并选择学校。
- **客户定义**:在 SchulWeb 中,客户是指到达学校并对该校信息进行了大量研究的活跃调查者,包括转移到学校网站且很久不返回或不再返回 SchulWeb 的用户,但不包括仅短暂查看学校页面并立即转移兴趣的用户。非客户则是不属于客户的活跃调查者。为排除对其他服务感兴趣的访客,我们将活跃调查者的定义限制为提出查询以检索学校的用户,活跃调查者占访客的比例为 17%。
- **概念层次结构的建立**:为比较客户和非客户的导航行为,我们建立了一套概念层次结构,将实际的 CGI 脚本调用抽象为概念组合字符串。例如,URL 可描述单个学校或学校列表,学校描述可来自 SchulWeb 数据库或学校本地网站主页,学校列表查询结果可分为第一页和后续页面,且列表页面包含查询表单。学校和查询还按国家分类,支持的查询参数包括国家内的州、学校类型或用户输入的文本字符串,这些参数可组合形成不同的搜索策略。
- **Web 服务器日志的预处理**:Web 使用挖掘的预处理阶段旨在重建用户在网站中的活动,主要步骤如下:
1. 利用概念层次结构将单个 CGI 脚本调用转换为抽象字符串,将查询映射为搜索策略,将对单个学校的请求映射为对 Sch
0
0
复制全文
相关推荐










