从网络数据中发现有趣的使用模式
立即解锁
发布时间: 2025-08-17 00:32:45 阅读量: 2 订阅数: 7 


网络使用分析与用户画像研讨会论文集
### 从网络数据中发现有趣的使用模式
在当今数字化时代,网络数据蕴含着巨大的价值。通过对网络数据的挖掘,我们可以发现用户的使用模式,从而为网站优化、用户体验提升等提供有价值的信息。本文将介绍一种基于支持逻辑模型的方法,用于从网络数据中发现有趣的使用模式。
#### 1. SCR 算法
SCR(Support Coverage Ratio)算法用于计算频繁项集的支持覆盖比。以下是 SCR 算法的具体步骤:
```plaintext
Algorithm SCR
1. let F = {I1, I2, · · · , In} denote the discovered frequent itemset
2. cover = 0
3. for level l = 1 to n
4.
lcount = CountSum(itemsets ⊆F)
5.
cover = cover + (−1)l+1 * lcount
6. SCR = Count(F)/cover
7. end;
```
对于给定的频繁项集,SCR 提供了页面之间相关的证据,而 (1 - SCR) 则提供了页面之间不相关的证据。一个简单的使用证据对可以表示为 [SCR, SCR],这种表示方式没有考虑任何程度的不确定性。
#### 2. 证据组合
在使用支持逻辑演算来组合结构证据和使用证据之前,需要解决缩放问题。由于这两组证据是从不同的数据集中以不同的方式得出的,它们的尺度不一定匹配。对于使用数据,在生成证据对时没有考虑的一个因素是用户流失。研究发现,用户会话的平均路径长度通常约为 3 页,且呈重尾分布。因此,随着信念中页面数量的增加,发现相应频繁项集的可能性就越小,这仅仅是因为用户流失的原因。然而,相应领域证据对的强度并不一定会随着集合大小的增加而降低。
为了解决这个问题,需要根据页面集的大小对一组证据对进行缩放。WebSIFT 信息过滤器简单地使用集合中的页面数量作为缩放因子,如下所示:
```plaintext
sfactor = n
```
一旦证据对进行了缩放,就可以使用之前介绍的证据组合规则来计算组合后的证据对。可以将挖掘到的证据对或领域证据对作为“现有”证据,与组合后的证据进行比较。创建、组合和比较证据对的算法如下表所示:
| 算法步骤 | 描述 |
| --- | --- |
| 1 | for each F in the discovered frequent itemsets |
| 2 | e(m)<sub>p</sub> = e(m)<sub>n</sub> = SCR(F) * sfactor(F) |
| 3 | e(s)<sub>p</sub> = e(s)<sub>n</sub> = lfactor(F) * cfactor(F) |
| 4 | [e(c)<sub>p</sub>, e(c)<sub>n</sub>] = BaldwinCombine(e(m)<sub>p</sub>, e(m)<sub>n</sub>, e(s)<sub>p</sub>, e(s)<sub>n</sub>) |
| 5 | let x = m or s per user input |
| 6 | If Interest(e(x)<sub>p</sub>, e(x)<sub>n</sub>, e(c)<sub>p</sub>, e(c)<sub>n</sub>) ≥T |
| 7 | Add F to InterestingSets |
| 8 | end; |
#### 3. WebSIFT 系统
WebSIFT 系统将网络使用挖掘过程分为三个主要部分:
- **预处理阶段**:使用输入数据构建服务器会话文件。首先,需要对服务器日志进行“清理”,包括移除不成功的请求、解析相关的 CGI 名称/值对以及将文件访问汇总为页面视图。然后,识别用户。在没有 cookie 或动态嵌入的会话 ID 的情况下,可以使用 IP 地址和用户代理的组合作为唯一用户的初步估计,并通过引用字段进行细化。接着,根据 30 分钟的超时将每个用户的点击流划分为会话。最后,通过查看每个请求的引用信息来完成路径补全。此外,该阶段还允许将服务器会话转换为事件,事件可以是用户花费大量时间查看的服务器会话中的所有页面视图(假设为内容页面),或者是通向每个内容页面视图的所有导航页面视图。同时,对网站的内容和结构进行预处理,包括通过“网站爬虫”访问页面视图以进行解析和/或分析,处理静态和动态内容,导出网站拓扑结构并对页面进行分类。
- **知识发现阶段**:使用现有的数据挖掘技术生成规则和模式,包括生成一般使用统计信息,如每页的“点击量”、最常访问的页面、最常见的起始页面以及每页的平均停留时间。可以对用户或页面视图进行聚类。发现的信息可以输入到各种模式分析工具中,如信息过滤器、关联规则图/可视化工具以及通过 SQL 查询结果。
- **模式分析阶段**:对发现的规则和模式进行分析,以确定其有趣性。
以下是 WebSIFT 系统的架构图:
```mermaid
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef data fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A[INPUT]:::data --> B[PREPROCESSING]:::process
B --> C[PATTERN DISCOVERY]:::process
C --> D[PATTERN ANALYSIS]:::process
B --> E[Episode File]:::data
B --> F[Server Session File]:::data
C --> G["'Interesting' Rules, Patterns, and Statistics"]:::data
C --> H[Page Classification]:::data
C --> I[Site Content]:::data
C --> J[Site Topology]:::data
C --> K[Association Rules]:::data
C --> L[Usage Statistics]:::data
C --> M[Sequential Patterns]:::data
C --> N[Clustering]:::data
D --> O[Knowledge Query Mechanism]:::process
D --> P[OLAP/Visualization]:::process
A1[Access Log]:::data --> B
A2[Referrer Log]:::data --> B
A3[Agent Log]:::data --> B
A4[Site Files]:::data --> B
A5[Registration or Remote Agent Data]:::data --> B
```
#### 4. 实验评估
为了验证 WebSIFT 系统的有效性,进行了一系列实验。实验数据来自 1999 年 2 月明尼苏达大学计算机科学与工程系网站的 Web 服务器日志。
##### 4.1 初步实验
为了测试基于网站结构过滤发现规则的可行性,进行了两个简单的初步测试:
- **测试一**:将所有发现的项集分配证据对 [1, 1](即 100% 相信页面相关),将没有频繁项集的页面集分配证据对 [0, 0]。任何代表未通过超文本链接直接连接的页面集的频繁项集都被声明为潜在有趣的。这类似于一个来源为信念提供证据,而第二个来源没有相应证据的边界情况。
- **测试二**:选取所有具有足够个体支持的相连页面组,查找相应的频繁项集。没有相应频繁项集的页面组也被声明为有趣的。这是存在冲突证据的边界情况。
处理后的日志包含 43,158 个页面视图,分布在 10,609 个用户会话中。使用 0.1% 的支持阈值生成了 693 个频繁项集,最大集大小为 6 页。两个测试分别发现了一些有趣的结果,如下表所示:
**
0
0
复制全文
相关推荐










