从网络数据中发现有趣的使用模式

立即解锁

发布时间: 2025-08-17 00:32:45 阅读量: 2 订阅数: 7

网络使用分析与用户画像研讨会论文集

### 从网络数据中发现有趣的使用模式在当今数字化时代，网络数据蕴含着巨大的价值。通过对网络数据的挖掘，我们可以发现用户的使用模式，从而为网站优化、用户体验提升等提供有价值的信息。本文将介绍一种基于支持逻辑模型的方法，用于从网络数据中发现有趣的使用模式。 #### 1. SCR 算法 SCR（Support Coverage Ratio）算法用于计算频繁项集的支持覆盖比。以下是 SCR 算法的具体步骤： ```plaintext Algorithm SCR 1. let F = {I1, I2, · · · , In} denote the discovered frequent itemset 2. cover = 0 3. for level l = 1 to n 4. lcount = CountSum(itemsets ⊆F) 5. cover = cover + (−1)l+1 * lcount 6. SCR = Count(F)/cover 7. end; ``` 对于给定的频繁项集，SCR 提供了页面之间相关的证据，而 (1 - SCR) 则提供了页面之间不相关的证据。一个简单的使用证据对可以表示为 [SCR, SCR]，这种表示方式没有考虑任何程度的不确定性。 #### 2. 证据组合在使用支持逻辑演算来组合结构证据和使用证据之前，需要解决缩放问题。由于这两组证据是从不同的数据集中以不同的方式得出的，它们的尺度不一定匹配。对于使用数据，在生成证据对时没有考虑的一个因素是用户流失。研究发现，用户会话的平均路径长度通常约为 3 页，且呈重尾分布。因此，随着信念中页面数量的增加，发现相应频繁项集的可能性就越小，这仅仅是因为用户流失的原因。然而，相应领域证据对的强度并不一定会随着集合大小的增加而降低。为了解决这个问题，需要根据页面集的大小对一组证据对进行缩放。WebSIFT 信息过滤器简单地使用集合中的页面数量作为缩放因子，如下所示： ```plaintext sfactor = n ``` 一旦证据对进行了缩放，就可以使用之前介绍的证据组合规则来计算组合后的证据对。可以将挖掘到的证据对或领域证据对作为“现有”证据，与组合后的证据进行比较。创建、组合和比较证据对的算法如下表所示： | 算法步骤 | 描述 | | --- | --- | | 1 | for each F in the discovered frequent itemsets | | 2 | e(m)p = e(m)n = SCR(F) * sfactor(F) | | 3 | e(s)p = e(s)n = lfactor(F) * cfactor(F) | | 4 | [e(c)p, e(c)n] = BaldwinCombine(e(m)p, e(m)n, e(s)p, e(s)n) | | 5 | let x = m or s per user input | | 6 | If Interest(e(x)p, e(x)n, e(c)p, e(c)n) ≥T | | 7 | Add F to InterestingSets | | 8 | end; | #### 3. WebSIFT 系统 WebSIFT 系统将网络使用挖掘过程分为三个主要部分： - **预处理阶段**：使用输入数据构建服务器会话文件。首先，需要对服务器日志进行“清理”，包括移除不成功的请求、解析相关的 CGI 名称/值对以及将文件访问汇总为页面视图。然后，识别用户。在没有 cookie 或动态嵌入的会话 ID 的情况下，可以使用 IP 地址和用户代理的组合作为唯一用户的初步估计，并通过引用字段进行细化。接着，根据 30 分钟的超时将每个用户的点击流划分为会话。最后，通过查看每个请求的引用信息来完成路径补全。此外，该阶段还允许将服务器会话转换为事件，事件可以是用户花费大量时间查看的服务器会话中的所有页面视图（假设为内容页面），或者是通向每个内容页面视图的所有导航页面视图。同时，对网站的内容和结构进行预处理，包括通过“网站爬虫”访问页面视图以进行解析和/或分析，处理静态和动态内容，导出网站拓扑结构并对页面进行分类。 - **知识发现阶段**：使用现有的数据挖掘技术生成规则和模式，包括生成一般使用统计信息，如每页的“点击量”、最常访问的页面、最常见的起始页面以及每页的平均停留时间。可以对用户或页面视图进行聚类。发现的信息可以输入到各种模式分析工具中，如信息过滤器、关联规则图/可视化工具以及通过 SQL 查询结果。 - **模式分析阶段**：对发现的规则和模式进行分析，以确定其有趣性。以下是 WebSIFT 系统的架构图： ```mermaid graph LR classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px; classDef data fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px; A[INPUT]:::data --> B[PREPROCESSING]:::process B --> C[PATTERN DISCOVERY]:::process C --> D[PATTERN ANALYSIS]:::process B --> E[Episode File]:::data B --> F[Server Session File]:::data C --> G["'Interesting' Rules, Patterns, and Statistics"]:::data C --> H[Page Classification]:::data C --> I[Site Content]:::data C --> J[Site Topology]:::data C --> K[Association Rules]:::data C --> L[Usage Statistics]:::data C --> M[Sequential Patterns]:::data C --> N[Clustering]:::data D --> O[Knowledge Query Mechanism]:::process D --> P[OLAP/Visualization]:::process A1[Access Log]:::data --> B A2[Referrer Log]:::data --> B A3[Agent Log]:::data --> B A4[Site Files]:::data --> B A5[Registration or Remote Agent Data]:::data --> B ``` #### 4. 实验评估为了验证 WebSIFT 系统的有效性，进行了一系列实验。实验数据来自 1999 年 2 月明尼苏达大学计算机科学与工程系网站的 Web 服务器日志。 ##### 4.1 初步实验为了测试基于网站结构过滤发现规则的可行性，进行了两个简单的初步测试： - **测试一**：将所有发现的项集分配证据对 [1, 1]（即 100% 相信页面相关），将没有频繁项集的页面集分配证据对 [0, 0]。任何代表未通过超文本链接直接连接的页面集的频繁项集都被声明为潜在有趣的。这类似于一个来源为信念提供证据，而第二个来源没有相应证据的边界情况。 - **测试二**：选取所有具有足够个体支持的相连页面组，查找相应的频繁项集。没有相应频繁项集的页面组也被声明为有趣的。这是存在冲突证据的边界情况。处理后的日志包含 43,158 个页面视图，分布在 10,609 个用户会话中。使用 0.1% 的支持阈值生成了 693 个频繁项集，最大集大小为 6 页。两个测试分别发现了一些有趣的结果，如下表所示： **

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

从网络数据中发现有趣的使用模式

相关推荐

专栏目录

从网络数据中发现有趣的使用模式

相关推荐

实时流媒体传输的数据重叠网络.docx

数据挖掘在网络教学资源中的应用.pdf

数据挖掘技术及其在网络安全中的应用.pdf

Smart-visual-agents:智能代理（使用基本的AI算法）创建有趣的视觉模式

数据挖掘模式识别算法

Web数据挖掘中频繁访问页组有趣性的研究.docx

有趣的数据分析案例.pdf

关于23种设计模式的有趣见解

基于数据流的模式挖掘

PatternMining:数据挖掘机问题-模式挖掘

Kafka系统介绍及高性能原理

Java_vue基于Spring Boot的农产品网上销售系统毕业论文.docx

专栏目录

最新推荐

STM32F429 SD卡驱动文件操作优化：提高文件系统效率的实战技巧

【C#数据绑定高级教程】：深入ListView数据源绑定，解锁数据处理新技能

OpenCvSharp图像拼接的性能调优：专家级技巧大公开

揭秘Matlab：化合物数据可视化与Wilcoxon秩和检验终极指南（9大技巧全解析）

【心电信号情绪识别在虚拟现实中的应用研究】：探索虚拟世界中的情绪分析

【飞机缺陷检测模型压缩加速】：减小模型尺寸，加速推理过程

地震正演中的边界效应分析：科学设置边界条件的深度解析

【多源数据整合王】：DayDreamInGIS_Geometry在不同GIS格式中的转换技巧，轻松转换

手机Modem协议在网络环境下的表现：分析与优化之道

物联网技术：共享电动车连接与控制的未来趋势