互联网数据中用户驱动的导航模式发现
立即解锁
发布时间: 2025-08-17 00:32:43 阅读量: 4 订阅数: 8 


网络使用分析与用户画像研讨会论文集
### 互联网数据中用户驱动的导航模式发现
#### 1. 引言
数据挖掘和知识发现是一个活跃的研究领域,旨在从大量数据中寻找模式。近年来,万维网的爆炸式增长使其成为最大的在线数据来源,因此将数据挖掘技术应用于网络,即网络数据挖掘,成为了众多研究者关注的焦点。
目前,网络数据挖掘主要有三个研究方向:
- **信息挖掘**:开发技术帮助用户处理导航过程中遇到的大量数据,找到所需信息。
- **网络链接结构挖掘**:利用超链接来评估网页质量,识别权威页面和枢纽页面。
- **用户行为模式挖掘**:研究用户在网站内的导航行为,了解用户的导航偏好对于提高电子商务服务质量至关重要。
当用户与网站交互时,其行为数据会存储在服务器日志中。虽然目前有一些商业日志分析工具,但它们的分析能力有限。研究界正在探索数据挖掘技术,以充分利用日志文件中的信息。目前主要有两种挖掘用户导航模式的方法:一是将日志数据映射到关系表,使用改进的标准数据挖掘技术;二是开发可直接应用于日志数据的技术。
#### 2. 相关研究方法概述
- **Zaki 的工作**:Zaki 使用基于格的方法和等价类对 GSP 算法进行并行化,虽提高了串行版本的性能,但仍存在一些缺点,例如“包含于”关系在某些电子商务数据分析中过于有限。
- **Manilla & Toivonen 的工作**:他们在频繁事件发现领域开展研究,该领域介于序列模式和时间模式之间。不过,他们的工作主要关注单个事件序列中的频繁事件发现,而我们的工作侧重于跨多个不同在线客户序列的序列发现。
- **aïane 等人的工作**:他们将各种传统数据挖掘技术应用于互联网日志文件,以发现不同类型的模式。具体步骤如下:
1. **数据清理和过滤**:处理与日期和时间相关的字段,去除无用条目。
2. **数据转换**:利用元数据重新组织日志条目。
3. **数据加载**:将预处理后的数据加载到以 n 维网络日志立方体为基础的数据仓库中。
4. **应用 OLAP 技术**:如向下钻取、向上汇总、切片和切块等。
5. **应用数据挖掘技术**:包括特征化、判别、关联、回归、分类和序列模式等。
然而,该方法存在一些局限性:仅支持静态日志文件这一数据源;未融入领域知识(营销专业知识);过于依赖数据挖掘,复用的现有技术未针对电子商务目的进行定制。
- **Cooley 等人的工作**:构建了一个更强大的架构,包括对互联网日志文件进行智能清理(去除异常值和无关值)和预处理(用户和会话识别、路径补全、反向 DNS 查找等),并创建类似数据仓库的视图。除了 aïane 的方法外,还将注册数据和交易信息集成到物化视图中。可以从该视图应用各种数据挖掘技术,如路径分析、关联、序列、聚类和分类等,然后使用 OLAP 工具、可视化机制或知识工程技术对这些模式进行分析。但该方法同样未融入营销专业知识。
- **Bhowmick 等人的工作**:开发了一个基于自身网络数据模型的网络数据仓库(WHOWEDA),在该环境中可以执行各种网络挖掘活动,但这些活动都基于传统数据挖掘机制,不支持融入领域知识。
- **Spiliopoulou 的工作**:开发了一个用于网络数据的序列发现器,其 GSM 算法使用从日志文件生成的聚合树来发现用户驱动的导航模式。该机制已融入一种类似 SQL 的查询语言(MINT),二者共同构成了网络使用分析平台的关键组件。
- **Borges & Levene 的工作**:开发了一种基于超文本概率文法的算法来发现用户导航模式,使用熵度量作为每个链接统计属性的估计器。
#### 3. 超文本概率文法模型
- **用户导航会话定义**
0
0
复制全文
相关推荐










