构建Web用户画像:非侵入式学习方法及相关技术探讨
立即解锁
发布时间: 2025-08-17 00:32:42 阅读量: 4 订阅数: 7 


网络使用分析与用户画像研讨会论文集
# 构建 Web 用户画像:非侵入式学习方法及相关技术探讨
## 1. 搜索结果评估与用户画像更新
### 1.1 多估计器分析与组合
计划研究使用多个估计器并行分析和组合结果,元学习是一种组合方法,还打算研究其他基于投票的方法。
### 1.2 搜索结果评估指标
在信息检索中,常用的指标是精确率(precision)和召回率(recall)。精确率衡量搜索引擎返回的所有页面中相关页面的百分比;召回率计算所有可能相关页面中搜索引擎返回的相关页面的百分比。通常精确率和召回率之间存在权衡,通过改变搜索引擎的参数,可以获得不同的精确率 - 召回率对,还可以绘制图表比较不同方法。也有研究人员使用平衡点(break - even point,即精确率和召回率相等时的点)作为单一值进行比较,F - 测度(F - measure)允许对精确率和召回率进行不同的加权。
在当前任务中,由于不知道用户感兴趣的所有相关网页,测量召回率相当困难,且搜索引擎对页面进行了排名,会认为某些页面比其他页面更相关。因此,为了衡量搜索引擎的性能,提出使用 Interest(Page) 来衡量相关性,并计算页面兴趣值按页面排名加权后的总和,再通过排名总和进行归一化。搜索引擎性能的正式定义为:
\[
\frac{\sum_{Page\in ReturnedPages}(Interest(Page)\times Ranking(Page))}{\sum_{Page\in ReturnedPages}Ranking(Page)}
\]
其中,Ranking(Page) 是搜索引擎为页面分配的排名,与用户越相关排名值越大。该指标对排名较高的页面施加更大的奖励/惩罚,对用户更感兴趣的页面给予更高的奖励。
### 1.3 用户行为反馈与用户画像更新
用户对搜索引擎返回结果的行为为系统改进用户画像提供了反馈。访问过的页面更新 Web 访问图并成为正例,被忽略(未访问)的页面成为反例,然后学习更新后的页面兴趣估计器(PIE)。
## 2. 新的有趣页面推荐
### 2.1 推荐方法概述
推荐新的和潜在有趣的页面是一个具有挑战性的问题,主要是因为可用页面数量众多。一种方法是从用户感兴趣的术语或用户最近访问的页面开始进行系统搜索,并递归访问引用的链接,每个页面的潜在兴趣由 PIE 估计,但这种方法在检索页面和使用 PIE 分析时需要大量的通信和计算。
### 2.2 协作(社交)推荐方法
提出使用协作(或社交)方法,该方法假设具有相似兴趣的用户行为相似,推荐基于不同但相似用户看到的未见过的项目。为了高效地找到具有相似兴趣的用户,将过程分为两个阶段:
- **第一阶段(粗过滤)**:忽略频率信息,计算两个用户访问站点的重叠程度,将重叠程度最高的用户传递到第二阶段。
- **第二阶段(相似度检查)**:使用频率信息来衡量两个用户之间的相似度。一种度量是皮尔逊 r 相关系数:
\[
r = \frac{\sum xy-\frac{\sum x\sum y}{n}}{\sqrt{(\sum x^{2}-\frac{(\sum x)^{2}}{n})(\sum y^{2}-\frac{(\sum y)^{2}}{n})}}
\]
其中,x 和 y 是配对值,n 是配对数,该公式计算两个用户的站点访问频率之间的相关程度。此外,根据以下公式选择具有高置信度相关性的用户:
\[
t = \frac{r}{\sqrt{\frac{1 - r^{2}}{n - 2}}}
\]
该公式服从自由度为 n - 2 的 t 分布。在选定的相似用户(S)中,每个页面的兴趣按相关系数加权:
\[
Recommendation(Page)=\sum_{s\in S}r(CurrentUser, s)\times Interests(Page)
\]
此外,还提出将频率转换为概率,并使用 Kullback 散度来衡量相似度:
\[
\sum_{x}P(x)\log\frac{P(x)}{P_{a}(x)}
\]
其中,P 是原始概率分布(当前用户),$P_{a}$ 是近似概率分布(其他用户之一)。皮尔逊相关假设配对值之间存在线性关系,而 Kullback 散度没有这个假设,因此在当前任务中可能提供更接近的相似度估计。
## 3. PIE 初步实验
### 3.1 实验数据与预处理
为了评估页面兴趣估计器(PIE)的性能,对部门 Web 服务器的数据进行了实验。通过分析 1999 年 1 月至 4 月的服务器访问日志,确定了在前两个月和后两个月至少访问站点 50 次的主机,使用前两个月的数据进行训练,后两个月的数据进行测试。过滤掉代理、爬虫和计算机实验室主机,确定“单用户”主机(宿舍房间和本地公司的主机)。
对于每个文本 Web 文档(.html 或.txt),首先提取单词,然后应用停用词列表去除常见的冠词、介词和动词,最后根据 Porter 词干提取算法对单词进行词干提取。使用特定方案识别二元组和三元组,阈值 T 为 0.0025,窗口大小 W 为 2。基于期望互信息选择 250 个单词/短语的布尔特征,在出现平局时优先选择在有趣文档中具有较高文档频率的特征和较长短语的特征。访问过的页面被认为对用户有趣,未访问的页面则无趣,为简单起见,随机选择未访问页面纳入训练和测试集,且未访问页面数量与访问页面数量相同,因此训练集和测试集中的类别比例为 1:1。
### 3.2 实验算法与结果
在数据集上运行 C4.5、CART、朴素贝叶斯(naive BAYES)和 RIPPER 算法。实验结果如下表所示:
| User | Train size | Test size | Words
0
0
复制全文
相关推荐







