匿名互联网用户人口统计属性推断研究
立即解锁
发布时间: 2025-08-17 00:32:41 阅读量: 6 订阅数: 7 


网络使用分析与用户画像研讨会论文集
### 匿名互联网用户人口统计属性推断研究
#### 1. 研究背景与目标
在互联网广告投放中,精准定位特定人口统计群体的用户是一大挑战。传统做法是进行调查,但存在诸多问题,比如人们不愿在网上透露个人信息,且互联网用户的标识符具有临时性,需要定期更新。
本研究旨在找到一种有效方法,推断那些缺乏人口统计信息的互联网用户的相关信息,期望构建一个覆盖大量互联网用户的高质量人口统计资料数据库,而无需对每个用户进行调查。具体目标如下:
- 为部分互联网用户推断多达六项人口统计事实(性别、年龄、收入、婚姻状况、教育程度和家中是否有孩子),置信度至少达到 60%。
- 对占热门网站互联网流量超过 50%的部分网络用户,至少做出一项人口统计推断。
- 实现实时进行人口统计推断,而非预先构建网络用户档案,以便根据最新使用数据按需生成推断。目前,前两个目标已取得成功,最后一个目标的工作仍在进行中。
#### 2. 解决方案概述
要进行人口统计推断,需要输入数据。虽然互联网用户大多匿名,但他们会提供一定的使用信息,包括搜索词和访问的网页。一些广告商已直接从这些使用信息中受益,例如用户搜索“我想买一辆 1999 款保时捷 944”,向其投放保时捷 944 的广告可能是个不错的选择。但如果用户只搜索“我想买一辆车”,广告商就需要用户的人口统计资料来选择最合适的广告。
收集使用信息后,需对其进行处理以用于建模。可参考信息检索领域的三种方法:
- **向量空间模型**:将文档表示为实值向量,每个元素对应文档中特定术语的出现频率。但由于实际文档集中唯一术语众多,向量空间的维度通常较高,给统计建模带来挑战。
- **潜在语义分析(LSA)**:旨在解决向量空间模型的一些固有难题,如文档向量的高维度问题。通过奇异值分解计算列所张成空间的因子,保留前 100 - 300 个因子,得到更适合建模的低维向量空间。
- **随机投影直方图**:通过将 n 维文档向量与随机 mxn 矩阵相乘,得到新的 m 维文档向量。当 m 约为 100 或更大时,新向量空间中的相似关系能很好地近似原始向量空间中文档间的对应关系,且计算复杂度低于潜在语义分析。
由于研究团队有能力和硬件对实验数据集进行奇异值分解,因此选择使用 LSA 来表示网络使用数据。之后,为了创建能进行人口统计推断的模型,考虑了线性回归、标准反向传播技术训练的神经模型和缩放共轭梯度(SCG)技术训练的神经模型。由于不希望忽略自变量和因变量之间可能存在的非线性关系,最终选择了具有非线性元素的神经模型,并在标准反向传播初始实验未能可靠收敛到解后,选用了缩放共轭梯度方法。
#### 3. 潜在语义分析(LSA)详解
##### 3.1 LSA 概述
LSA 是一种信息检索技术,可从文档集合中创建向量空间。该向量空间维度相对较低(通常在 100 - 300 之间),且相似文档在空间中会被赋予相似向量。此外,LSA 还能为文档集合中的单个术语生成向量,通过简单代数运算可将术语向量组合成文档向量。它可用于处理查询,通过从查询术语构建伪文档向量并与 LSA 空间中的所有文档向量进行比较。对于本研究而言,使用数据可视为文档(互联网用户访问的网页文本内容)和查询(互联网用户输入的搜索词)的集合,利用 LSA 可将表示网页的向量与表示搜索词的伪文档向量相结合,创建代表互联网用户的单个向量。
##### 3.2 向量空间信息检索
向量空间信息检索技术基于文档的含义可从其组成术语推导得出的假设。文档表示为术语向量 d = (t1, t2, …, tN),其中 ti 是非负数值,表示术语 i 在文档 d 中的出现次数。每个唯一术语对应术语 - 文档向量空间中的一个维度。类似地,查询也表示为向量 q = (t1, t2, …, tN)。通过计算查询与文档在空间中的距离,可检索出与查询语义内容相似的文档。
文档向量通常存储在术语 - 文档矩阵中,矩阵的行代表单个术语,列代表文档集合中的单个文档。在最简单的情况下,术语 - 文档矩阵的元素 aij 表示术语 i 在文档 j 中的出现次数;更一般地,aij 是术语 i 在文档 j 中出现次数的某个函数,该函数通常称为术语加权方案。
虽然可以手动从文档集合构建术语 - 文档向量空间,但也有工具可加速这一过程,例如 SMART 文档检索系统。它可免费获取,能从文档集合创建术语 - 文档矩阵,还具备去除常见词汇和进行词干提取等功能。然而,实际文档集合生成的术语 - 文档向量空间维度往往过高,使建模任务难以进行。
##### 3.3 奇异值分解
LSA 认为文档中的术语不能完全可靠地指示其中包含的概念,词选择的可变性会部分掩盖文档的语义结构。通过降低术语 - 文档向量空间的维度,可揭示文档之间的潜在关系,消除大量噪声。
在实际应用中,LSA 向量空间的最佳维度范围是 100 - 300。LSA 使用奇异值分解(SVD)来降低术语 - 文档向量空间的维度,可将 txd 的术语 - 文档矩阵 A 分解为:
A = TSDt
其中,T 是 txk 的术语向量矩阵,D 是 dxk 文档向量矩阵的转置,S 是 kxk 的奇异值对角矩阵,k 通常在 100 - 300 范围内。虽然手动进行 SVD 计算是可能的,但也有工具可加速这一过程,如 SVDPACKC,它可免费获取,能对大型稀疏矩阵进行 SVD 计算。
#### 4. 研究方法步骤
- **收集背景信息**:收集互联网用户访问的热门网页文档。理想情况下,为互联网上的所有网页构建 LSA 向量,但这不现实,所以尽可能为更多热门网页创建向量,以确保能覆盖大多数用户访问的部分网页。本研究使用自制的网络爬虫收集文档,且文档大小限制在约 4k 字节(较大文档会被截断)。
- **创建术语 - 文档矩阵**:使用 SMART 文档检索系统从文档集合创建术语 - 文档矩阵,作为 SVD 计算的输入。本研究未使用 SMART 的高级功能,将术语加权选项设置为“关闭”,其他使用默认选项设置。
- **对术语 - 文档矩阵进行奇异值分解**:根据潜在语义分析理论,奇异值分解不仅能降低输入空间的维度,还能得到位于同一低维输出空间的术语和文档向量。本研究选择 SVDPACKC 的 las2 实用程序进行奇异值分解,配置其最多生成 300 个奇异值(实际找到 182 个),其他使用默认选项设置。
- **为建模数据集中的互联网用户创建向量**:
1. 计算矩阵 T 中表示互联网用户输入搜索词的向量之和,丢弃在 T 中没有向量的搜索词。
2. 将结果向量乘以矩阵 S 的逆进行缩放,因为矩阵 T 中的向量在与矩阵 D 中的向量比较或组合之前需要进行缩放。
3. 将表示互联网用户访问网页的文档向量添加到上一步创建的伪文档向量中,丢弃在 D 中没有向量的网页。此过程的结果是为每个感兴趣的互联网用户创建一个代表其所有使用数据的 LSA 向量。
- **创建神经模型**:使用免费的斯图加特神经网络模拟器(SNNS),配置其使用 SCG 方法训练一个三层前馈神经模型。SCG 是一种迭代技术,与标准反向传播不同,它通过二阶泰勒展开式的信息选择搜索方向,避免了标准反向传播和其他梯度下降方法中一步的最小化被下一步部分抵消的问题。输入层由 182 个神经元组成,代表 LSA 向量中的每个值;隐藏层固定为 3 个神经元;输出层由一个神经元组成,代表感兴趣的(二进制值)人口统计变量,其他使用 SNNS 默认设置。
- **建模数据集**:通过将使用数据与参与网站提供的互联网调查响应进行匹配,构建建模数据集。该过程得到一组包含自变量(输入的搜索词和访问的网页)和因变量(调查响应中的人口统计字段)已知值的观测值。
初始实验使用二进制值的人口统计变量“性别”(男性 = 0,女性 = 1)进行,然后对其余人口统计变量重复实验。每次实验使用 40000 个观测值训练 SCG 神经模型,20000 个不同的观测值用于验证。考虑的人口统计变量及其可能值如下表所示:
| 变量 | 可能值 |
| ---- | ---- |
| 性别 | 男,女 |
| 18 岁以下 | 是,否 |
| 18 - 34 岁 | 是,否 |
| 35 - 54 岁 | 是,否 |
| 55 岁以上 | 是,否 |
| 收入低于 50000 美元 | 是,否 |
| 婚姻状况 | 单身,已婚 |
| 接受过大学教育 | 是,否 |
| 家中有孩子 | 是,否 |
训练数据进行了平衡处理,以包含所考虑因变量值的相等比例。例如,用于建模“性别”这一人口统计变量的 40000 个训练观测值中,包含 20000 个女性观测值和 20000 个男性观测值。
下面是整个研究方法步骤的 mermaid 流程图:
```mermaid
graph LR
A[收集背景信息] --> B[创建术语 - 文档矩阵]
B --> C[进行奇异值分解]
C --> D[为互联网用户创建向量]
D --> E[创建神经模型]
E --> F[构建建模数据集]
```
通过以上研究方法和步骤,有望实现对匿名互联网用户人口统计属性的有效推断,为互联网广告投放等领域提供更精准的目标定位。
### 匿名互联网用户人口统计属性推断研究
#### 5. 关键技术分析
##### 5.1 潜在语义分析优势
潜在语义分析(LSA)在本研究中发挥了核心作用。其主要优势在于能够处理高维度的数据,将复杂的术语 - 文档向量空间转化为低维度的空间,使得数据更易于处理和分析。通过奇异值分解,LSA 不仅降低了维度,还揭示了文档之间的潜在语义关系,去除了噪声,提高了数据的质量。
与其他降维技术相比,如随机投影直方图,LSA 虽然计算复杂度相对较高,但在挖掘数据的语义信息方面表现更出色。它能够生成术语向量和文档向量,并且这些向量之间的关系能够反映出实际的语义关联,这对于人口统计属性的推断至关重要。
##### 5.2 神经模型选择
在选择神经模型时,研究团队考虑了线性回归、标准反向传播技术训练的神经模型和缩放共轭梯度(SCG)技术训练的神经模型。线性回归适用于线性关系的建模,但在处理复杂的非线性关系时可能效果不佳。标准反向传播技术是一种常用的训练方法,但在本研究中,初始实验未能可靠收敛到解。
而缩放共轭梯度(SCG)技术则具有明显的优势。它通过二阶泰勒展开式的信息选择搜索方向,避免了标准反向传播和其他梯度下降方法中一步的最小化被下一步部分抵消的问题,能够更快地收敛到最优解。此外,SCG 方法在处理非线性关系时表现出色,能够更好地捕捉自变量和因变量之间的复杂关系,因此被选为最终的训练方法。
#### 6. 实验结果与分析
##### 6.1 实验设置
实验使用了二进制值的人口统计变量进行建模,包括性别、不同年龄段、收入水平、婚姻状况、教育程度和家中是否有孩子等。每次实验使用 40000 个观测值进行训练,20000 个不同的观测值用于验证。训练数据进行了平衡处理,以确保每个因变量值的比例相等。
##### 6.2 实验结果
实验结果显示,在推断多达六项人口统计事实方面,对于部分互联网用户,能够达到至少 60%的置信度,实现了研究的第一个目标。对于占热门网站互联网流量超过 50%的部分网络用户,也能够做出至少一项人口统计推断,实现了第二个目标。
然而,在实时进行人口统计推断方面,虽然研究团队正在努力,但目前仍处于进行中。实时推断需要处理大量的实时数据,并且要保证推断的准确性和及时性,这对系统的性能和算法的效率提出了更高的要求。
##### 6.3 结果分析
从实验结果可以看出,基于潜在语义分析和神经模型的方法在推断匿名互联网用户的人口统计属性方面具有一定的有效性。通过对互联网用户的搜索词和访问网页等使用信息进行分析,能够挖掘出隐藏在数据中的人口统计信息。
但同时,实验也暴露出一些问题。例如,实时推断的难度较大,需要进一步优化算法和系统架构。此外,对于一些复杂的人口统计变量,如收入水平和教育程度,推断的准确性还有待提高。这可能是由于这些变量与使用信息之间的关系更为复杂,需要更多的特征和更复杂的模型来进行推断。
#### 7. 应用场景与展望
##### 7.1 应用场景
本研究的成果在互联网广告投放、市场调研等领域具有广泛的应用前景。在互联网广告投放方面,通过推断用户的人口统计属性,广告商可以更精准地定位目标用户,提高广告的投放效果。例如,对于一款针对年轻男性的运动产品,可以将广告精准地投放到符合该人口统计特征的互联网用户面前,从而提高广告的点击率和转化率。
在市场调研方面,通过对大量互联网用户的人口统计属性进行推断,可以快速了解市场的需求和趋势,为企业的产品研发和营销策略制定提供有力的支持。
##### 7.2 展望
未来的研究可以从以下几个方面进行改进和拓展:
- **实时推断优化**:进一步优化算法和系统架构,提高实时推断的准确性和及时性。可以采用分布式计算、流式处理等技术,处理大量的实时数据。
- **多源数据融合**:除了搜索词和访问网页等使用信息,还可以融合其他数据源,如社交媒体数据、移动设备数据等,以获取更全面的用户信息,提高人口统计属性推断的准确性。
- **模型复杂度提升**:对于一些复杂的人口统计变量,如收入水平和教育程度,可以尝试使用更复杂的模型,如深度学习模型,来挖掘数据中的潜在信息,提高推断的准确性。
下面是未来研究方向的列表:
- 实时推断优化
- 采用分布式计算技术
- 运用流式处理技术
- 多源数据融合
- 融合社交媒体数据
- 融合移动设备数据
- 模型复杂度提升
- 尝试深度学习模型
#### 8. 总结
本研究旨在解决匿名互联网用户人口统计属性推断的难题,通过潜在语义分析和神经模型的结合,实现了对部分互联网用户人口统计属性的有效推断。研究成果在互联网广告投放、市场调研等领域具有重要的应用价值。
虽然研究已经取得了一定的进展,但仍面临一些挑战,如实时推断的优化、复杂人口统计变量的准确推断等。未来的研究需要进一步探索和创新,以提高推断的准确性和效率,为互联网行业的发展提供更有力的支持。
下面是整个研究过程的总结表格:
| 研究步骤 | 具体内容 |
| ---- | ---- |
| 收集背景信息 | 收集互联网用户访问的热门网页文档 |
| 创建术语 - 文档矩阵 | 使用 SMART 文档检索系统创建矩阵 |
| 进行奇异值分解 | 使用 SVDPACKC 的 las2 实用程序 |
| 为互联网用户创建向量 | 计算搜索词向量之和,缩放并添加网页向量 |
| 创建神经模型 | 使用 SNNS 训练三层前馈神经模型 |
| 构建建模数据集 | 匹配使用数据和调查响应 |
```mermaid
graph LR
A[潜在语义分析] --> B[神经模型训练]
B --> C[人口统计属性推断]
C --> D[应用场景拓展]
D --> E[未来研究方向]
```
通过以上的研究和分析,我们对匿名互联网用户人口统计属性的推断有了更深入的了解,为进一步的研究和应用奠定了基础。
0
0
复制全文
相关推荐







