1. 用户画像的概念
1.1 什么是用户画像?
用户画像是对现实世界中的用户的数学建模。
1.2 用户标签画像
用户标签画像是用标签标示方法来表示用户。
- 标签是某一种用户特征的符号表示;
- 用户画像是一个整体,各个维度不孤立,标签之间有联系;
用户画像可以用标签的集合来表示。
1.3 用户标签的数学描述:
标签是特征空间中的维度。
特征空间:
- 每个标签都是特征空间中的基向量;
- 基向量之间有关联,不一定是正交的;
用户画像是特征空间中的高维向量。
特征空间中向量表示:
2. 用户画像的流程和架构
2.1 用户画像的流程:
(1)明确问题和了解数据:
分类 / 回归 / 聚类 / 推荐,匹配具体需求,数据的规模、重要特征的覆盖度等。
(2)数据预处理:
数据集成、数据冗余、数据冲突,数据采样,数据清洗、缺失值处理和噪声数据。
(3)特征工程:
提取对所需解决问题有用的属性。
特征的提取和构造:
- 针对所解决的问题选择最有用的特征集合;
- 通过相关系数等方式来计算特征的重要性(人工筛选 / 提升树 / 维度过多,PCA自动降维)
特征监控:
- 指标:时效性、覆盖率和异常值;
- 可视化 & 预警;
(4)模型算法:
可根据应用场景选择多种模型尝试比较
2.2 用户画像系统架构
3. 用户标签使用案例:
预测问题:
-
性别预测问题:
根据用户数据类型预测性别; -
已知数据:
数据1:用户使用APP的行为数据;
数据2:用户浏览网页的行为数据;
3.1 明确问题
- 数据挖掘常见问题中的哪一类?
- 分类、回归、聚类、推荐,还是其他(二分类)
- 数据集规模:
- 数据集是否够大?(分类需要大的数据集,处理数据量所需资源,本地或大数据平台)
- 问题假设:
- 数据是否满足所解决问题的假设?(男女行为不同)
3.2 数据预处理
表1数据预处理后的结果:
表2数据预处理后的结果:
3.3 特征工程
-
单特征分析:
- 数值型特征处理:标准化、归一化、离散化(连续数值本身对结果意义不大);
- 类别型特征:one-hot编码;
- 文本数据:网页 -> 文本 -> 分词 -> 去停用词 -> 向量化(TF-IDF等);
-
多特征分析:
- 设备类型是否决定了性别?做相关性分析,计算相关系数;
- APP的启动次数和停留时长是否完全正相关,结果表明特别相关,去掉停留时长;
- 如果特征太多,可能需要做降维处理;
表1特征工程后的数据:
表2特征工程后的数据:
数据按照主键(User_id)连接生成数据集。
3.4 算法与模型
- 选择算法和模型考虑的因素;
- 数据集的大小,如何划分训练集和测试集;
- 特征的维度大小,是否需要降维;
- 所解决问题是否是线性可分的;
- 所有的特征是独立的么;
- 需不需要考虑过拟合的问题;
- 对性能有哪些要求;
- 在满足需求的前提下,选择简单的模型;
- 对算法和模型选择评价标准;
- 离线测试;
3.5 在线测试
- A/B测试;