用户画像系统概述

1. 用户画像的概念
1.1 什么是用户画像?

用户画像是对现实世界中的用户的数学建模

1.2 用户标签画像

用户标签画像是用标签标示方法来表示用户。

  • 标签是某一种用户特征的符号表示;
  • 用户画像是一个整体,各个维度不孤立,标签之间有联系;

用户画像可以用标签的集合来表示。

1.3 用户标签的数学描述:

标签是特征空间中的维度

特征空间:

  • 每个标签都是特征空间中的基向量
  • 基向量之间有关联,不一定是正交的;

用户画像是特征空间中的高维向量

特征空间中向量表示:
特征空间中向量表示

2. 用户画像的流程和架构
2.1 用户画像的流程:

在这里插入图片描述
(1)明确问题和了解数据:

分类 / 回归 / 聚类 / 推荐,匹配具体需求,数据的规模、重要特征的覆盖度等。

(2)数据预处理:

数据集成、数据冗余、数据冲突,数据采样,数据清洗、缺失值处理和噪声数据。

(3)特征工程:

提取对所需解决问题有用的属性。

特征的提取和构造:

  • 针对所解决的问题选择最有用的特征集合;
  • 通过相关系数等方式来计算特征的重要性(人工筛选 / 提升树 / 维度过多,PCA自动降维)

特征监控:

  • 指标:时效性、覆盖率和异常值;
  • 可视化 & 预警;

(4)模型算法:

可根据应用场景选择多种模型尝试比较

2.2 用户画像系统架构

在这里插入图片描述
在这里插入图片描述

3. 用户标签使用案例:

预测问题:

  • 性别预测问题:
    根据用户数据类型预测性别;

  • 已知数据:
    数据1:用户使用APP的行为数据;
    数据2:用户浏览网页的行为数据;

3.1 明确问题
  • 数据挖掘常见问题中的哪一类?
    • 分类、回归、聚类、推荐,还是其他(二分类)
  • 数据集规模:
    • 数据集是否够大?(分类需要大的数据集,处理数据量所需资源,本地或大数据平台)
  • 问题假设:
    • 数据是否满足所解决问题的假设?(男女行为不同)
3.2 数据预处理

表1数据预处理后的结果:
在这里插入图片描述

表2数据预处理后的结果:
在这里插入图片描述

3.3 特征工程
  • 单特征分析:

    • 数值型特征处理:标准化、归一化、离散化(连续数值本身对结果意义不大);
    • 类别型特征:one-hot编码;
    • 文本数据:网页 -> 文本 -> 分词 -> 去停用词 -> 向量化(TF-IDF等);
  • 多特征分析:

    • 设备类型是否决定了性别?做相关性分析,计算相关系数;
    • APP的启动次数和停留时长是否完全正相关,结果表明特别相关,去掉停留时长;
    • 如果特征太多,可能需要做降维处理;

表1特征工程后的数据:
在这里插入图片描述
表2特征工程后的数据:
在这里插入图片描述
数据按照主键(User_id)连接生成数据集。

3.4 算法与模型
  • 选择算法和模型考虑的因素;
  • 数据集的大小,如何划分训练集和测试集;
  • 特征的维度大小,是否需要降维;
  • 所解决问题是否是线性可分的;
  • 所有的特征是独立的么;
  • 需不需要考虑过拟合的问题;
  • 对性能有哪些要求;
  • 在满足需求的前提下,选择简单的模型;
  • 对算法和模型选择评价标准;
  • 离线测试;
3.5 在线测试
  • A/B测试;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值