处理分类数据

分类数据具有 一组特定的可能值。例如:

  • 国家公园内的不同物种
  • 特定城市的街道名称
  • 电子邮件是否为垃圾邮件
  • 房屋外部的颜色是绘制的
  • 分箱数字,具体说明请参阅使用数值 Data 模块

数字也可以是分类数据

可以对真实的数值数据进行有意义的乘法运算。例如,假设有一个模型,用于根据房屋的面积预测其价值。请注意,一个有用的房价评估模型通常取决于 数百项功能。尽管如此,在其他条件相同的情况下, 只有 200 平方块的房屋 约为 100 平方米的相同房屋价值的两倍 米。

通常,您应将包含整数值的特征表示为分类数据,而不是数值数据。例如,假设有一个邮政编码地图项,其中值为整数。如果您以数值(而非分类)来表示此特征,则表示您要求模型找出不同邮政编码之间的数值关系。也就是说,您可以指示模型 将邮政编码 20004 视为邮政编码的两倍(或一半) 10002。将邮政编码表示为分类数据可让模型 并单独计算每个邮政编码的权重。

编码

编码是指将分类数据或其他数据转换为数值向量 可用于训练的模型。必须进行这种转换,因为模型 仅使用浮点值进行训练;模型无法基于字符串进行训练, "dog""maple"。本单元将介绍 编码方法。