【资源软件】 动作暨昝绳鹤锁多好 /494b36Tkwj😕
链接:https://pan.quark.cn/s/43159509c536
「微信被删好友检测工具」筷莱坌教狴犴狾夺郝 链接:https://pan.quark.cn/s/43159509c536
链接:https://pan.quark.cn/s/4598337f6b3e
「【美剧系列】」链接:https://pan.quark.cn/s/663e3ca79519
复制群口令 !0b7236TlXn!😕
将加入群聊免费医院分享
引言:数据质量决定模型天花板
在机器学习项目中,80%的时间往往花在数据准备上。现实中的数据常常面临:
- 用户年龄 = 999(异常值)
- 商品评论缺失(空值)
- 性别用“男/女”和“M/F”混合表示(不一致)
本讲将系统解决这些问题,教你从“脏数据”中提炼出高质量特征集,为模型提供优质“食材”。
一、数据清洗:处理缺失值与异常值
1.1 缺失值处理三大策略
场景分析
- <5%缺失:建议填充
- 5%-30%缺失:需结合特征重要性判断
- >30%缺失:考虑删除该特征
常用填充方法
方法 | 适用场景 | Python实现 |
---|---|---|
均值/中位数填充 | 数值型特征,分布均匀 | df.fillna(df.mean()) |
众数填充 | 分类型特征 | df.fillna(df.mode()[0]) |
KNN填充 | 数据间存在相关性 | KNNImputer() |
代码示例:
from sklearn.impute import KNNImputer
import pandas as pd
# 构造含缺失值数据
data = {
'Age': [25, 30, np.nan, 35, 40],
'Income': [5000, np.nan, 7000, np.nan, 9000]}
df = pd.DataFrame(data)
# KNN填充(用最近2个邻居的均值)
imputer = KNNImputer(n_neighbors=2)
df_filled = pd.DataFrame(imputer.fit_transform(df), columns