【机器学习入门】第4讲:数据预处理与特征工程——打造高质量数据集

资源软件动作暨昝绳鹤锁多好 /494b36Tkwj😕
链接:https://pan.quark.cn/s/43159509c536
「微信被删好友检测工具」筷莱坌教狴犴狾夺郝 链接:https://pan.quark.cn/s/43159509c536
链接:https://pan.quark.cn/s/4598337f6b3e
「【美剧系列】」链接:https://pan.quark.cn/s/663e3ca79519

复制群口令 !0b7236TlXn!😕
将加入群聊免费医院分享

引言:数据质量决定模型天花板

在机器学习项目中,80%的时间往往花在数据准备上。现实中的数据常常面临:

  • 用户年龄 = 999(异常值)
  • 商品评论缺失(空值)
  • 性别用“男/女”和“M/F”混合表示(不一致)

本讲将系统解决这些问题,教你从“脏数据”中提炼出高质量特征集,为模型提供优质“食材”。


一、数据清洗:处理缺失值与异常值

1.1 缺失值处理三大策略

场景分析
  • <5%缺失:建议填充
  • 5%-30%缺失:需结合特征重要性判断
  • >30%缺失:考虑删除该特征
常用填充方法
方法 适用场景 Python实现
均值/中位数填充 数值型特征,分布均匀 df.fillna(df.mean())
众数填充 分类型特征 df.fillna(df.mode()[0])
KNN填充 数据间存在相关性 KNNImputer()

代码示例

from sklearn.impute import KNNImputer  
import pandas as pd  

# 构造含缺失值数据  
data = {
   
   'Age': [25, 30, np.nan, 35, 40],  
        'Income': [5000, np.nan, 7000, np.nan, 9000]}  
df = pd.DataFrame(data)  

# KNN填充(用最近2个邻居的均值)  
imputer = KNNImputer(n_neighbors=2)  
df_filled = pd.DataFrame(imputer.fit_transform(df), columns
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凉亭下

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值