【机器学习入门】第12讲:主成分分析(PCA)——从高维数据到低维本质的探索

资源软件动作暨昝绳鹤锁多好 /494b36Tkwj😕
链接:https://pan.quark.cn/s/43159509c536
「微信被删好友检测工具」筷莱坌教狴犴狾夺郝 链接:https://pan.quark.cn/s/43159509c536
链接:https://pan.quark.cn/s/4598337f6b3e
「【美剧系列】」链接:https://pan.quark.cn/s/663e3ca79519

复制群口令 !0b7236TlXn!😕
将加入群聊免费医院分享

引言:当数据维度“爆炸”时,我们如何应对?

假设你是一名基因科学家,面对一份包含2万个基因表达量的数据集:

  • 目标:分析不同患者的癌症亚型
  • 挑战
    • 数据维度高,难以可视化与计算
    • 基因之间存在强相关性,信息冗余严重
  • 需求:提取关键特征,保留数据本质结构

这正是主成分分析(PCA)的核心使命! 本文将揭秘这一经典降维算法,教你从高维数据中提炼核心信息。


一、PCA的直观理解:数据压缩的艺术

1.1 从生活场景看PCA

想象你正在给水果拍照:

  • 原始数据:数百万像素的RGB值(三维数据)
  • PCA操作:找到最佳拍摄角度,用二维照片捕捉水果主要特征
  • 核心思想:舍弃次要细节,保留最大差异信息

1.2 PCA的数学目标

  • 方差最大化:找到数据方差最大的投影方向(主成分)
  • 协方差最小化:确保各主成分之间线性无关

几何解释
将数据旋转到新坐标系,使得第一坐标轴(主成分1)方向方差最大,第二坐标轴与第一轴正交且方差次大,依此类推。


二、PCA的数学推导:从协方差到特征分解

2.1 关键步骤分解

  1. 标准化数据:使各特征均值为0,方差为1
  2. 计算协方差矩阵C = (XᵀX)/(n-1)
  3. 特征值分解:求解协方差矩阵的特征值与特征向量
  4. 选择主成分:按特征值大小排序,选取前k个特征向量
  5. 投影数据:将原始数据转换到新特征空间

2.2 方差解释率计算

  • 单个主成分贡献率λ_i / Σλ
  • 累计解释方差Σ(λ_1~λ_k) / Σλ

代码计算解释方差

import numpy as np  
from sklearn.decomposition import PCA  

# 生成三维数据  
X = np.random.randn(100, 3) @ np.random.randn(3, 10)  # 10维线性相关数据  

pca = PCA(n_components=3)  
pca.fit(X)  

print("各主成分解释方差比:", pca.explained_variance_ratio_)  
print(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凉亭下

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值