机器学习特征选择:传统互信息、k-nearest neighbor互信息

本文介绍了机器学习中用于特征选择的互信息概念,包括传统的互信息计算方法和基于k-NN的两种互信息估计方法。传统方法通过分箱统计样本点来计算离散变量的互信息。而在Estimating Mutual Information论文中,提出了针对离散和连续数据集的k-NN方法,其中一种是基于X和Y方向最大欧式距离的规则来选择最近邻。互信息越大,表示特征与输出的相关性越强。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

  1. 传统互信息
  2. Estimating Mutual Information中的的两种基于最近邻的互信息
  3. Mutual Information between Discrete and Continuous Data Sets论文中提到的互信息

1. 传统互信息

  • 已知变量(X,Y)(X,Y)(X,Y)的联合概率密度

对于一个NNN维的双变量点对(xi,yi),i=1,...N(x_i, y_i), i = 1, . . . N(xi,yi),i=1,...N,假设其是由联合概率密度为μ(x,y)\mu(x,y)μ(x,y)的变量(X,Y)(X,Y)(X,Y)生成的一组独立同分布的数据,由此我们可以计算得到x,yx,yx,y各自的边缘概率密度,即,μ(x)=∫μ(x,y)d(x)\mu(x)=\int\mu(x,y)d(x)μ(x)=μ(x,y)d(x)μ(y)=∫μ(x,y)d(y)\mu(y)=\int\mu(x,y)d(y)μ(y)=μ(x,y)d(y)。由此,我们可以根据下述公式计算得到变量(X,Y)(X,Y)(X,Y)的互信息I(X,Y)I(X,Y)I(X,Y)
在这里插入图片描述
在解决实际问题的时候,我们通常是不知道变量(X,Y)(X,Y)(X,Y)的联合概率密度的,而且,变量XXX与变量YYY一般来说是离散的,由此,我们采用分箱(binning)的方法,来计算变量(X,Y)(X,Y)

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值