互信息

互信息是一种衡量两个变量之间关联强度的度量,它基于信息熵的概念。当X,Y完全相关时,互信息达到最大,反之,如果X,Y独立,则互信息为0。互信息不受变量之间线性关系的限制,因此应用更广泛。信息熵表示的是不确定性的度量,而信息量则是消除不确定性所需的信息。在物理意义上,熵描述的是系统的无序程度,封闭系统中熵通常趋向于最大值。" 122690992,10822128,全球与中国静态电能表市场分析与未来展望,"['大数据', '市场分析', '电力行业', '能源管理', '智能电网']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 相关性的描述问题

独立性说明两者之间无关系,相关性可以说明两者之间有关系,但这两者之间关系强弱如何度量?我们可以有线性相关系数(皮尔逊积矩相关系数)、卡方检验(此处不谈)和互信息这几个指标来进行量化。

使用线性相关系数的前提自变量与因变量是线性关系,取值范围为[-1,1],负数表示负相关:

ρx,y=cov(X,Y)σX,σY=E[(XuX)(YuY)]σX,σYρx,y=cov(X,Y)σX,σY=E[(X−uX)(Y−uY)]σX,σY

即协方差除以标准差的积。

而互信息是基于信息熵,适用面更广。

2. 信息熵与互信息

2.1 信息熵

信息熵表示要把一个事物弄清楚所需要的信息量的多少。所以,严格意义上来说,熵是表示不确定程度的度量,而非信息量的度量。意思是,熵小的,预测起来更容易。举个例子:一个汉字信息熵大约为8比特,英文的信息熵为4比特,意思是一个汉字所要表达意思的不确定度要大于英文,这说明了英文确实在很多方面表达精确度胜于汉字,因为更容易理解、预测它的意思。相应的,汉字存储压缩度更高,对应的英文原著翻译为中文版往往变薄了许多。

香农指出了信息熵必须满足费复兴,单调性,可加性这三种性质,并给出满足这三条性质的一种定义(当然也是目前唯一大家都用的定义):

H(X)=XP(X)log(P(X))H(X)=−∫XP(X)log(P(X))

P(X)是X的出现概率,即X分布越离散,X的状态数越多,信息熵越大。

#### 2.2 互信息:
互信息度量知道X,Y这两个变量其中一个,对另一个不确定度减少的程度,其定义为

I(X,Y)=xyP(X,Y)logP(X
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值