在第一部分中,我们对随机事件的信息量度有了一定的了解,本文将会以此为基础说明随机变量的平均信息量,即熵。
信息熵
信息熵
离散随机变量 X X X的熵为自信息的平均值,记为 H ( X ) H(X) H(X): H ( X ) = E p ( x ) [ I ( x ) ] = E p ( x ) [ − log p ( x ) ] = − ∑ x p ( x ) log p ( x ) H(X)=\underset{p(x)}{E}\left[I(x)\right]=\underset{p(x)}{E}\left[-\log{p(x)}\right]=-\sum\limits_x{p(x)\log{p(x)}} H(X)=p(x)E[I(x)]=p(x)E[−logp(x)]=−x∑p(x)logp(x)其中, I ( x ) I(x) I(x)表示事件 x x x的自信息; E p ( x ) \underset{p(x)}{E} p(x)E表示对随机变量用 p ( x ) p(x) p(x)取算术平均。
信息熵 H ( X ) H(X) H(X)在平均意义上表征了信源的总体特征。在信源输出前,表示信源的平均不确定度。在信源输出后,表示一个信源符号所提供的平均信息量。
条件熵
条件熵为联合集 X Y XY XY熵的条件自信息 I ( y ∣ x ) I(y|x) I(