在信息论中,条件熵描述了在已知第二个随机变量
的值的前提下,随机变量
的资讯熵还有多少。同其它的资讯熵一样,条件熵也用Sh、nat、Hart等资讯单位表示。基于
条件的
的资讯熵,用
表示。
如果
为变量
在变量
取特定值
条件下的熵,那么
就是
在
取遍所有可能的
后取平均的结果。
给定随机变量
与
,定义域分别为
与
,在给定
条件下
的条件熵定义为:[1]
![{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c200b367c0f09c8d1faad3319c6c393d3ebbe539)
注意: 可以理解,对于确定的 c>0,表达式 0 log 0 和 0 log (c/0) 应被认作等于零。
当且仅当
的值完全由
确定时,
。相反,当且仅当
和
为独立随机变量时
。
链式法则[编辑]
假设两个随机变量 X 和 Y 确定的组合系统的联合熵为
,即我们需要
bit的资讯来描述它的确切状态。
现在,若我们先学习
的值,我们得到了
bits的资讯。
一旦知道了
,我们只需
bits来描述整个系统的状态。
这个量正是
,它给出了条件熵的链式法则:
![{\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X)\,.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bd7fe4fca76a1bae5717c2b4dd90f5f6f060bc96)
链式法则接着上面条件熵的定义:
![{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(x,y)+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(x)\\&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log \,p(x)\\&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/29715e42b93c03defc8ba0aa7e8083ec52c91dae)
贝叶斯规则[编辑]
条件熵的贝叶斯规则表述为
![{\displaystyle H(Y|X)\,=\,H(X|Y)-H(X)+H(Y)\,.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8d77cd988d035f320fef5cad97366faa9f34889e)
证明.
and
。对称性意味着
。将两式相减即为贝叶斯规则。
推广到量子理论[编辑]
在量子资讯论中,条件熵都概括为量子条件熵。
参考文献[编辑]