在信息论中,条件熵描述了在已知第二个随机变量
的值的前提下,随机变量
的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于
条件的
的信息熵,用
表示。
如果
为变量
在变量
取特定值
条件下的熵,那么
就是
在
取遍所有可能的
后取平均的结果。
给定随机变量
与
,定义域分别为
与
,在给定
条件下
的条件熵定义为:[1]

注意: 可以理解,对于确定的 c>0,表达式 0 log 0 和 0 log (c/0) 应被认作等于零。
当且仅当
的值完全由
确定时,
。相反,当且仅当
和
为独立随机变量时
。
假设两个随机变量 X 和 Y 确定的组合系统的联合熵为
,即我们需要
bit的信息来描述它的确切状态。
现在,若我们先学习
的值,我们得到了
bits的信息。
一旦知道了
,我们只需
bits来描述整个系统的状态。
这个量正是
,它给出了条件熵的链式法则:

链式法则接着上面条件熵的定义:

条件熵的贝叶斯规则表述为

证明.
and
。对称性意味着
。将两式相减即为贝叶斯规则。
在量子信息论中,条件熵都概括为量子条件熵。