在資訊理論中,條件熵描述了在已知第二個隨機變數
的值的前提下,隨機變數
的資訊熵還有多少。同其它的資訊熵一樣,條件熵也用Sh、nat、Hart等資訊單位表示。基於
條件的
的資訊熵,用
表示。
如果
爲變數
在變數
取特定值
條件下的熵,那麼
就是
在
取遍所有可能的
後取平均的結果。
給定隨機變數
與
,定義域分別爲
與
,在給定
條件下
的條件熵定義爲:[1]

注意: 可以理解,對於確定的 c>0,表達式 0 log 0 和 0 log (c/0) 應被認作等於零。
若且唯若
的值完全由
確定時,
。相反,若且唯若
和
爲獨立隨機變數時
。
假設兩個隨機變數 X 和 Y 確定的組合系統的聯合熵爲
,即我們需要
bit的資訊來描述它的確切狀態。
現在,若我們先學習
的值,我們得到了
bits的資訊。
一旦知道了
,我們只需
bits來描述整個系統的狀態。
這個量正是
,它給出了條件熵的鏈式法則:

鏈式法則接著上面條件熵的定義:

條件熵的貝葉斯規則表述爲

證明.
and
。對稱性意味著
。將兩式相減即爲貝葉斯規則。
在量子資訊論中,條件熵都概括為量子條件熵。