| 此條目需要精通或熟悉相關主題的編者參與及協助編輯。 請邀請適合的人士改善本條目。更多的細節與詳情請參見討論頁。 |
KL散度(Kullback-Leibler divergence,簡稱KLD)[1],在訊息系統中稱為相對熵(relative entropy),在連續時間序列中稱為隨機性(randomness),在統計模型推斷中稱為訊息增益(information gain)。也稱訊息散度(information divergence)。
KL散度是兩個機率分布P和Q差別的非對稱性的度量。 KL散度是用來度量使用基於Q的分布來編碼服從P的分布的樣本所需的額外的平均比特數。典型情況下,P表示數據的真實分布,Q表示數據的理論分布、估計的模型分布、或P的近似分布。[1]
對於離散隨機變量,其機率分布P 和 Q的KL散度可按下式定義為
![{\displaystyle D_{\mathrm {KL} }(P\|Q)=-\sum _{i}P(i)\ln {\frac {Q(i)}{P(i)}}.\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b115c150e9bbdbffb51b9f77d4d4e279b846e204)
等價於
![{\displaystyle D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\ln {\frac {P(i)}{Q(i)}}.\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/82f51e162f33f3bd351a969ab3dceb180b9612e3)
即按機率P求得的P和Q的對數商的平均值。KL散度僅當機率P和Q各自總和均為1,且對於任何i皆滿足
及
時,才有定義。式中出現
的情況,其值按0處理。
對於連續隨機變量,其機率分佈P和Q的KL散度可按積分方式定義為 [2]
![{\displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\ln {\frac {p(x)}{q(x)}}\,{\rm {d}}x,\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7a2fb9ed552577cc272dd9ee9fd07c569969fa0e)
其中p和q分別表示分佈P和Q的密度。
更一般的,若P和Q為集合X的機率測度,且P關於Q絕對連續,則從P到Q的KL散度定義為
![{\displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{X}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P,\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/120f4ee30195277baeb6cdd45158910f92aea40c)
其中,假定右側的表達形式存在,則
為Q關於P的R–N導數。
相應的,若P關於Q絕對連續,則
![{\displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{X}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P=\int _{X}{\frac {{\rm {d}}P}{{\rm {d}}Q}}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/05f773317c94b7181b14b3ad6f57990ff43dec01)
即為P關於Q的相對熵。
相對熵的值為非負數:
![{\displaystyle D_{\mathrm {KL} }(P\|Q)\geq 0,\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1e94f152f6de9d407bbc5d0f0fb2eebc4ccd3720)
由吉布斯不等式可知,當且僅當
時
為零。
儘管從直覺上KL散度是個度量或距離函數, 但是它實際上並不是一個真正的度量或距離。因為KL散度不具有對稱性:從分布P到Q的距離通常並不等於從Q到P的距離。
![{\displaystyle D_{\mathrm {KL} }(P\|Q)\neq D_{\mathrm {KL} }(Q\|P)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/eb454b33313fdfb5e8f859580e3c0cc7cd5cf66b)
KL散度和其它量的關係[編輯]
自信息和KL散度
![{\displaystyle I(m)=D_{\mathrm {KL} }(\delta _{im}\|\{p_{i}\}),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b5259d3907dac00533fee6c90ccf30425dbaceeb)
互信息和KL散度
![{\displaystyle {\begin{aligned}I(X;Y)&=D_{\mathrm {KL} }(P(X,Y)\|P(X)P(Y))\\&=\mathbb {E} _{X}\{D_{\mathrm {KL} }(P(Y|X)\|P(Y))\}\\&=\mathbb {E} _{Y}\{D_{\mathrm {KL} }(P(X|Y)\|P(X))\}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4f0dd25539b4734c56b6a1927ad80243023d026a)
信息熵和KL散度
![{\displaystyle {\begin{aligned}H(X)&=\mathrm {(i)} \,\mathbb {E} _{x}\{I(x)\}\\&=\mathrm {(ii)} \log N-D_{\mathrm {KL} }(P(X)\|P_{U}(X))\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e166092dd97aea2f0c5f669b441cb7fa6df32420)
條件熵和KL散度
![{\displaystyle {\begin{aligned}H(X|Y)&=\log N-D_{\mathrm {KL} }(P(X,Y)\|P_{U}(X)P(Y))\\&=\mathrm {(i)} \,\,\log N-D_{\mathrm {KL} }(P(X,Y)\|P(X)P(Y))-D_{\mathrm {KL} }(P(X)\|P_{U}(X))\\&=H(X)-I(X;Y)\\&=\mathrm {(ii)} \,\log N-\mathbb {E} _{Y}\{D_{\mathrm {KL} }(P(X|Y)\|P_{U}(X))\}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e148ead5812df5ef8b5482f300339f9f75e334e2)
交叉熵和KL散度
![{\displaystyle \mathrm {H} (p,q)=\mathrm {E} _{p}[-\log q]=\mathrm {H} (p)+D_{\mathrm {KL} }(p\|q).\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2d8f2e114908f6a358fa616fa739cf57f37eaf60)
參考文獻[編輯]