在變分貝葉斯方法中,證據下界(英語:evidence lower bound,ELBO;有時也稱為變分下界[1]或負變分自由能)是一種用於估計一些觀測數據的對數似然的下限。
設
和
是隨機變量,其聯合分布為
。例如,
是
的邊緣分布,
是在給定
的條件下,
的條件分布。那麼對於任何從
中抽取的樣本
和任何分布
,我們有:
我們將上述不等式稱為ELBO不等式。其中,左側稱為
的證據,右側稱為
的證據下界(ELBO)。
在變分貝葉斯方法的術語中,分布
稱為證據。一些人使用「證據」一詞來表示
,而其他作者將
稱為對數證據,有些人會交替使用證據和對數證據這兩個術語。
ELBO 沒有普遍且固定的表示法。在本文中我們使用
假設我們有一個可觀察的隨機變量
,並且我們想找到其真實分布
。這將允許我們通過抽樣生成數據,並估計未來事件的概率。一般來說,精確找到
是不可能的,因此我們不得不尋找一個近似。
也就是說,我們定義一個足夠大的參數化分布族
,然後最小化某種損失函數
,
。解決這個問題的一種可能方法是考慮從
到
的微小變化,並解決
。這是變分法中的一個變分問題,因此被稱為變分方法。
由於明確參數化的分布族並不多(所有經典的分布族,如常態分布、Gumbel分布等都太過簡單,無法很好地模擬真實分布),我們考慮隱式參數化的概率分布:
- 首先,定義一個在潛在隨機變量
上的簡單分布
。通常情況下,常態分布或均勻分布已足夠。
- 接下來,定義一個由
參數化的複雜函數族
(例如深度神經網絡)。
- 最後,定義一種將任何
轉換為可觀測隨機變量
的簡單分布的方法。例如,讓
具有兩個輸出,那麼我們可以將相應的分布定義為在
上的常態分布
。
這定義了一個關於
的聯合分布族
。從
中抽取樣本
變得非常容易:只需從
中抽樣
,然後計算
,最後使用
來抽樣
。
換句話說,我們擁有了一個可觀測量和潛在隨機變量的生成模型。
現在,我們認為一個分布
是好的,如果它是
的一個接近近似:
由於右側的分布僅涉及到
,因此左側的分布必須消除潛在變量
的影響,即要對
進行邊緣化。
一般情況下,我們無法積分
,這迫使我們尋找另一個近似。
由於
,因此我們只需要找到一個
的好的近似即可。因此,我們定義另一個分布族
來近似
,這是一個針對潛在變量的判別模型。
下表概述了所有情況:
:觀測量
|
|
:潛變量
|
可近似的
|
|
,簡單
|
|
,簡單
|
|
可近似的
|
|
,簡單
|
用貝葉斯的方式來說,
是觀測到的證據,
是潛在/未觀測到的隨機變量。分布
在
上是
的先驗分布,
是似然函數,而
是
的後驗分布。
給定一個觀測值
,我們可以通過計算
來推斷出可能導致
出現的
。通常的貝葉斯方法是估計積分:
然後通過貝葉斯定理計算:
這通常是非常耗時的,但如果我們可以找到一個在大多數
下的好近似
,那麼我們就可以快速地從
推斷出
。因此,尋找一個好的
也稱為攤銷推斷。
綜上所述,我們找到了一個變分貝葉斯推斷問題。
變分推斷中的一個基本結果是,最小化Kullback–Leibler 散度(KL散度)等價於最大化對數似然:
其中
是真實分布的熵。因此,如果我們可以最大化
我們就可以最小化
因此找到一個準確的近似
。要最大化
我們只需從真實分布中抽取許多樣本
,然後使用:
為了最大化
,必須要找到
:[註 1]
這通常沒有解析解,必須進行估計。估計積分的常用方法是使用重要性採樣進行蒙特卡洛積分:
其中,
是我們用於進行蒙特卡羅積分的在
上的抽樣分布。因此,我們可以看到,如果我們抽樣
,那麼
是
的一個無偏估計量。不幸的是,這並不能給我們一個對
的無偏估計量,因為
是非線性的。事實上,由於琴生(Jensen)不等式,我們有:
事實上,所有明顯的
的估計量都是向下偏的,因為無論我們取多少個
的樣本,我們都可以由琴生不等式得到:
減去右邊,我們可以看出問題歸結為零的有偏估計問題:
通過delta 方法,我們有
如果我們繼續推導,我們將得到加權自編碼器。[2]但是讓我們先回到最簡單的情況,即
:
不等式的緊度有一個解析解:
這樣我們就得到了ELBO函數:
對於固定的
,優化
的同時試圖最大化
和最小化
。如果
和
的參數化足夠靈活,我們會得到一些
,使得我們同時得到了以下近似:
由於
我們有
所以
也就是說: 最大化ELBO將同時使我們得到一個準確的生成模型
和一個準確的判別模型
。
ELBO具有許多可能的表達式,每個表達式都有不同的強調。
這個形式表明,如果我們抽樣
, 則
是 ELBO 的無偏估計量。
這種形式顯示 ELBO 是證據
的下界 ,並且關於
最大化 ELBO 等價於最小化從
到
KL 散度 .
這種形式顯示,最大化ELBO同時試圖將
保持接近
,並將
集中在最大化
的那些
上。也就是說,近似後驗
在保持先驗
的同時,朝著最大似然
移動。
這個形式顯示,最大化ELBO同時試圖保持
的熵高,並將
集中於最大化
的那些
。也就是說,近似後驗
在均勻分布和向最大後驗
之間保持平衡。
假設我們從
中取
個獨立樣本,並將它們收集在數據集
中,則我們具有經驗分布
。其中
表示衝激函數(Dirac函數)。
從
擬合
通常可以通過最大化對數似然
來完成:
現在,根據 ELBO 不等式,我們可以約束
, 因此
右側簡化為 KL 散度,因此我們得到:
這個結果可以解釋為數據處理不等式的一個特例。
在這個解釋下,最大化
等價於最小化
,其中上式是真實的需要估計的量
的上界,通過數據處理不等式獲得。也就是說,我們通過將潛在空間與觀測空間連接起來,為了更高效地最小化KL散度而付出了較弱的不等式代價。[3]
- ^ Kingma. Auto-Encoding Variational Bayes. arXiv:1312.6114
.
- ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan. Importance Weighted Autoencoders. 2015-09-01 [2023-03-22]. (原始內容存檔於2023-03-22).
- ^ Kingma, Diederik P.; Welling, Max. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019-11-27, 12 (4). Section 2.7 [2023-03-22]. ISSN 1935-8237. arXiv:1906.02691
. doi:10.1561/2200000056. (原始內容存檔於2023-03-22) (English).