在变分贝叶斯方法中,证据下界(英语:evidence lower bound,ELBO;有时也称为变分下界[1]或负变分自由能)是一种用于估计一些观测数据的对数似然的下限。
设
和
是随机变量,其联合分布为
。例如,
是
的边缘分布,
是在给定
的条件下,
的条件分布。那么对于任何从
中抽取的样本
和任何分布
,我们有:
我们将上述不等式称为ELBO不等式。其中,左侧称为
的证据,右侧称为
的证据下界(ELBO)。
在变分贝叶斯方法的术语中,分布
称为证据。一些人使用“证据”一词来表示
,而其他作者将
称为对数证据,有些人会交替使用证据和对数证据这两个术语。
ELBO 没有普遍且固定的表示法。在本文中我们使用
假设我们有一个可观察的随机变量
,并且我们想找到其真实分布
。这将允许我们通过抽样生成数据,并估计未来事件的概率。一般来说,精确找到
是不可能的,因此我们不得不寻找一个近似。
也就是说,我们定义一个足够大的参数化分布族
,然后最小化某种损失函数
,
。解决这个问题的一种可能方法是考虑从
到
的微小变化,并解决
。这是变分法中的一个变分问题,因此被称为变分方法。
由于明确参数化的分布族并不多(所有经典的分布族,如正态分布、Gumbel分布等都太过简单,无法很好地模拟真实分布),我们考虑隐式参数化的概率分布:
- 首先,定义一个在潜在随机变量
上的简单分布
。通常情况下,正态分布或均匀分布已足够。
- 接下来,定义一个由
参数化的复杂函数族
(例如深度神经网络)。
- 最后,定义一种将任何
转换为可观测随机变量
的简单分布的方法。例如,让
具有两个输出,那么我们可以将相应的分布定义为在
上的正态分布
。
这定义了一个关于
的联合分布族
。从
中抽取样本
变得非常容易:只需从
中抽样
,然后计算
,最后使用
来抽样
。
换句话说,我们拥有了一个可观测量和潜在随机变量的生成模型。
现在,我们认为一个分布
是好的,如果它是
的一个接近近似:
由于右侧的分布仅涉及到
,因此左侧的分布必须消除潜在变量
的影响,即要对
进行边缘化。
一般情况下,我们无法积分
,这迫使我们寻找另一个近似。
由于
,因此我们只需要找到一个
的好的近似即可。因此,我们定义另一个分布族
来近似
,这是一个针对潜在变量的判别模型。
下表概述了所有情况:
:观测量
|
|
:潜变量
|
可近似的
|
|
,简单
|
|
,简单
|
|
可近似的
|
|
,简单
|
用贝叶斯的方式来说,
是观测到的证据,
是潜在/未观测到的随机变量。分布
在
上是
的先验分布,
是似然函数,而
是
的后验分布。
给定一个观测值
,我们可以通过计算
来推断出可能导致
出现的
。通常的贝叶斯方法是估计积分:
然后通过贝叶斯定理计算:
这通常是非常耗时的,但如果我们可以找到一个在大多数
下的好近似
,那么我们就可以快速地从
推断出
。因此,寻找一个好的
也称为摊销推断。
综上所述,我们找到了一个变分贝叶斯推断问题。
变分推断中的一个基本结果是,最小化Kullback–Leibler 散度(KL散度)等价于最大化对数似然:
其中
是真实分布的熵。因此,如果我们可以最大化
我们就可以最小化
因此找到一个准确的近似
。要最大化
我们只需从真实分布中抽取许多样本
,然后使用:
为了最大化
,必须要找到
:[注 1]
这通常没有解析解,必须进行估计。估计积分的常用方法是使用重要性采样进行蒙特卡洛积分:
其中,
是我们用于进行蒙特卡罗积分的在
上的抽样分布。因此,我们可以看到,如果我们抽样
,那么
是
的一个无偏估计量。不幸的是,这并不能给我们一个对
的无偏估计量,因为
是非线性的。事实上,由于琴生(Jensen)不等式,我们有:
事实上,所有明显的
的估计量都是向下偏的,因为无论我们取多少个
的样本,我们都可以由琴生不等式得到:
减去右边,我们可以看出问题归结为零的有偏估计问题:
通过delta 方法,我们有
如果我们继续推导,我们将得到加权自编码器。[2]但是让我们先回到最简单的情况,即
:
不等式的紧度有一个解析解:
这样我们就得到了ELBO函数:
对于固定的
,优化
的同时试图最大化
和最小化
。如果
和
的参数化足够灵活,我们会得到一些
,使得我们同时得到了以下近似:
由于
我们有
所以
也就是说: 最大化ELBO将同时使我们得到一个准确的生成模型
和一个准确的判别模型
。
ELBO具有许多可能的表达式,每个表达式都有不同的强调。
这个形式表明,如果我们抽样
, 则
是 ELBO 的无偏估计量。
这种形式显示 ELBO 是证据
的下界 ,并且关于
最大化 ELBO 等价于最小化从
到
KL 散度 .
这种形式显示,最大化ELBO同时试图将
保持接近
,并将
集中在最大化
的那些
上。也就是说,近似后验
在保持先验
的同时,朝着最大似然
移动。
这个形式显示,最大化ELBO同时试图保持
的熵高,并将
集中于最大化
的那些
。也就是说,近似后验
在均匀分布和向最大后验
之间保持平衡。
假设我们从
中取
个独立样本,并将它们收集在数据集
中,则我们具有经验分布
。其中
表示冲激函数(Dirac函数)。
从
拟合
通常可以通过最大化对数似然
来完成:
现在,根据 ELBO 不等式,我们可以约束
, 因此
右侧简化为 KL 散度,因此我们得到:
这个结果可以解释为数据处理不等式的一个特例。
在这个解释下,最大化
等价于最小化
,其中上式是真实的需要估计的量
的上界,通过数据处理不等式获得。也就是说,我们通过将潜在空间与观测空间连接起来,为了更高效地最小化KL散度而付出了较弱的不等式代价。[3]
- ^ Kingma. Auto-Encoding Variational Bayes. arXiv:1312.6114
.
- ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan. Importance Weighted Autoencoders. 2015-09-01 [2023-03-22]. (原始内容存档于2023-03-22).
- ^ Kingma, Diederik P.; Welling, Max. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019-11-27, 12 (4). Section 2.7 [2023-03-22]. ISSN 1935-8237. arXiv:1906.02691
. doi:10.1561/2200000056. (原始内容存档于2023-03-22) (English).