隨機變數的收斂

機率論中有若干關於隨機變數收斂（Convergence of random variables）的定義。研究一列隨機變數是否會收斂到某個極限隨機變數是機率論中的重要內容，在統計機率和隨機過程中都有應用。在更廣泛的數學領域中，隨機變數的收斂被稱為隨機收斂，表示一系列本質上隨機不可預測的事件所發生的模式可以在樣本數量足夠大的時候得到合理可靠的預測。各種不同的收斂定義實際上是表示預測時不同的刻畫方式。

簡介

正如一個數列可能收斂到某個極限量，一列函數可能收斂到某個極限函數一樣，隨機收斂指的是一系列隨機變數 $\left(X_{n};\;n\in \mathbb {N} \right)$ 在n趨向於無窮大時，會越來越接近某個固定的極限。這個極限可能是指：

$X_{n}$ 趨向某個固定的數；
$X_{n}$ 趨向某個確定函數的輸出值；
$X_{n}$ 的機率分布越來越接近某個特定的隨機變數的機率分布；
$X_{n}$ 和某個特定隨機變數的差別的平均值（數學期望值值）趨向於0；
$X_{n}$ 和某個特定隨機變數的差別的變異數趨向於0。

等等。這些不同的極限的定義，可以嚴格地寫成不同的收斂方式的定義。

幾乎必然收斂

幾乎必然收斂，或稱為以機率1收斂、殆必收斂，相當於實分析中函數幾乎處處收斂的定義。事實上，隨機變數的本質是樣本空間上的函數，因此這兩種收斂實質上是一樣的。

定義

稱機率空間 $(\Omega ,{\mathcal {F}},\mathbb {P} )$ 中的一列隨機變數 $X_{n}$ 幾乎必然收斂，如果 $X_{n}$ 收斂這一事件幾乎必然發生，即

\mathbb {P} \left(\lim _{n\to \infty }X_{n}{\text{存在}}\right)=1.

也就是說，序列 $X_{n}$ 幾乎必然收斂至 $X$ ，如果 $\mathbb {P} \left(\{\omega \in \Omega :\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\}\right)=1.$ 記作 $X_{n}{\xrightarrow {a.s.}}X$ 或 $X_{n}\to X$ a.s. (縮寫 a.s. 表示英文 almost surely)。

如果隨機變數的取值空間是度量空間 $(S,d)$ （例如實數空間, 度量即為兩個實數的距離 $d(x,y)=|x-y|$ ），幾乎必然收斂即

\mathbb {P} {\Big (}\lim _{n\to \infty }d{\big (}X_{n},X{\big )}=0{\Big )}=1

藉助集合上極限和下極限的記號，幾乎必然收斂亦可定義為

\mathbb {P} {\Big (}\liminf {\big \{}\omega \in \Omega :|X_{n}(\omega )-X(\omega )|<\varepsilon {\big \}}{\Big )}=1

對任意的正實數 $\varepsilon >0$ 成立。

幾乎必然收斂並不能由拓撲誘導而來^[1]，也因此不能定義相應的度量結構。

依機率收斂

設 $(X_{n};\,n\in \mathbb {N} )$ 是一個隨機變數序列， $X$ 是一個隨機變數。如果對於任意的正實數 $\epsilon >0$ ，都有：

\lim _{n\to \infty }\mathbb {P} (|X-X_{n}|\geq \epsilon )=0

那麼稱序列 $(X_{n};\,n\in \mathbb {N} )$ 依機率收斂到 $X$ ，記作： $X_{n}{\xrightarrow[{n\to \infty }]{\mathbb {P} }}X$

如果 $(X_{n};\,n\in \mathbb {N} )$ 的取值空間是一個可分度量空間(S, d)，那麼依機率收斂的定義為^[2]：

\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.

依機率收斂和依機率1收斂的定義有相似之處，但本質上，依機率1收斂是比依機率收斂更「強」的收斂性質。如果一列隨機變數依機率1收斂到某個極限，那麼它必然也依機率收斂到這個極限，但反之則不然。一個實數上的例子是：設機率空間 $\left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)$ 是區間 ${\mathit {\Omega }}=[0,1)$ 上的一個連續型均勻分布 $\mathbb {P} =\mathbf {U}$ 。一個隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ 定義為：

X_{1}=\mathbf {1} _{\left\{\omega \in [0,1)\right\}}=\mathbf {1}

X_{2}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{2}})\right\}},\qquad X_{3}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},1)\right\}}

X_{4}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{4}})\right\}},\qquad X_{5}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{4}},{\frac {1}{2}})\right\}},\qquad X_{6}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},{\frac {3}{4}})\right\}},\qquad X_{7}=\mathbf {1} _{\left\{\omega \in [{\frac {3}{4}},1)\right\}}

\cdots \;

\forall (k,m)\in \mathbb {N} ,\,\,0\leqslant k\leqslant 2^{m}-1,\,\,X_{2^{m}+k}=\mathbf {1} _{\left\{\omega \in [{\frac {k}{2^{m}}},{\frac {k+1}{2^{m}}})\right\}}

由於

\forall 2^{m}\leqslant n\leqslant 2^{m+1}-1,\,\,\mathbb {P} \left(|X_{n}-0|\geqslant \varepsilon \right)={\frac {1}{2^{m}}}

所以

X_{n}{\xrightarrow {\mathbb {P} }}0

，

另一方面，考慮 $X_{2^{m}}$ 到 $X_{2^{m+1}-1}$ 這一組隨機變數，它們取值為1的集合的聯集恰好是總區間，因此對每一個 $\omega \in [0,1)$ ，總會有 $X_{2^{m}}$ 到 $X_{2^{m+1}-1}$ 之間的某個變量 $X_{2^{m}+k_{m}}$ ，使得

X_{2^{m}+k_{m}}(\omega )=1

所以，對任意一個 $\omega \in [0,1)$ ，

\lim _{n\to \infty }|X_{n}(\omega )-0|\neq 0

，

即是說， $(X_{n};\,n\in \mathbb {N} )$ 並不依機率1收斂到0。從例子中可以看到，依機率收斂比依機率1收斂更為寬鬆的地方是：當n趨於無窮大的時候，只要偏離極限函數的 $\omega$ （即是集合 $\left\{\omega _{n};\,|X_{n}(\omega _{n})-X(\omega _{n})|\geqslant \varepsilon \right\}$ 中的 $\omega _{n}$ ）「足夠少」，就能使得依機率收斂成立了，這些 $\omega _{n}$ 的集合可以隨著n不同而不同；而依機率1收斂則要求 $\omega _{n}$ 的集合固定地縮減至一個機率為0的集合。因此，依機率1收斂要比依機率收斂更為嚴格。

性質

依機率收斂蘊含依分布收斂：一個依機率收斂的隨機變數序列必然也依分布收斂到同一個極限。
在離散機率空間中，依機率收斂和依機率1收斂是等價的。
依分布收斂蘊含依機率收斂若且唯若依分布收斂的極限是一個常數。
連續映射定理說明：對任意連續函數 $g$ ，如果隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ 依機率收斂到 $X$ ，那麼序列 $(g(X_{n});\,n\in \mathbb {N} )$ 依機率收斂到 $g(X)$
依機率收斂定義了確定機率空間上的隨機變數空間上的一個拓撲。這個拓撲可以用樊𰋀度量進行度量化^[3]。
$d(X,Y)=\inf \!{\big \{}\varepsilon >0:\ \Pr {\big (}|X-Y|>\varepsilon {\big )}\leq \varepsilon {\big \}}.$

平方平均收斂與 $\mathbf {L} ^{p}$ 收斂

另一種收斂的定義與測度的積分有關。在積分理論中，如果兩個函數 $f$ 和 $g$ 滿足 $\int _{\mathcal {I}}(f-g)^{2}d\mu =0$ ，那麼這兩個函數在關於測度 $\mu$ 的平方可積空間中相等。隨機變數的平方平均收斂與此相似：如果對平方可積的隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ ，存在隨機變數 $X$ ，使得 $\lim _{n\to \infty }\mathbb {E} \left[(X_{n}-X)^{2}\right]=0$ ，那麼就說序列 $(X_{n};\,n\in \mathbb {N} )$ 平方平均收斂到 $X$ ，記作：

X_{n}{\xrightarrow {\mathbf {L} ^{2}}}X

由於 $\mathbf {L} ^{2}$ 空間是完備的，極限 $X$ 也一定平方可積。

對於更一般的 $\mathbf {L} ^{p}$ 空間，也有類似的定義：如果對 $\mathbf {L} ^{p}$ 空間中的隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ ，存在 $\mathbf {L} ^{p}$ 中的隨機變數 $X$ ，使得 $\lim _{n\to \infty }\mathbb {E} \left[|X_{n}-X|^{p}\right]=0$ ，那麼就說序列 $(X_{n};\,n\in \mathbb {N} )$ 依 $\mathbf {L} ^{p}$ 收斂到 $X$ ，記作：

X_{n}{\xrightarrow {\mathbf {L} ^{p}}}X

當常數 $p=1$ 時，也稱為平均收斂。

依分布收斂

依分布收斂是最寬鬆的收斂方式之一。這種收斂不要求查看每個 $\omega$ ，只要求序列的分布趨向於某個極限。直覺上，一個隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到某個隨機變數 $X$ ，如果：

對所有的

a

，都有

\mathbb {P} (X_{n}\leqslant a)\rightarrow \mathbb {P} (X\leqslant a)

。

更嚴格的定義是探討隨機變數 $X_{n}$ 的累積分布函數 $F_{n}(x)=\mathbb {P} (X_{n}\leqslant x)$ 。設有實值的隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ 和某個隨機變數 $X$ （其累積分布函數為 $F(x)$ ），如果對 $F(x)$ 的每個連續點 $x$ ，都有 $\lim _{n\to \infty }F_{n}(x)=F(x)$ ，那麼就說 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到某個隨機變數 $X$ 。記作：

X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {D}}}X

，

X_{n}{\xrightarrow[{n\to \infty }]{\mathit {d}}}X

或

X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {L}}}X

由於依分布收斂只和隨機變數的分布相關，所以也可以稱一系列隨機變數（依分布）收斂於某個分布。設 ${\mathcal {L}}_{X}$ 是極限 $X$ 的分布，那麼依分布收斂也可以記作：

X_{n}\ {\xrightarrow {d}}\ {\mathcal {L}}_{X},\,\,X_{n}\rightsquigarrow X

或

{\mathcal {L}}(X_{n})\to {\mathcal {L}}(X)

例如一個隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到標準常態分布，就可以記作：

X_{n}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,1).

性質

作為最弱的收斂方式之一，依分布收斂無法推出其它的收斂方式。對於存在機率密度函數的連續型隨機變數序列，依分布收斂並不能推出其機率密度函數也同樣收斂。例如對於機率密度函數為 $f_{n}(x)=\left(1-\cos(2\pi nx)\right)\mathbf {1} _{x\in (0,1)}$ 的隨機變數序列，其依分布收斂到均勻分布的隨機變數，但其機率密度函數不收斂^[4]。
依分布收斂的等價定義：一個隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到某個隨機變數 $X$ $X$ 和以下命題中的任意一個等價：
- 對所有的有界連續函數 $f$ ，都有： $\mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]$ ；
- 對所有具有利普希茨連續性質的函數 $f$ ，都有： $\mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]$ ；
- 對所有上有界的上半連續函數 $f$ ，都有： $\limsup \mathbb {E} [f(X_{n})]\leqslant \mathbb {E} [f(X)]$ ；
- 對所有下有界的下半連續函數 $f$ ，都有： $\liminf \mathbb {E} [f(X_{n})]\geqslant \mathbb {E} [f(X)]$ ；
- 對所有閉集 $C$ ，都有： $\limsup _{n\to \infty }\mathbb {P} \left(X_{n}\in C\right)\leqslant \mathbb {P} \left(X\in C\right)$ ；
- 對所有開集 $U$ ，都有： $\liminf _{n\to \infty }\mathbb {P} \left(X_{n}\in U\right)\geqslant \mathbb {P} \left(X\in U\right)$ ；
- 對關於 $X$ 的所有連續集 $A$ ，都有： $\lim _{n\to \infty }\mathbb {P} \left(X_{n}\in A\right)=\mathbb {P} \left(X\in A\right)$ 。
連續映射定理說明，對於連續函數g(·)，如果隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到隨機變數 $X$ ，那麼 $(g(X_{n});\,n\in \mathbb {N} )$ 也依分布收斂到隨機變數 $g(X)$ 。
列維連續性定理：隨機變數序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收斂到某個隨機變數 $X$ 若且唯若對應的特徵函數序列 $(\varphi _{n}(x);\,n\in \mathbb {N} )$ 逐點收斂到某個在0處連續的函數 $\varphi$ （此時隨機變數 $X$ 的分布為 $\varphi$ ）。
列維-普羅科洛夫度量是依分布收斂的度量化結果。

關係

各個收斂的定義有強弱之分。一個收斂性強於另一個是指從前者可以推出後者。例如依機率收斂強於依分布收斂，即是說如果一列隨機變數依機率收斂到某個極限，那麼必定也依分布收斂到這個極限。具體來說，收斂性的強弱關係可以用下圖來表示：

{\begin{matrix}{\xrightarrow {L^{r}}}&{\underset {r>s\geq 1}{\Rightarrow }}&{\xrightarrow {L^{s}}}&&\\&&\Downarrow &&\\{\xrightarrow {a.s.}}&\Rightarrow &{\xrightarrow {\ p\ }}&\Rightarrow &{\xrightarrow {\ d\ }}\end{matrix}}

依機率1收斂可以推出依機率收斂^[5]：
$X_{n}\ {\xrightarrow {a.s.}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X$
依機率收斂可以推出存在依機率1收斂的子列 $(k_{n})$ ^[6]：
$X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{k_{n}}\ {\xrightarrow {a.s.}}\ X$
依機率收斂可以推出依分布收斂^[5]：
$X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {d}}\ X$
對任意的 $r>0$ ， $\mathbf {L} ^{r}$ -收斂可以推出依機率收斂：
$X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X$
如果 $r>s\geqslant 1$ ，那麼 $\mathbf {L} ^{r}$ -收斂可以推出 $\mathbf {L} ^{s}$ -收斂：
$X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {L^{s}}}\ X,$
如果序列 $\left(X_{n};\,n\in \mathbb {N} \right)$ 依分布收斂到常數c，那麼它也依機率收斂到常數c^[5]：
$X_{n}\ {\xrightarrow {d}}\ c\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ c,$
如果序列 $\left(X_{n};\,n\in \mathbb {N} \right)$ 依分布收斂到隨機變數 $X$ ，並且 $X_{n}$ 和 $Y_{n}$ 的差依機率收斂到0，那麼 $Y_{n}$ 也依分布收斂到隨機變數 $X$ ^[5]：
$X_{n}\ {\xrightarrow {d}}\ X,\ \ |X_{n}-Y_{n}|\ {\xrightarrow {p}}\ 0\ \quad \Rightarrow \quad Y_{n}\ {\xrightarrow {d}}\ X$
如果序列 ( X n ; n ∈ N ) {\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)} 依分布收斂到隨機變數 X {\displaystyle X} ，並且序列 ( Y n ; n ∈ N ) {\displaystyle \left(Y_{n};\,n\in \mathbb {N} \right)} 依分布收斂到常數c，那麼向量列 ( ( X n , Y n ) ; n ∈ N ) {\displaystyle \left((X_{n},Y_{n});\,n\in \mathbb {N} \right)} 依分布收斂到隨機變數 ( X , c ) {\displaystyle (X,c)} [5]：
X n → d X , Y n → d c ⇒ ( X n , Y n ) → d ( X , c ) {\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ Y_{n}\ {\xrightarrow {d}}\ c\ \quad \Rightarrow \quad (X_{n},Y_{n})\ {\xrightarrow {d}}\ (X,c)}

參見

勒貝格控制收斂定理

單調收斂定理

參考資料

^ Ordman, E. T. Convergence Almost Everywhere is Not Topological. The American Mathematical Monthly. doi:10.2307/2313559.

^ Dudley 2002，Chapter 9.2, page 287

^ Dudley 2002，第289頁

^ Romano & Siegel 1985，Example 5.26

^ 5.0 5.1 5.2 5.3 5.4 van der Vaart 1998，Theorem 2.7

^ Gut, Allan. Probability: A graduate course. Theorem 3.4: Springer. 2005. ISBN 0387228330.

參考書籍

Bickel, Peter J.; Klaassen, Chris A.J.; Ritov, Ya』acov; Wellner, Jon A. Efficient and adaptive estimation for semiparametric models. New York: Springer-Verlag. 1998. ISBN 0387984739. 引文使用過時參數coauthors (幫助)

Billingsley, Patrick. Probability and Measure. Wiley Series in Probability and Mathematical Statistics 2nd. Wiley. 1986.

Billingsley, Patrick. Convergence of probability measures 2nd. John Wiley & Sons. 1999: 1–28. ISBN 0471197459.

Dudley, R.M. Real analysis and probability. Cambridge, UK: Cambridge University Press. 2002. ISBN 052180972X.

Grimmett, G.R.; Stirzaker, D.R. Probability and random processes 2nd. Clarendon Press, Oxford. 1992: 271–285. ISBN 0-19-853665-8. 引文使用過時參數coauthors (幫助)

Jacobsen, M. Videregående Sandsynlighedsregning (Advanced Probability Theory) 3rd. HCØ-tryk, Copenhagen. 1992: 18–20. ISBN 87-91180-71-6.

Ledoux, Michel; Talagrand, Michel. Probability in Banach spaces. Berlin: Springer-Verlag. 1991: xii+480. ISBN 3-540-52013-9. MR 1102015.

Romano, Joseph P.; Siegel, Andrew F. Counterexamples in probability and statistics. Great Britain: Chapman & Hall. 1985. ISBN 0412989018. 引文使用過時參數coauthor (幫助)

van der Vaart, Aad W.; Wellner, Jon A. Weak convergence and empirical processes. New York: Springer-Verlag. 1996. ISBN 0387946403. 引文使用過時參數coauthor (幫助)

van der Vaart, Aad W. Asymptotic statistics. New York: Cambridge University Press. 1998. ISBN 9780521496032.

Williams, D. Probability with Martingales. Cambridge University Press. 1991. ISBN 0521406056.

Wong, E.; Hájek, B. Stochastic Processes in Engineering Systems. New York: Springer–Verlag. 1985. 引文使用過時參數coauthors (幫助)

[1] Ordman, E. T. Convergence Almost Everywhere is Not Topological. The American Mathematical Monthly. doi:10.2307/2313559.

[2] Dudley 2002，Chapter 9.2, page 287

[3] Dudley 2002，第289頁

[4] Romano & Siegel 1985，Example 5.26

[vdv2-5] 5.0 ^5.1 ^5.2 ^5.3 ^5.4 van der Vaart 1998，Theorem 2.7

[6] Gut, Allan. Probability: A graduate course. Theorem 3.4: Springer. 2005. ISBN 0387228330.

[1]

[2]

[3]

[4]

[5]

[6]

簡介

幾乎必然收斂

定義

依機率收斂

性質

平方平均收斂與 L p {\displaystyle \mathbf {L} ^{p}} 收斂

依分布收斂

性質

關係

參見

參考資料

參考書籍

平方平均收斂與 $\mathbf {L} ^{p}$ 收斂