隱含狄利克雷分佈

隱含狄利克雷分佈（英語：Latent Dirichlet allocation，簡稱LDA），是一種主題模型，它可以將文檔集中每篇文檔的主題按照概率分佈的形式給出。同時它是一種無監督學習算法，在訓練時不需要手工標註的訓練集，需要的僅僅是文檔集以及指定主題的數量k即可。此外LDA的另一個優點則是，對於每一個主題均可找出一些詞語來描述它。

LDA首先由 David M. Blei、吳恩達和米高·I·喬丹於2003年提出^[1]，目前在文本挖掘領域包括文本主題識別、文本分類以及文本相似度計算方面都有應用。

數學模型[編輯]

LDA是一種典型的詞袋模型，即它認為一篇文檔是由一組詞構成的一個集合，詞與詞之間沒有順序以及先後的關係。一篇文檔可以包含多個主題，文檔中每一個詞都由其中的一個主題生成。它以概率分佈的形式揭示每個文檔集的主題，以便在分析一些文檔以提取其主題分佈後，可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示^[2]。

另外，正如Beta分佈是二項式分佈的共軛先驗概率分佈，狄利克雷分佈作為多項式分佈的共軛先驗概率分佈。因此正如LDA貝斯網絡結構中所描述的，在LDA模型中一篇文檔生成的方式如下:

從狄利克雷分佈 $\alpha$ 中取樣生成文檔 $i$ 的主題分佈 $\theta _{i}$
從主題的多項式分佈 $\theta _{i}$ 中取樣生成文檔 $i$ 中第 $j$ 個主題 $z_{i,j}$
從狄利克雷分佈 $\beta$ 中取樣生成主題 $z_{i,j}$ 的詞語分佈 $\phi _{z_{i,j}}$
從詞語的多項式分佈 $\phi _{z_{i,j}}$ 中採樣最終生成詞語 $w_{i,j}$

因此整個模型中所有可見變量以及隱藏變量的聯合分佈是

p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )=\prod _{j=1}^{N}p(\theta _{i}|\alpha )p(z_{i,j}|\theta _{i})p(\Phi |\beta )p(w_{i,j}|\phi _{z_{i,j}})

最終一篇文檔的單詞分佈的最大似然估計可以通過將上式的 $\theta _{i}$ 以及 $\Phi$ 進行積分和對 $z_{i}$ 進行求和得到

p(w_{i}|\alpha ,\beta )=\int _{\theta _{i}}\int _{\Phi }\sum _{z_{i}}p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )

根據 $p(w_{i}|\alpha ,\beta )$ 的最大似然估計，最終可以通過吉布斯採樣等方法估計出模型中的參數。

使用吉布斯採樣估計LDA參數[編輯]

在LDA最初提出的時候，人們使用EM算法進行求解，後來人們普遍開始使用較為簡單的Gibbs Sampling，具體過程如下：

首先對所有文檔中的所有詞遍歷一遍，為其都隨機分配一個主題，即 $z_{m,n}=k\sim Mult(1/K)$ ，其中m表示第m篇文檔，n表示文檔中的第n個詞，k表示主題，K表示主題的總數，之後將對應的 $n_{m}^{k}+1$ ， $n_{m}+1$ ， $n_{k}^{t}+1$ ， $n_{k}+1$ ，他們分別表示在m文檔中k主題出現的次數，m文檔中主題數量的和，k主題對應的t詞的次數，k主題對應的總詞數。
之後對下述操作進行重複迭代。
對所有文檔中的所有詞進行遍歷，假如當前文檔m的詞t對應主題為k，則 $n_{m}^{k}-1$ ， $n_{m}-1$ ， $n_{k}^{t}-1$ ， $n_{k}-1$ ，即先拿出當前詞，之後根據LDA中topic sample的概率分佈sample出新的主題，在對應的 $n_{m}^{k}$ ， $n_{m}$ ， $n_{k}^{t}$ ， $n_{k}$ 上分別+1。

p(z_{i}=k|z_{-i},w)

∝

(n_{k,-i}^{(t)}+\beta _{t})(n_{m,-i}^{(k)}+\alpha _{k})/(\sum _{t=1}^{V}n_{k,-i}^{(t)}+\beta _{t})

迭代完成後輸出主題-詞參數矩陣φ和文檔-主題矩陣θ

\phi _{k,t}=(n_{k}^{(t)}+\beta _{t})/(n_{k}+\beta _{t})

\theta _{m,k}=(n_{m}^{(k)}+\alpha _{k})/(n_{m}+\alpha _{k})

參見[編輯]

萬能翻譯機（英語：universal translator）
電腦語言學
受限自然語言
信息抽取
資訊檢索
自然語言理解
潛在語義索引
潛在語義學
隨機文法（英語：Stochastic grammar）
機器記者
寫作自動評分（英語：Automated essay scoring）
生物醫學文件探勘系統（英語：Biomedical text mining）
複合詞處理（英語：Compound term processing）
計算語言學
電腦輔助審查（英語：Computer-assisted reviewing）
深度學習
深度語言處理（英語：Deep linguistic processing）
輔助外文閱讀（英語：Foreign language reading aid）
輔助外文寫作（英語：Foreign language writing aid）
語言科技（英語：Language technology）
隱含狄利克雷分佈（LDA）
母語識別（英語：Native-language identification）
自然語言編程（英語：Natural language programming）
自然語言使用者界面（英語：Natural language user interface）
擴展查詢
具體化 (語言學)（英語：Reification (linguistics)）
語義折疊（英語：Semantic folding）
語音處理
口語對話系統（英語：Spoken dialogue system）
校對
文字簡化（英語：Text simplification）
Thought vector（英語：Thought vector）
Truecasing（英語：Truecasing）
問答系統
Word2vec

參考文獻[編輯]

^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Lafferty, John , 編. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3 (4–5): pp. 993–1022 [2013-07-08]. doi:10.1162/jmlr.2003.3.4-5.993. （原始內容存檔於2012-05-01）.
^ Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; https://doi.org/10.3390/buildings13040927

[blei2003-1] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Lafferty, John , 編. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3 (4–5): pp. 993–1022 [2013-07-08]. doi:10.1162/jmlr.2003.3.4-5.993. （原始內容存檔於2012-05-01）.

[2] Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; https://doi.org/10.3390/buildings13040927

[1]

[2]