梅爾頻率倒譜係數

在聲音處理領域中，梅爾頻率倒譜(Mel-Frequency Cepstrum)是基於聲音頻率的非線性梅爾刻度(mel scale)的對數能量頻譜的線性變換。

梅爾頻率倒譜系數 (Mel-Frequency Cepstral Coefficients，MFCCs)就是組成梅爾頻率倒譜的係數。它衍生自音訊片段的倒頻譜(cepstrum)。倒譜和梅爾頻率倒譜的區別在於，梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的，它比用於正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統。這樣的非線性表示，可以在多個領域中使聲音訊號有更好的表示。例如在音訊壓縮中。

梅爾頻率倒譜係數（MFCC）廣泛被應用於語音識別的功能。他們由Davis和Mermelstein在1980年代提出，並在其後持續是最先進的技術之一。在MFCC之前，線性預測係數（LPCS）和線性預測倒譜系數（LPCCs）是自動語音識別的的主流方法。

MFCC通常有以下之過程:^[1]^[2]

將一段語音訊號分解為多個訊框。
將語音訊號預強化，通過一個高通濾波器。
進行傅立葉轉換，將訊號轉換至頻域。
將每個訊框獲得的頻譜通過梅爾濾波器(三角重疊窗口)，得到梅爾刻度。
在每個梅爾刻度上提取對數能量。
對上面獲得的結果進行離散餘弦轉換，轉換到倒頻譜域。
MFCC就是這個倒頻譜圖的幅度(amplitudes)。一般使用12個係數，與訊框能量疊加得13維的係數。

MFCC的原理

聲音訊號是連續變化的，為了將連續變化訊號簡化，我們假設在一個短時間尺度內，音頻訊號不發生改變。因此將訊號以多個取樣點集合成一個單位，稱為'''訊框'''。一個訊框多為20-40毫秒，如果訊框長度更短，那每個訊框內的取樣點將不足以做出可靠的頻譜計算，但若長度太長，則每個訊框訊號會變化太大。

預強化的目的就是為了消除發聲過程中，聲帶和嘴唇造成的效應，來補償語音訊號受到發音系統所壓抑的高頻部分。並且能突顯高頻的共振峰。

由於訊號在時域上的變化通常很難看出訊號的特性，所以通常透過傅立葉轉換將它轉換成頻域上的能量分佈來觀察，不同的能量分佈，就能代表不同語音的特性。

由於能量頻譜中還存在大量的無用訊息，尤其人耳無法分辨高頻的頻率變化，因此讓頻譜通過梅爾濾波器。 梅爾濾波器，也就是一組20個非線性分布的三角帶通濾波器（Triangular Bandpass Filters），能求得每一個濾波器輸出的對數能量。必須注意的是：這 20 個三角帶通濾波器在'''梅爾刻度'''的頻率上是平均分佈的。梅爾頻率代表一般人耳對於頻率的感受度，由此也可以看出人耳對於頻率 f 的感受是呈對數變化的。

http://i.stack.imgur.com/YUH48.gif （頁面存檔備份，存於網際網路檔案館）

最後的步驟是計算對數濾波器的能量的離散傅立葉反變換，在此相當於離散餘弦反變換(IDCT)。值得注意的是，雖然通常的會有24-26個係數，但我們只保留前12個係數。這是因為丟棄高倒頻域值的DCT係數，代表一個類似低通濾波器的概念，可以使訊號平滑化，能增進語音處理的性能。

^[3] ^[4] ^[5]

在此過程中可以有很多變化，例如，映射時的窗口的形狀和間距。^[6] The 歐洲電信標準協會在2000年初定義了一個可以用在行動電話上的標準MFCC算法.^[7]

參考

^ Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (編). Advances in Multimedia Information Processing - PCM 2004: 5th Pacific Rim Conference on Multimedia (PDF). Springer. 2004 [2013-04-26]. ISBN 3-540-23985-5. （原始內容 (PDF)存檔於2007-05-10）.
^ Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2013-04-26]. doi:10.1016/j.specom.2011.11.004. （原始內容存檔於2015-09-24）.
^ 存档副本. [2014-06-27]. （原始內容存檔於2015-09-21）.
^ 存档副本. [2014-06-27]. （原始內容存檔於2014-06-27）.
^ http://djj.ee.ntu.edu.tw/ADSP_tutorial_D98921028.pdf^{[永久失效連結]}
^ Fang Zheng, Guoliang Zhang and Zhanjiang Song (2001), "Comparison of Different Implementations of MFCC （頁面存檔備份，存於網際網路檔案館）," J. Computer Science & Technology, 16(6): 582–589.
^ European Telecommunications Standards Institute (2003), Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms （頁面存檔備份，存於網際網路檔案館）. Technical standard ES 201 108, v1.1.3.

詳細推導

1.對該訊號做傅立葉變換
X[k]=FT{x[n]}
2.根據下面公式算出Y[m]
$Y[m]=\log \left(\sum _{k=f_{m-1}}^{f_{m+1}}\left|X[k]\right|^{2}B_{m}[k]\right)$

其中 $B_{m}[k]$ 是梅爾頻率倒頻譜的遮罩

$B_{m}[k]={\begin{cases}0&{\mbox{for }}k<f_{m-1}{\mbox{ and }}k>f_{m+1}\\{\cfrac {k-f_{m-1}}{f_{m}-f_{m-1}}}&{\mbox{for }}f_{m-1}\leq k\leq f_{m}\\{\cfrac {f_{m+1}-k}{f_{m+1}-f_{m}}}&{\mbox{for }}f_{m}\leq k\leq f_{m+1}\end{cases}}$

3.對Y[m]做IDCT得 $c_{x}[n]$
因為Y[m]是偶函數,故用IDCT(反離散餘弦變換)取代IDFT(反離散傅立葉變換)
$c_{x}[n]={\frac {1}{M}}\sum _{m=1}^{M}Y[m]cos\left({\cfrac {\pi n(m-1/2)}{M}}\right)$

與原倒頻譜的差異
一.log裡面因為使用了sum,故等於0的機率變小
二.避免了相位的問題
三.使用IDCT取代IDFT,減少了運算量
四. $B_{m}[k]$ 隨著頻率的增加而增寬,該特性符合人類聽覺,更適合用來描述語音特徵

應用

MFCC主要作為語音識別系統中的特徵，這樣的系統可以自動識別語音中的數位內容。MFCC同樣也用於說話人識別（英語：Speaker Recognition），該技術嘗試通過語音該鑑別說話人。^[1]

MFCC也被用於語音資訊檢索（英語：music information retrieval）領域，如流派分類(genre classification)、音頻相似性計算等。^[2]

比起倒頻譜,梅爾倒頻譜更接近人耳對於語音的區別性(因為遮罩 $B[k]$ )
用 $c_{x}[1],c_{x}[2],...,c_{x}[13]$ ,MFCCs的前13項足以描述語音特徵

噪聲的敏感性

MFCC特徵在加性噪聲的情況下並不穩定，因此在語音識別系統中通常要對其進行歸一化處理(normalise)以降低噪聲的影響。一些研究人員對MFCC算法進行修改以提升其強健性，如在進行DCT之前將log-mel-amplitudes提升到一個合適的能量(2到3之間)，以此來降低低能量成分的影響.^[3]

參考文獻

^ T. Ganchev, N. Fakotakis, and G. Kokkinakis (2005), "Comparative evaluation of various MFCC implementations on the speaker verification task 網際網路檔案館的存檔，存檔日期2011-07-17.," in 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.
^ Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.
^ V. Tyagi and C. Wellekens (2005),
On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition
, in Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP 』05). IEEE International Conference on, vol. 1, pp. 529–532.

外部連結

A tutorial on MFCCs for Automatic Speech Recognition （頁面存檔備份，存於網際網路檔案館）

[1] Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (編). Advances in Multimedia Information Processing - PCM 2004: 5th Pacific Rim Conference on Multimedia (PDF). Springer. 2004 [2013-04-26]. ISBN 3-540-23985-5. （原始內容 (PDF)存檔於2007-05-10）.

[2] Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2013-04-26]. doi:10.1016/j.specom.2011.11.004. （原始內容存檔於2015-09-24）.

[3] 存档副本. [2014-06-27]. （原始內容存檔於2015-09-21）.

[4] 存档副本. [2014-06-27]. （原始內容存檔於2014-06-27）.

[5] ttp://djj.ee.ntu.edu.tw/ADSP_tutorial_D98921028.pdf^{[永久失效連結]}

[6] Fang Zheng, Guoliang Zhang and Zhanjiang Song (2001), "Comparison of Different Implementations of MFCC （頁面存檔備份，存於網際網路檔案館）," J. Computer Science & Technology, 16(6): 582–589.

[etsi01-7] European Telecommunications Standards Institute (2003), Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms （頁面存檔備份，存於網際網路檔案館）. Technical standard ES 201 108, v1.1.3.

[8] T. Ganchev, N. Fakotakis, and G. Kokkinakis (2005), "Comparative evaluation of various MFCC implementations on the speaker verification task 網際網路檔案館的存檔，存檔日期2011-07-17.," in 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.

[9] Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.

[10] V. Tyagi and C. Wellekens (2005),
On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition
, in Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP 』05). IEEE International Conference on, vol. 1, pp. 529–532.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[1]

[2]

[3]