Mamba (深度學習架構)

Mamba是一種用於序列建模任務的深度學習架構。它是由卡內基梅隆大學和普林斯頓大學的研究人員開發的，用於解決Transformer架構的一些局限性，尤其是在處理長序列方面。它基於結構化狀態空間序列（S4）模型。 ^[1] ^[2] ^[3]

架構

為了能夠處理長資料序列，Mamba 採用了結構化狀態空間序列模型 (S4)。 ^[1] S4 可以通過結合連續時間、迴圈和卷積模型有效且高效地對長序列進行建模。這使得它能夠處理不規則採樣的資料和長上下文，並在訓練和推理期間保持計算效率。 ^[4]

Mamba對S4模型在時序運算處理方面實現了突破性改進，其創新性的動態參數選擇機制能夠根據輸入特徵自適應調整結構化狀態空間模型（SSM）的參數組態。 ^[5] ^[1]這種機制使模型具備序列資訊的選擇性注意力能力，通過動態篩選關鍵特徵實現對冗餘資料的智慧型過濾。相較於傳統時不變系統框架，Mamba採用的時變架構不僅提升了計算效率，更最佳化了複雜序列建模的能量消耗比，實現了模型效能的階躍式提升。 ^[1] ^[6]

Mamba 採用一種硬體感知演算法。該實現利用GPU 去進行核心融合、並列掃描和重新計算來避免在主記憶體密集型層中實現擴充狀態^[1]，從而提高效能和主記憶體使用率。與Transformer相比，該方法在處理長序列時效率明顯更高。 ^[1] ^[6]

此外，Mamba 通過將 SSM 設計與MLP塊相整合來簡化其架構，從而形成相同品質但精簡的結構，進一步增強了該模型進行跨文字、音訊和基因組等資料類型進行通用序列建模的能力，同時保持了訓練和推理的高效率。 ^[1]

關鍵組件

選擇性狀態空間 (SSM)： SSM 是Mamba 的核心,它是根據當前輸入選擇性處理資訊的迴圈模型。這使得能夠專注於相關資訊，丟棄不相關的資料。 ^[1]
簡化架構： Mamba 用統一的 SSM 塊取代了 Transformers 的複雜注意力和 MLP 塊。目的是降低計算複雜度並提高推理速度。 ^[1]
硬體感知並列： Mamba 採用迴圈模式，並採用專為提高硬體效率而設計的並列演算法，從而進一步提升其效能。 ^[1]

與 Transformer 的比較
特徵	Transfromer	Mamba
架構	基於注意力	基於SSM
複雜	高	低
推理時間複雜度	`O(n)`	`O(1)`
訓練時間複雜度	`O(n ² )`	`O(n)`

變種模型

無token的語言模型：MambaByte

由於要對每個位元組大小的token進行操作，Transformer 的擴充性較差，因為每個token都必須「關注」其他每個token，從而導致O(n ² )的計算複雜度，因此，Transformer 選擇使用子詞分詞器來減少文字中的token數量，然而，這會導致詞彙表和詞嵌入非常大。

這項研究探討了一種新穎的語言建模方法，MambaByte，它不同於標準的基於token的方法。與依賴於將文字分解為離散單元的傳統模型不同，MambaByte 直接處理原始位元組序列。這消除了token化的需要，可能帶來以下幾個優點： ^[7]

語言獨立性：tokenization通常依賴於特定於語言的規則和詞彙，從而限制了其在不同語言中的適用性。 MambaByte 的位元組級表示使其能夠處理不同的語言，而無需特定於語言的適應。
消除子詞分詞器帶來的偏見：常見子詞被過度代表，而罕見詞或新詞被低估或被分成意義較小的單元。這會影響模型的理解和生成能力，特別是對於形態豐富的語言或在訓練資料中沒有很好表現的token。
預處理的簡化：通過消除對複雜token和詞彙管理的需求，簡化了預處理流程，減少了預處理步驟和潛在錯誤。

子詞分詞器在 LLM 中引入了許多奇怪的問題，例如 LLM 無法拼寫單詞、反轉某些單詞、處理罕見token，而這些在位元組級token化中是不存在的。 ^[8]

MOE與Mamba模型的結合 (Mamba Mixture of Experts，MOE)

MoE Mamba 代表了混合專家 (MoE) 技術與 Mamba 架構的開創性結合，增強了狀態空間模型 (SSM) 在語言建模中的效率和可延伸性。該模型充分利用了 MoE 和 SSM 的優勢，顯著提高了訓練效率——所需的訓練時間比其前身 Mamba 減少了 2.2 倍，同時保持了與其相匹配的效能。 MoE Mamba 通過將選擇性狀態空間建模與基於混合專家技術的處理相結合，展示了更高的效率和效能，為未來擴充 SSM 來進行數百億級別參數的模型研究提供了有潛力的途徑。該模型的設計涉及互相交替的 Mamba 層和 MoE 層，使其能夠有效地整合所有的序列上下文，並為每個token應用最相關的專家模型。 ^[9] ^[10]

Mamba在視覺上的使用（Vision Mamba，Vim）

Vision Mamba (Vim) 將SSM 用於視覺資料處理。它採用雙向 Mamba 塊進行視覺序列編碼並於此減少了視覺任務中通常與self-attention機制相關的計算需求。經過ImageNet分類資料集、COCO 對象檢測和 ADE20k 語意分割的測試，Vim 展示了更好的效能，並且能夠以較低的計算資源處理高解析度圖像。這使得 Vim 成為未來視覺表徵學習進步的可延伸模型。 ^[11]

Jamba

Jamba 是一種將Transformer 和 Mamba SSM 架構相結合的新型架構，由AI21 Labs開發，擁有 520 億個參數，是迄今為止建立的參數最多的 Mamba 變種。它有一個包含 256k token的上下文窗口。 ^[12]

影響和未來方向

Mamba代表了大型語言模型架構的重大潛在轉變，即社會可能需要更快、更高效、可延伸的模型^{[來源請求]} 。

應用包括語言翻譯、內容生成、長篇文字分析、音訊和語音處理^{[來源請求]} 。

參見

注釋

參考

^ ^1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 Gu, Albert; Dao, Tri. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. 2023. arXiv:2312.00752  [cs.LG].
^ Chowdhury, Hasan. The tech powering ChatGPT won't make AI as smart as humans. Others might.. Business Insider. [13 January 2024].
^ Pandey, Mohit. Mamba is Here to Mark the End of Transformers. Analytics India Magazine. 6 December 2023 [13 January 2024].
^ Gu, Albert; Goel, Karan; Re, Christopher. Efficiently Modeling Long Sequences with Structured State Spaces. ICLR. 6 October 2021 [13 January 2024]. arXiv:2111.00396  （英語）.
^ Gu, Albert; Johnson, Isys; Goel, Karan; Saab, Khaled Kamal; Dao, Tri; Rudra, A.; R'e, Christopher. Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. NeurIPS. 26 October 2021. S2CID 239998472.
^ ^6.0 ^6.1 Tickoo, Aneesh. Researchers from CMU and Princeton Unveil Mamba: A Breakthrough SSM Architecture Exceeding Transformer Efficiency for Multimodal Deep Learning Applications. MarkTechPost. 10 December 2023 [13 January 2024].
^ Wang, Junxiong; Gangavarapu, Tushaar; Yan, Jing Nathan; Rush, Alexander M., MambaByte: Token-free Selective State Space Model, 2024-01-24, arXiv:2401.13660 
^ Let's build the GPT Tokenizer, 20 February 2024 [2024-02-23] （英語）
^ Pióro, Maciej; Ciebiera, Kamil; Król, Krystian; Ludziejewski, Jan; Jaszczur, Sebastian, MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts, 2024-01-08, arXiv:2401.04081 
^ Nikhil. This AI Paper Proposes MoE-Mamba: Revolutionizing Machine Learning with Advanced State Space Models and Mixture of Experts MoEs Outperforming both Mamba and Transformer-MoE Individually. MarkTechPost. 2024-01-13 [2024-02-23] （美國英語）.
^ Zhu, Lianghui; Liao, Bencheng; Zhang, Qian; Wang, Xinlong; Liu, Wenyu; Wang, Xinggang, Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model, 2024-02-10, arXiv:2401.09417 
^ Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model. www.ai21.com. [2024-03-29] （英語）.

[mamba-1] 1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 Gu, Albert; Dao, Tri. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. 2023. arXiv:2312.00752  [cs.LG].

[2] Chowdhury, Hasan. The tech powering ChatGPT won't make AI as smart as humans. Others might.. Business Insider. [13 January 2024].

[3] Pandey, Mohit. Mamba is Here to Mark the End of Transformers. Analytics India Magazine. 6 December 2023 [13 January 2024].

[4] Gu, Albert; Goel, Karan; Re, Christopher. Efficiently Modeling Long Sequences with Structured State Spaces. ICLR. 6 October 2021 [13 January 2024]. arXiv:2111.00396  （英語）.

[5] Gu, Albert; Johnson, Isys; Goel, Karan; Saab, Khaled Kamal; Dao, Tri; Rudra, A.; R'e, Christopher. Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. NeurIPS. 26 October 2021. S2CID 239998472.

[mark-6] 6.0 ^6.1 Tickoo, Aneesh. Researchers from CMU and Princeton Unveil Mamba: A Breakthrough SSM Architecture Exceeding Transformer Efficiency for Multimodal Deep Learning Applications. MarkTechPost. 10 December 2023 [13 January 2024].

[7] Wang, Junxiong; Gangavarapu, Tushaar; Yan, Jing Nathan; Rush, Alexander M., MambaByte: Token-free Selective State Space Model, 2024-01-24, arXiv:2401.13660 

[:1-8] Let's build the GPT Tokenizer, 20 February 2024 [2024-02-23] （英語）

[9] Pióro, Maciej; Ciebiera, Kamil; Król, Krystian; Ludziejewski, Jan; Jaszczur, Sebastian, MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts, 2024-01-08, arXiv:2401.04081 

[:2-10] Nikhil. This AI Paper Proposes MoE-Mamba: Revolutionizing Machine Learning with Advanced State Space Models and Mixture of Experts MoEs Outperforming both Mamba and Transformer-MoE Individually. MarkTechPost. 2024-01-13 [2024-02-23] （美國英語）.

[11] Zhu, Lianghui; Liao, Bencheng; Zhang, Qian; Wang, Xinlong; Liu, Wenyu; Wang, Xinggang, Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model, 2024-02-10, arXiv:2401.09417 

[12] Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model. www.ai21.com. [2024-03-29] （英語）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]