推理語言模型
外观
推理語言模型(英語:Reasoning language model),或稱推理大模型或大型推理模型,是一個進階的大型語言模型,它能經過進一步訓練,可以解決多步驟推理任務。推理語言模型在邏輯、數學或程式任務上的表現,一般都比傳統的自我迴歸的大型語言模型更好,具有回溯能力,並使用時間測試計算作為訓練範例、參數計數。[1]
歷史
[编辑]Open AI 在2024年9月推出o1-preview,為首個擁有高階推理能力的大型語言模型.[2] 2024年12月, Open AI 推出 o1 正式版,並宣佈推出o3 [3]
推理語言模型發展證明了 Rich Sutton 所說的「慘痛教訓」:利用計算的通用方法,往往比依賴特定人類洞察力的方法表現更好。[4] 例如,一些科研團隊,如Generative AI Research Lab (GAIR),最初探索了諸如树的遍历和強化學習等複雜技術,試圖複製 o1 的能力。然而,正如他們在《o1 複製之旅》論文中所記錄的那樣,他們發現知識蒸餾——訓練一個較小的模型來模仿 o1 的輸出——效果出奇地好,這凸顯了知識蒸餾的威力。
阿里巴巴在2024年11月,也推出了另一個推理語言模型Qwen。在2024年12月,Google在它的語言模型Gemini中推出深度研究 (Deep Research)功能[5]。2025年1月,深度求索推出Deepseek R1,以更低成本做到如o1一樣的推理效果。[6]2025年2月,OpenAI推出OpenAI Deep Research,一種將推理和網路搜尋整合到大型語言模型的工具,允許使用者可以選擇執行多步驟推理,以及搜查多個來源的資料合成的複雜研究任務。
參考
[编辑]- ^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] (美国英语).
- ^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] (美国英语).
- ^ OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2025-02-06] (美国英语).
- ^ Sutton, Richard S. The Bitter Lesson. Incomplete Ideas. [2025-02-27].
- ^ Try Deep Research and our new experimental model in Gemini, your AI assistant. Google. 2024-12-11 [2025-02-05] (美国英语).
- ^ Orland, Kyle. How does DeepSeek R1 really fare against OpenAI's best reasoning models?. Ars Technica. 2025-01-28 [2025-02-06] (美国英语).