推理語言模型

推理語言模型（英語：Reasoning language model），或稱推理大模型或大型推理模型，是一個進階的大型語言模型，它能經過進一步訓練，可以解決多步驟推理任務。推理語言模型在邏輯、數學或程式任務上的表現，一般都比傳統的自我迴歸的大型語言模型更好，具有回溯能力，並使用時間測試計算作為訓練範例、參數計數。^[1]

歷史

Open AI 在2024年9月推出o1-preview，為首個擁有高階推理能力的大型語言模型.^[2] 2024年12月, Open AI 推出 o1 正式版，並宣佈推出o3 ^[3]

推理語言模型發展證明了 Rich Sutton 所說的「慘痛教訓」：利用計算的通用方法，往往比依賴特定人類洞察力的方法表現更好。^[4] 例如，一些科研團隊，如Generative AI Research Lab (GAIR)，最初探索了諸如树的遍历和強化學習等複雜技術，試圖複製 o1 的能力。然而，正如他們在《o1 複製之旅》論文中所記錄的那樣，他們發現知識蒸餾——訓練一個較小的模型來模仿 o1 的輸出——效果出奇地好，這凸顯了知識蒸餾的威力。

阿里巴巴在2024年11月，也推出了另一個推理語言模型Qwen。在2024年12月，Google在它的語言模型Gemini中推出深度研究 (Deep Research)功能^[5]。2025年1月，深度求索推出Deepseek R1，以更低成本做到如o1一樣的推理效果。^[6]2025年2月，OpenAI推出OpenAI Deep Research，一種將推理和網路搜尋整合到大型語言模型的工具，允許使用者可以選擇執行多步驟推理，以及搜查多個來源的資料合成的複雜研究任務。

參考

^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] （美国英语）.
^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] （美国英语）.
^ OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2025-02-06] （美国英语）.
^ Sutton, Richard S. The Bitter Lesson. Incomplete Ideas. [2025-02-27].
^ Try Deep Research and our new experimental model in Gemini, your AI assistant. Google. 2024-12-11 [2025-02-05] （美国英语）.
^ Orland, Kyle. How does DeepSeek R1 really fare against OpenAI's best reasoning models?. Ars Technica. 2025-01-28 [2025-02-06] （美国英语）.

參見

[1] Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] （美国英语）.

[2] Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] （美国英语）.

[3] OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2025-02-06] （美国英语）.

[4] Sutton, Richard S. The Bitter Lesson. Incomplete Ideas. [2025-02-27].

[5] Try Deep Research and our new experimental model in Gemini, your AI assistant. Google. 2024-12-11 [2025-02-05] （美国英语）.

[6] Orland, Kyle. How does DeepSeek R1 really fare against OpenAI's best reasoning models?. Ars Technica. 2025-01-28 [2025-02-06] （美国英语）.

[1]

[2]

[3]

[4]

[5]

[6]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型推理語言模型 LLaMA ChatGPT GPT-4 文心一言深度求索通義千問 Grok Gemini Copilot 词嵌入
机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統