推理语言模型

推理语言模型（英语：Reasoning language model），或称推理大模型或大型推理模型，是一个进阶的大型语言模型，它能经过进一步训练，可以解决多步骤推理任务。推理语言模型在逻辑、数学或程式任务上的表现，一般都比传统的自我回归的大型语言模型更好，具有回溯能力，并使用时间测试计算作为训练范例、参数计数。^[1]

历史

Open AI 在2024年9月推出o1-preview，为首个拥有高阶推理能力的大型语言模型.^[2] 2024年12月, Open AI 推出 o1 正式版，并宣布推出o3 ^[3]

推理语言模型发展证明了 Rich Sutton 所说的“惨痛教训”：利用计算的通用方法，往往比依赖特定人类洞察力的方法表现更好。^[4] 例如，一些科研团队，如Generative AI Research Lab (GAIR)，最初探索了诸如树的遍历和强化学习等复杂技术，试图复制 o1 的能力。然而，正如他们在《o1 复制之旅》论文中所记录的那样，他们发现知识蒸馏——训练一个较小的模型来模仿 o1 的输出——效果出奇地好，这凸显了知识蒸馏的威力。

阿里巴巴在2024年11月，也推出了另一个推理语言模型Qwen。在2024年12月，Google在它的语言模型Gemini中推出深度研究 (Deep Research)功能^[5]。2025年1月，深度求索推出Deepseek R1，以更低成本做到如o1一样的推理效果。^[6]2025年2月，OpenAI推出OpenAI Deep Research，一种将推理和网络搜寻整合到大型语言模型的工具，允许使用者可以选择执行多步骤推理，以及搜查多个来源的资料合成的复杂研究任务。

参考

^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] （美国英语）.
^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] （美国英语）.
^ OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2025-02-06] （美国英语）.
^ Sutton, Richard S. The Bitter Lesson. Incomplete Ideas. [2025-02-27].
^ Try Deep Research and our new experimental model in Gemini, your AI assistant. Google. 2024-12-11 [2025-02-05] （美国英语）.
^ Orland, Kyle. How does DeepSeek R1 really fare against OpenAI's best reasoning models?. Ars Technica. 2025-01-28 [2025-02-06] （美国英语）.

参见

[1] Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] （美国英语）.

[2] Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] （美国英语）.

[3] OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2025-02-06] （美国英语）.

[4] Sutton, Richard S. The Bitter Lesson. Incomplete Ideas. [2025-02-27].

[5] Try Deep Research and our new experimental model in Gemini, your AI assistant. Google. 2024-12-11 [2025-02-05] （美国英语）.

[6] Orland, Kyle. How does DeepSeek R1 really fare against OpenAI's best reasoning models?. Ars Technica. 2025-01-28 [2025-02-06] （美国英语）.

[1]

[2]

[3]

[4]

[5]

[6]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智能（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分布语义（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 语言模型大型语言模型基础模型推理语言模型 LLaMA ChatGPT GPT-4 文心一言深度求索通义千问 Grok Gemini Copilot 词嵌入
机器翻译	电脑辅助翻译基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼写检查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天机器人文字冒险游戏问答系统