推理语言模型
外观
推理语言模型(英语:Reasoning language model),或称推理大模型或大型推理模型,是一个进阶的大型语言模型,它能经过进一步训练,可以解决多步骤推理任务。推理语言模型在逻辑、数学或程式任务上的表现,一般都比传统的自我回归的大型语言模型更好,具有回溯能力,并使用时间测试计算作为训练范例、参数计数。[1]
历史
[编辑]Open AI 在2024年9月推出o1-preview,为首个拥有高阶推理能力的大型语言模型.[2] 2024年12月, Open AI 推出 o1 正式版,并宣布推出o3 [3]
推理语言模型发展证明了 Rich Sutton 所说的“惨痛教训”:利用计算的通用方法,往往比依赖特定人类洞察力的方法表现更好。[4] 例如,一些科研团队,如Generative AI Research Lab (GAIR),最初探索了诸如树的遍历和强化学习等复杂技术,试图复制 o1 的能力。然而,正如他们在《o1 复制之旅》论文中所记录的那样,他们发现知识蒸馏——训练一个较小的模型来模仿 o1 的输出——效果出奇地好,这凸显了知识蒸馏的威力。
阿里巴巴在2024年11月,也推出了另一个推理语言模型Qwen。在2024年12月,Google在它的语言模型Gemini中推出深度研究 (Deep Research)功能[5]。2025年1月,深度求索推出Deepseek R1,以更低成本做到如o1一样的推理效果。[6]2025年2月,OpenAI推出OpenAI Deep Research,一种将推理和网络搜寻整合到大型语言模型的工具,允许使用者可以选择执行多步骤推理,以及搜查多个来源的资料合成的复杂研究任务。
参考
[编辑]- ^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] (美国英语).
- ^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] (美国英语).
- ^ OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2025-02-06] (美国英语).
- ^ Sutton, Richard S. The Bitter Lesson. Incomplete Ideas. [2025-02-27].
- ^ Try Deep Research and our new experimental model in Gemini, your AI assistant. Google. 2024-12-11 [2025-02-05] (美国英语).
- ^ Orland, Kyle. How does DeepSeek R1 really fare against OpenAI's best reasoning models?. Ars Technica. 2025-01-28 [2025-02-06] (美国英语).