跳转到内容

推理语言模型

维基百科,自由的百科全书

推理语言模型(英语:Reasoning language model),或称推理大模型大型推理模型,是一个进阶的大型语言模型,它能经过进一步训练,可以解决多步骤推理任务。推理语言模型在逻辑、数学或程式任务上的表现,一般都比传统的自我回归的大型语言模型更好,具有回溯能力,并使用时间测试计算作为训练范例、参数计数。[1]

历史

[编辑]

Open AI 在2024年9月推出o1-preview,为首个拥有高阶推理能力的大型语言模型.[2] 2024年12月, Open AI 推出 o1 正式版,并宣布推出o3 [3]

推理语言模型发展证明了 Rich Sutton 所说的“惨痛教训”:利用计算的通用方法,往往比依赖特定人类洞察力的方法表现更好。[4] 例如,一些科研团队,如Generative AI Research Lab (GAIR),最初探索了诸如树的遍历强化学习等复杂技术,试图复制 o1 的能力。然而,正如他们在《o1 复制之旅》论文中所记录的那样,他们发现知识蒸馏——训练一个较小的模型来模仿 o1 的输出——效果出奇地好,这凸显了知识蒸馏的威力。

阿里巴巴在2024年11月,也推出了另一个推理语言模型Qwen。在2024年12月,Google在它的语言模型Gemini中推出深度研究 (Deep Research)功能[5]。2025年1月,深度求索推出Deepseek R1,以更低成本做到如o1一样的推理效果。[6]2025年2月,OpenAI推出OpenAI Deep Research,一种将推理和网路搜寻整合到大型语言模型的工具,允许使用者可以选择执行多步骤推理,以及搜查多个来源的资料合成的复杂研究任务。

参考

[编辑]
  1. ^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] (美国英语). 
  2. ^ Edwards, Benj. OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica. 2024-09-12 [2025-02-06] (美国英语). 
  3. ^ OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2025-02-06] (美国英语). 
  4. ^ Sutton, Richard S. The Bitter Lesson. Incomplete Ideas. [2025-02-27]. 
  5. ^ Try Deep Research and our new experimental model in Gemini, your AI assistant. Google. 2024-12-11 [2025-02-05] (美国英语). 
  6. ^ Orland, Kyle. How does DeepSeek R1 really fare against OpenAI's best reasoning models?. Ars Technica. 2025-01-28 [2025-02-06] (美国英语). 

参见

[编辑]