GPT-4.1
開發者 | OpenAI |
---|---|
首次發布 | 2025年4月14日 |
GPT-4.1是OpenAI GPT系列中的大型語言模型,於2025年4月14日發佈。使用者可透過OpenAI API或OpenAI Developer Playground存取GPT-4.1。[1][2][3]本次同時釋出三種模型版本:GPT-4.1、GPT-4.1 mini與GPT-4.1 nano。[4]
概述
[編輯]三個版本的模型均具備一百萬個token的上下文視窗,知識截至時間為2024年6月。[4]
這些模型通過多項基準測試。學術類測試包括2024年AIME、GPQA、MMLU。[4]程式設計能力相關的測試包含SWE-bench與SWE-Lancer。[4]指令理解能力方面的測試則涵蓋COLLIE與IFEval。[4]視覺能力測試包含MMMU(回答圖像相關問題)、MathVista(解決與視覺有關的數學任務)與CharXiv(解析研究論文中的圖表)。[4]
在長文本處理方面,OpenAI設計了兩項新的測試:「多輪指涉解析」(英語:multi-round coreference),要求模型找出在GPT-4o產生的模擬長對話中,第i次出現的目標;[5]以及「圖形遍歷」(英語:Graphwalks),要求模型模擬廣度優先搜尋流程。[4]
這些模型在工具使用訓練方面也有所加強。OpenAI的技術手冊(英語:OpenAI Cookbook)建議,在授權模型使用工具時,應專門透過tools欄位操作。[6]此外,模型在理解和執行指令方面也更加精準,使得使用者能更清楚地引導模型行為。[6]
評價
[編輯]《The Verge》指出,GPT-4.1的推出代表OpenAI產品發表節奏出現轉變。[1]HackerNoon形容這次發表是「開發者的大勝利」,並表示其功能在某些方面超越了Gemini 2.5 Pro的長上下文處理能力與Claude 3.7 Sonnet的推理表現。[7]茲維·莫肖維茨則認為GPT-4.1 mini是「非常實用的模型」,但他也批評OpenAI在安全測試方面投入不足,並表示「對這樣的先例感到不安」。[8]
另外,兩個研究團隊——一個由牛津大學研究員奧文·埃文斯領導,另一個來自AI紅隊新創公司SplxAI——分別獨立發現GPT-4.1在某些情況下的對齊程度可能低於GPT-4o。[9]
參考資料
[編輯]- ^ 1.0 1.1 Weatherbed, Jess. OpenAI debuts its GPT-4.1 flagship AI model. The Verge. 2025-04-14 [2025-04-15] (美國英語).
- ^ Wiggers, Kyle. OpenAI's new GPT-4.1 AI models focus on coding. TechCrunch. 2025-04-14 [2025-04-15] (美國英語).
- ^ Knight, Will. OpenAI’s New GPT 4.1 Models Excel at Coding. Wired. 2025-04-14 [2025-04-15]. ISSN 1059-1028 (美國英語).
- ^ 4.0 4.1 4.2 4.3 4.4 4.5 4.6 Introducing GPT-4.1 in the API. openai.com. [2025-04-27] (美國英語).
- ^ openai/mrcr · Datasets at Hugging Face. huggingface.co. 2025-04-26 [2025-04-27].
- ^ 6.0 6.1 GPT-4.1 Prompting Guide. Open AI cookbook. [2025-04-27] (英語).
- ^ GPT 4.1 is a HUGE Win For Developers | HackerNoon. hackernoon.com. [2025-04-27] (英語).
- ^ Mowshowitz, Zvi. GPT-4.1 Is a Mini Upgrade. Don't Worry About the Vase. 2025-04-16 [2025-04-27].
- ^ Wiggers, Kyle. OpenAI's GPT-4.1 may be less aligned than the company's previous AI models. TechCrunch. 2025-04-23 [2025-04-27] (美國英語).