跳转到内容

LLaMA

本页使用了标题或全文手工转换
维基百科,自由的百科全书
Llama
開發者Meta AI英语Meta AI
首次发布2023年2月24日,​2年前​(2023-02-24
当前版本
  • 3.3(2024年12月6日)[1]
編輯維基數據鏈接
源代码库github.com/meta-llama/llama3
编程语言Python
类型
许可协议Meta Llama 3.2 Community License[2]
网站llama.meta.com

LLaMA(英語:Large Language Model Meta AI)是Meta於2023年2月發布的大型语言模型。它訓練了各種模型,這些模型的參數從70億到650億不等。LLaMA的開發人員報告說,LLaMA運行的130億參數模型在大多數NLP基準測試中的性能超過了更大的、具有1750億參數的GPT-3提供的模型,且LLaMA的模型可以與PaLMChinchilla等最先進的模型競爭[3]。雖然其他強大的大語言模型通常只能通過有限的API訪問,但Meta在非商業許可的情況下發布了LLaMA的模型權重,供研究人員參考和使用[4][5][6]。2023年7月,Meta推出LLaMA 2,这是一种可用于商业应用的开源AI模型[7]

LLaMA 2

[编辑]

2023年7月,Facebook母公司Meta推出了LLaMA2,LLaMA2是一种开源大型语言模型(LLM),旨在挑战大型科技竞争对手的限制性做法。Meta免费发布LLaMA2背后的代码和数据,使世界各地的研究人员能够利用和改进该技术。 Meta的首席执行官马克·扎克伯格一直直言不讳地强调开源软件对于刺激创新的重要性。[8][7]

Meta训练并发布了三种模型大小的LLaMA2:70、130和700亿个参数。模型架构与LLaMA1模型基本保持不变,但用于训练基础模型的数据增加了 40%。随附的预印本还提到了一个具有34B参数的模型,该模型可能在未来满足安全目标后发布。

LLaMA2包括基础模型和针对对话进行微调的模型,称为 Llama 2 - 聊天。与LLaMA1进一步不同的是,所有模型都附带权重,并且对于许多商业用例都是免费的。然而,由于一些剩余的限制,Llama开源的描述受到了开源倡议组织(以维护开源定义而闻名)的争议。[9]

Code Llama

[编辑]

2023年8月,Meta继发布用于生成文本、翻译语言和创建音频的人工智能模型之后,开源了 Code Llama。这是一个机器学习系统,可以用自然语言(特别是英语)生成和解释代码。 可以免费商用和研究。[10]

Code Llama是从Llama-2基础模型微调而来,共有三个版本:基础版、Python版、以及指令遵循。 类似于 GitHub Copilot 和 Amazon CodeWhisperer,以及 StarCoder、StableCode 和 PolyCoder 等开源人工智能代码生成器,Code Llama 可以跨多种编程语言完成代码并调试现有代码,包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。[11]

在训练 Code Llama 时,Meta 使用了与训练 Llama 2 相同的数据集——来自网络的公开可用资源的混合。但可以说,它的模型“强调”了包含代码的训练数据的子集。从本质上讲,Code Llama 比它的“父”模型 Llama 2 有更多的时间来学习代码和自然语言之间的关系。每个 Code Llama 模型的大小从 70 亿个参数到 340 亿个参数不等,均使用 5000 亿个代码标记以及与代码相关的数据进行训练。多个 Code Llama 模型可以将代码插入到现有代码中,并且所有模型都可以接受大约 100,000 个代码标记作为输入,而至少一个(70 亿个参数模型)可以在单个 GPU 上运行。(其他模型则需要更强大的硬件。)Meta 声称,340 亿个参数的模型是迄今为止所有开源代码生成器中性能最好的,也是参数数量最多的。[11]

Llama 3

[编辑]

2024年4月18日,Meta发布了Llama-3,有两种模型大小尺寸:8B和70B参数。[12]这些模型已经根据从“公开可用来源”收集的大约 15 万亿个文本标记进行了预训练,并且指导模型根据“公开可用的指令数据集以及超过 1000 万个人工注释的示例”进行了微调。 计划发布多模式模型、能够以多种语言进行对话的模型以及具有更大上下文窗口的模型。

于2024年7月23日增量更新至Llama-3.1。具有8B、70B、405B参数三种模型大小尺寸。[12]

Meta AI 的测试表明,Llama 3 70B 在大多数基准测试中都击败了GeminiClaude[13][14]

Llama 4

[编辑]

Llama-4系列于2025年4月5日发布。其架构已更改为混合专家模型。它们具备多模态(文本和图像输入,文本输出)和多语言(12种语言)特性,[15] 包括基础版本和指令调整版本:[16]

  • Scout:170 亿个活跃参数模型,包含 16 位专家,上下文窗口为 1000 万个,总共包含 1090 亿个参数。
  • Maverick:170 亿个活跃参数模型,包含 128 位专家,上下文窗口为 100 万个,总共包含 4000 亿个参数。
  • Behemoth(尚未发布):2880 亿个活跃参数模型,包含 16 位专家,总共包含约2万亿个参数。

当时 Behemoth 版本仍在训练中。Scout 是从零开始训练的。Maverick 是从 Behemoth 中“共同提炼”而来的。需要注意的是,Scout 的训练时间比 Maverick 更长,上下文长度也更长。

训练数据包括公开数据、授权数据以及 Meta 专有数据,例如Instagram和Facebook上公开分享的帖子以及人们与Meta AI的互动。数据截止日期为2024年8月。[17]

Meta 在其发布公告中声称,Llama 4 在 LMArena AI 基准测试中的得分超过了GPT-4o[18] 该公司还表示,Llama 4的基准测试得分是使用未发布的“实验性聊天版本”模型获得的,该版本“针对对话性进行了优化”,与公开发布的 Llama 4 版本有所不同。[19] LMArena 表示将调整政策,以防止此类事件再次发生,并回应称:“Meta对我们政策的解读与我们对模型提供商的期望不符。Meta 应该更清楚地说明,‘Llama-4-Maverick-03-26-Experimental’ 是一个定制模型,旨在根据人类偏好进行优化。”[20] 一些用户在社交媒体上批评 Meta 使用专门为基准测试而定制的模型版本,还有一些用户指责 Meta 在测试集上训练 Llama 4 以进一步提高其基准测试分数——Meta 对此予以否认。[21]

模型比较

[编辑]

对于训练成本列,只写出最大模型的成本。例如,“21,000”是 Llama 2 69B 的训练成本,单位为 petaFLOP-day。另外,1 petaFLOP-day = 1 petaFLOP/秒 × 1 天 = 8.64×1019 FLOP

名称 发布日期 参数 训练成本 (petaFLOP-day) 上下文长度 语料库大小 商业可行性?
LLaMA 2023-02-24
  • 6.7B
  • 13B
  • 32.5B
  • 65.2B
6,300[22] 2048 1–1.4T
Llama 2 2023-07-18
  • 6.7B
  • 13B
  • 69B
21,000[23] 4096 2T
Code Llama 2023-08-24
  • 6.7B
  • 13B
  • 33.7B
  • 69B
Llama 3 2024-04-18
  • 8B
  • 70.6B
100,000[24][25] 8192 15T
Llama 3.1 2024-07-23
  • 8B
  • 70.6B
  • 405B
440,000[26][27] 128,000
Llama 3.2 2024-09-25
  • 1B
  • 3B
  • 11B
  • 90B
128,000
Llama 4 2025-04-05

架构与训练

[编辑]

数据集

[编辑]

2023年4月17日,GitHub的Together启动了一个名为RedPajama的项目,以复制和分发LLaMA数据集的开源版本。[28][29]

反响

[编辑]

连线》 (Wired) 杂志称Llama 3的 8B 参数版本“能力出奇地强”,考虑到它的大小。[30]

Meta将Llama整合到Facebook后,人们的反应褒贬不一,一些用户在Meta AI告诉家长群它有一个孩子后感到困惑。[31]

根据2023年第四季度的收益记录,Meta采用了开放权重的策略来提高模型安全性、迭代速度,增加开发人员和研究人员的采用率,并成为行业标准。未来计划推出 Llama 5、6 和 7。[32]

参见

[编辑]

参考资料

[编辑]
  1. ^ meta-llama/Llama-3.3-70B-Instruct · Hugging Face. 2024年12月6日 [2025年2月20日] (英語). 
  2. ^ llama3/LICENSE at main · meta-llama/llama3. GitHub. [2024-05-25]. (原始内容存档于2024-05-24) (英语). 
  3. ^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. LLaMA: Open and Efficient Foundation Language Models. 2023. arXiv:2302.13971可免费查阅 [cs.CL]. 
  4. ^ Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI. 2023-02-24 [2023-06-14]. (原始内容存档于2023-03-03). 
  5. ^ Vincent, James. Meta's powerful AI language model has leaked online — what happens now?. The Verge. 2023-03-08 [2023-06-14]. (原始内容存档于2023-11-03). 
  6. ^ 差一步称霸AI:历史进程中的扎克伯格, 远川研究所, 澎湃. [2023-06-28]. (原始内容存档于2023-06-28). 
  7. ^ 7.0 7.1 Meta launches Llama 2, a source-available AI model that allows commercial applications. [2023-07-21]. (原始内容存档于2023-11-07). 
  8. ^ LLaMA 2: How to access and use Meta’s versatile open-source chatbot right now. [2023-07-20]. (原始内容存档于2023-11-03). 
  9. ^ Maffulli, Stefano. Meta’s LLaMa 2 license is not Open Source. Voices of Open Source. 2023-07-20 [2023-08-29]. (原始内容存档于2023-10-10) (美国英语). 
  10. ^ Code Llama: Open Foundation Models for Code. AI at Meta. [2025-01-14]. (原始内容存档于2023-11-01). 
  11. ^ 11.0 11.1 Wiggers, Kyle. Meta releases Code Llama, a code-generating AI model. TechCrunch. 2023-08-24 [2025-01-14]. (原始内容存档于2023-11-11) (美国英语). 
  12. ^ 12.0 12.1 Introducing Meta Llama 3: The most capable openly available LLM to date. ai.meta.com. 2024-04-18 [2024-04-21]. (原始内容存档于2024-05-15) (英语). 
  13. ^ Wiggers, Kyle. Meta releases Llama 3, claims it's among the best open models available. TechCrunch. 2024-04-18 [2024-04-19]. (原始内容存档于2024-09-18). 
  14. ^ Mann, Tobias. Meta debuts third-generation Llama large language model. www.theregister.com. [2024-07-25]. (原始内容存档于2024-08-25) (英语). 
  15. ^ meta-llama/Llama-4-Maverick-17B-128E · Hugging Face. huggingface.co. 2025-04-05 [2025-04-06]. 
  16. ^ The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation. ai.meta.com. [2025-04-05]. (原始内容存档于2025-04-05) (英语). 
  17. ^ meta-llama/Llama-4-Maverick-17B-128E · Hugging Face. huggingface.co. 2025-04-05 [2025-04-06]. 
  18. ^ Robison, Kylie. Meta got caught gaming AI benchmarks. The Verge. 2025-04-08 [2025-04-08]. 
  19. ^ Wiggers, Kyle. Meta's benchmarks for its new AI models are a bit misleading. TechCrunch. 2025-04-06 [2025-04-08]. 
  20. ^ Robison, Kylie. Meta got caught gaming AI benchmarks. The Verge. 2025-04-08 [2025-04-08]. 
  21. ^ Franzen, Carl. Meta defends Llama 4 release against ‘reports of mixed quality,’ blames bugs. VentureBeat. 2025-04-08 [2025-04-08]. 
  22. ^ The Falcon has landed in the Hugging Face ecosystem. huggingface.co. [2023-06-20]. (原始内容存档于2023-06-20). 
  23. ^ llama/MODEL_CARD.md at main · meta-llama/llama. GitHub. [2024-05-28]. (原始内容存档于2024-05-28) (英语). 
  24. ^ Andrej Karpathy (@karpathy) on X. X (formerly Twitter). [2025-01-14]. (原始内容存档于2024-08-17) (英语). 
  25. ^ llama3/MODEL_CARD.md at main · meta-llama/llama3. GitHub. [2024-05-28]. (原始内容存档于2024-05-21) (英语). 
  26. ^ The Llama 3 Herd of Models. AI at Meta. [2025-01-14]. (原始内容存档于2024-07-24) (英语). 
  27. ^ llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models. GitHub. [2024-07-23]. (原始内容存档于2024-07-23) (英语). 
  28. ^ RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset. GitHub. Together. [2023-05-04]. (原始内容存档于2023-11-07). 
  29. ^ RedPajama-Data-1T. Hugging Face. Together. [2023-05-04]. (原始内容存档于2023-11-03). 
  30. ^ Knight, Will. Meta’s Open Source Llama 3 Is Already Nipping at OpenAI’s Heels. Wired. [2024-07-25]. ISSN 1059-1028. (原始内容存档于2024-09-27) (美国英语). 
  31. ^ Meta's amped-up AI agents confusing Facebook users. ABC News. 2024-04-19 [2024-07-25]. (原始内容存档于2024-09-17) (澳大利亚英语). 
  32. ^ META Q4 2023 Earnings Call Transcript (PDF). [2024-07-25]. (原始内容存档 (PDF)于2024-09-17). 

外部連結

[编辑]