注意力就是你所需要的一切

《注意力就是你所需要的一切》(英語:Attention Is All You Need)[1] 是2017年由谷歌八位科学家联合发表的一篇里程碑式[2][3]的机器学习研究论文。该论文提出了一种基于注意力机制的新型深度学习架构——Transformer,其灵感源自2014年Bahdanau等人提出的机制[4]。这篇论文被视为现代人工智能的奠基性文献[5],也是人工智能热潮的主要推动者之一,因为Transformer架构已成为大语言模型等多种AI的核心基础[6][7]。论文最初聚焦于改进机器翻译的Seq2seq技术,但作者进一步预见该技术可拓展至问答系统及现今的多模态生成式AI等领域[1]。
论文标题致敬了披头士乐队的歌曲《All You Need Is Love》[8]。“Transformer”这一名称由论文作者之一Jakob Uszkoreit选定,因其喜欢该词的发音[9]。
早期设计文档曾命名为《Transformers:面向多任务的迭代式自注意力与处理》,并包含《变形金刚》(英語:Transformers)系列六个角色的插图,团队亦命名为“Team Transformer”[8]。
团队早期测试案例包括英德翻译、生成关于“Transformer”的维基百科条目及語法分析。这些实验使团队确信Transformer是通用语言模型,而非仅适用于翻译[9]。
截至2025年,该论文被引用次数超过17.3万次[10]。
作者
[编辑]论文作者包括:Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Aidan Gomez、Łukasz Kaiser与Illia Polosukhin。八位作者均为“平等贡献者”,署名顺序随机排列。《连线》文章强调了团队的多样性[8]:
Six of the eight authors were born outside the United States; the other two are children of two green-card-carrying Germans who were temporarily in California and a first-generation American whose family had fled persecution, respectively.
八人中有六位生于美国境外;另两位分别是持绿卡的德国夫妇暂居加州时诞下的孩子,以及逃离迫害的第一代移民后代。
论文发表后,所有作者均离开谷歌加入其他公司或创立初创企业。多人表示若留任谷歌,将难以按自身方向创新拓展Transformer技术[11]。
提出的方法
[编辑]论文最著名的贡献是提出了Transformer架构,该架构构成现代大语言模型的基础。其核心优势在于比前代模型更强的并行计算能力,可通过GPU加速训练过程,从而缩短训练时间并支持更大规模模型。
论文为Transformer架构引入了以下机制:
缩放点积注意力与自注意力
[编辑]采用缩放点积注意力及自注意力机制取代循环神经网络或长短期记忆网络(依赖递归结构),显著提升性能。论文将缩放点积注意力定义为: 其中、、分别为查询、键、值矩阵,为值向量的维度。
由于该机制基于同源(输入序列/上下文窗口)生成的Q、K、V矩阵,完全消除了对RNN的依赖,确保架构可并行化。此设计区别于2014年原始注意力机制。论文还讨论了针对键向量维度(,初始设为64)的缩放因子优化。
在翻译任务中,Q、K矩阵通常对应源语言嵌入,而V矩阵对应目标语言。
多头注意力
[编辑]自注意力机制中,Q、K、V矩阵动态生成(受上下文窗口限制),使模型能分步聚焦输入序列的不同部分。多头注意力通过并行多组注意力头增强此过程,每组学习Q、K、V矩阵的不同线性投影,从而同步捕获词间关系的多维特征。
多头输出经拼接和线性变换后生成最终结果。
位置编码
[编辑]因Transformer非序列模型,论文采用正弦/余弦函数将词序信息编码至嵌入向量: 其中、、分别表示词位置、当前维度索引和模型维度。正弦函数用于偶数索引,余弦函数用于奇数索引。生成的嵌入会加入对应位置的词向量。论文解释选择此方法的原因: “正弦编码可使模型外推至训练时未见的更长序列。”[1]
历史背景
[编辑]训练
[编辑]论文虽以机器翻译为核心,亦探讨了该架构在英语成分句法分析任务的表现(无论数据量大小),均取得高分且无需专门调参,表明其适用于广泛的通用序列任务。
数据集
[编辑]英德翻译模型训练使用2014年WMT英德数据集(含450万句,源自TED演讲和高质量新闻),英法翻译模型训练使用更大的2014年WMT英法数据集(3600万句)。两者均采用字节对编码。
硬件
[编辑]模型在8块NVIDIA P100 GPU上训练。基础模型训练10万步(每步约0.4秒),大型模型训练30万步(每步约1秒)。基础模型总耗时12小时,大型模型耗时3.5天。两者均以较低训练成本超越2017年英德/英法翻译的当时最优水平[1]。
超参数与正则化
[编辑]在1亿参数的Transformer模型中,作者在前4000步(预热阶段)线性增加学习率,之后按当前步数的平方根倒数比例下降。在子层归一化前、嵌入求和及位置编码后应用Dropout(比率0.1)。采用0.1的标签平滑技术以“提升准确率与BLEU分数”[1]。
参考文献
[编辑]- ^ 1.0 1.1 1.2 1.3 1.4 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia. I. Guyon and U. Von Luxburg and S. Bengio and H. Wallach and R. Fergus and S. Vishwanathan and R. Garnett , 编. 31st Conference on Neural Information Processing Systems (NIPS). Advances in Neural Information Processing Systems 30. Curran Associates, Inc. Dec 2017. arXiv:1706.03762
.
- ^ Love, Julia. AI Researcher Who Helped Write Landmark Paper Is Leaving Google. Bloomberg News. 2023-07-10 [2024-04-01].
- ^ Goldman, Sharon. 'Attention is All You Need' creators look beyond Transformers for AI at Nvidia GTC: 'The world needs something better'. VentureBeat. 2024-03-20 [2024-04-01].
- ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua. Neural Machine Translation by Jointly Learning to Align and Translate. 2016-05-19. arXiv:1409.0473
[cs.CL].
- ^ Shinde, Gitanjali; Wasatkar, Namrata; Mahalle, Parikshit. Data-Centric Artificial Intelligence for Multidisciplinary Applications. CRC Press. 2024-06-06: 75. ISBN 9781040031131.
- ^ Toews, Rob. Transformers Revolutionized AI. What Will Replace Them?. Forbes. 3 September 2023 [3 December 2023]. (原始内容存档于26 September 2023).
- ^ Murgia, Madhumita. Transformers: the Google scientists who pioneered an AI revolution. Financial Times. 23 July 2023 [2024-03-22]. (原始内容存档于2023-12-28).
- ^ 8.0 8.1 8.2 Levy, Steven. 8 Google Employees Invented Modern AI. Here's the Inside Story. Wired. [2024-03-20]. ISSN 1059-1028.
- ^ 9.0 9.1 Marche, Stephen. Was Linguistic A.I. Created by Accident?. The New Yorker. 2024-08-23 [2024-08-24]. ISSN 0028-792X.
- ^ Meet the $4 Billion AI Superstars That Google Lost. Bloomberg. 13 July 2023 –通过www.bloomberg.com.
- ^ Murgia, Madhumita. Transformers: the Google scientists who pioneered an AI revolution. Financial Times. 2023-07-23 [2025-03-22].
外部链接
[编辑]- Uszkoreit, Jakob. Transformer: A Novel Neural Network Architecture for Language Understanding. Google Research. 2017-08-31 [2024-08-09] (英语). 谷歌研究博客的同期文章。