本纪第九 · Transformer 纪元（2017—2022）

2017 年 6 月，八位谷歌研究员提交了一篇论文，标题只有五个词："Attention Is All You Need"。他们当时不可能知道，这篇论文将催生价值万亿美元的产业、改变数亿人的日常生活、引发关于人类文明未来的激烈争论。一切始于一个简单的想法：抛弃循环，只用注意力。

一、核心之争：序列建模的正确方式是什么？

2017 年之前，处理序列数据（文本、语音、时间序列）的主流方法是循环神经网络（RNN）及其变体长短期记忆网络（LSTM）。RNN 逐个处理序列中的元素——读入第一个词，更新内部状态，读入第二个词，再更新状态——像一个人一个字一个字地读书。

这种串行处理方式有两个严重问题。第一，速度慢：因为必须按顺序处理，无法利用 GPU 的并行计算能力。第二，长程依赖困难：当句子很长时，前面的信息在经过多步传递后会被"稀释"，网络很难记住远处的上下文。LSTM 通过精巧的"门控"机制缓解了第二个问题，但无法根本解决。

Transformer 的革命性在于：它完全抛弃了循环结构，用自注意力机制（Self-Attention）一次性处理整个序列。每个词可以直接"看到"序列中所有其他词，并根据它们之间的相关性决定该关注哪些——无论它们相距多远。这既解决了长程依赖问题，又让计算可以完全并行化。

二、Attention Is All You Need

八位作者

2017 年 6 月，谷歌的瓦斯瓦尼等八位研究员在 arXiv 上发表了论文《Attention Is All You Need》。这篇论文提出了 Transformer 架构——一种完全基于注意力机制的序列到序列模型。

Transformer 的核心是多头自注意力（Multi-Head Self-Attention）：对于输入序列中的每个位置，计算它与所有其他位置的"注意力权重"——即相关性得分——然后用这些权重对所有位置的表征进行加权求和。"多头"意味着同时运行多组独立的注意力计算，每一组可以捕捉不同类型的依赖关系（如语法关系、语义关系、位置关系）。

论文的实验场景是机器翻译。Transformer 在英德和英法翻译任务上都刷新了当时的最优成绩，同时训练速度比 RNN 模型快了一个数量级。但论文的影响远不止于翻译——它提供了一个通用的、高效的、可扩展的序列建模框架，很快被应用到几乎所有涉及序列数据的 AI 任务上。

一个意外的事实

八位作者中没有一位留在谷歌。他们后来分别创办了 AI 创业公司或加入了其他机构——瓦斯瓦尼联合创办了 Essential AI，诺姆·沙泽尔（Noam Shazeer）联合创办了 Character.AI（后来回到谷歌）。Transformer 的诞生地没能留住它的创造者，但 Transformer 本身留在了一切地方。

三、BERT 与 GPT：两条分岔的路

Transformer 发表后，AI 社区迅速分化为两条路线——代表了对"如何利用 Transformer"的两种不同哲学。

BERT：理解的路线

2018 年 10 月，谷歌的德夫林等人发表了 BERT（Bidirectional Encoder Representations from Transformers）。BERT 的核心思想是双向预训练：在大规模文本上，随机遮盖一些词（掩码语言模型，Masked Language Model），让模型根据上下文预测被遮盖的词。因为预测时可以同时看到左边和右边的上下文，BERT 学到的是真正"双向"的语言表征。

BERT 在 11 个 NLP 基准测试上全面刷新了最优成绩，引发了 NLP 社区的震动。它确立了一种新的范式——"预训练 + 微调"（Pre-train + Fine-tune）：先在海量无标签文本上预训练一个通用的语言模型，然后在特定任务（如情感分析、问答、命名实体识别）上用少量标注数据微调。这种范式极大地降低了 NLP 任务的门槛——你不再需要为每个任务从头训练一个模型。

GPT：生成的路线

几乎在同一时期，OpenAI 的拉德福德走了一条不同的路。2018 年 6 月，他发表了 GPT-1（Generative Pre-trained Transformer）——用 Transformer 的解码器（而非编码器）做单向语言模型：给定前面的词，预测下一个词。

GPT-1 只有 1.17 亿个参数，在当时并不引人注目。但 OpenAI 坚信规模是关键。2019 年 2 月，GPT-2 发布——15 亿参数，比 GPT-1 大了 10 倍以上。OpenAI 以"太危险"为由延迟公开模型权重，引发了 AI 社区关于开源与安全的第一次大规模争论。GPT-2 能生成连贯的长篇文本——虽然仔细看仍有逻辑漏洞，但流畅度已经令人不安。

分歧的深意

BERT 和 GPT 的分歧不仅是技术选择的差异，更反映了对 AI 未来方向的不同判断。BERT 路线认为"理解"是核心——先学会理解语言，再应用到下游任务。GPT 路线则认为"生成"就是理解——如果一个模型能够持续地预测下一个词，它就必须在某种程度上理解了语言的结构和含义。

历史最终站在了 GPT 一边——但不是因为 BERT 的思路错了，而是因为 GPT 路线更容易通过规模扩展来提升性能。"预测下一个词"是一个极其简单的训练目标，可以利用互联网上几乎无限的文本数据，而且天然适合自回归生成。

四、GPT-3：规模的暴力美学

1750 亿参数

2020 年 5 月，OpenAI 发表了 GPT-3 的论文——布朗等人的《Language Models are Few-Shot Learners》。GPT-3 拥有 1750 亿个参数，训练数据集包含约 5000 亿个词元（token，过滤后），加权采样后训练实际见到约 3000 亿个词元；训练成本据估计超过 400 万美元。

GPT-3 展现了一种令人惊讶的能力：少样本学习（Few-Shot Learning）。你不需要对模型进行微调，只需要在提示词（Prompt）中给出几个示例，模型就能"理解"任务并执行——翻译、摘要、问答、编程、写诗、甚至做算术。这种能力在此前的任何模型中都没有观察到。

涌现能力

GPT-3 的能力引发了关于"涌现"（Emergence）的讨论。许多能力在 GPT-2 的规模上完全不存在，但在 GPT-3 的规模上突然出现——仿佛模型在穿越某个"规模门槛"后获得了质变。

这种涌现现象后来被卡普兰等人在《规模定律》（Scaling Laws for Neural Language Models, 2020）论文中部分解释：模型性能与参数量、数据量和计算量之间存在可预测的幂律关系。更大的模型、更多的数据、更长的训练，几乎总是带来更好的性能——而且这个关系在已有的规模范围内没有显示出饱和的迹象。

规模定律给出了一个简洁但深刻的指引：继续扩大规模。这个指引将定义接下来几年 AI 的主旋律。

五、多模态：AI 学会看、画、写代码

DALL-E 与图像生成

2021 年 1 月，OpenAI 发布了 DALL-E——一个能够根据文字描述生成图像的模型。你输入"一只穿宇航服的柯基犬在月球上跳舞"，它就能画出来。DALL-E 的名字融合了达利（Salvador Dalí）和瓦力（WALL-E），暗示了艺术与技术的交汇。

DALL-E 背后是 Transformer 架构的扩展——将文本和图像统一编码为离散的词元序列，然后用自回归模型生成。2022 年 4 月发布的 DALL-E 2 使用了扩散模型（Diffusion Model）——一种通过逐步去除噪声来生成图像的方法——图像质量大幅提升。

几乎同一时期，Stability AI 的 Stable Diffusion（2022 年 8 月开源）和 Midjourney 也相继发布。AI 图像生成从实验室走进了百万用户的日常工具箱。

GitHub Copilot 与代码生成

2021 年 6 月，GitHub 和 OpenAI 联合发布了 Copilot——一个基于 GPT 变体 Codex 的 AI 编程助手。Copilot 能根据注释、函数名和上下文自动补全代码，有时甚至能生成完整的函数。

Copilot 的意义不仅在于技术——它是 AI 第一次大规模渗透到专业工作者的日常工作流中。程序员发现自己每天都在和一个 AI "搭档"合作写代码。这预示了一种全新的人机协作模式——不是 AI 取代人类，而是 AI 增强人类的生产力。

六、AlphaFold：AI 解决了生物学的五十年难题

2020 年 11 月，哈萨比斯领导的 DeepMind 团队宣布 AlphaFold 2 在蛋白质结构预测竞赛 CASP14 中取得了突破性成绩——预测精度达到了实验测定水平。2021 年 7 月，AlphaFold 2 的论文在《自然》杂志发表，同时 DeepMind 公开了超过 36 万个蛋白质的预测结构；到 2022 年，这个数字扩展到了超过 2 亿个——几乎覆盖了已知的所有蛋白质。

蛋白质折叠问题——从氨基酸序列预测三维结构——困扰了生物学家超过五十年。传统的实验方法（如 X 射线晶体学、冷冻电镜）耗时数月甚至数年，而 AlphaFold 可以在几分钟内给出高精度的预测。

AlphaFold 是 AI 在基础科学中最具说服力的胜利。它不是在游戏中击败人类，而是在帮助人类理解生命本身。哈萨比斯因此在 2024 年获得了诺贝尔化学奖。

七、暗流与伏笔

第一，ChatGPT 的前兆。 GPT-3 的少样本学习能力和 InstructGPT（2022 年 1 月）的指令微调技术，已经为一个"对话式 AI"产品的诞生做好了技术准备。2022 年 11 月，ChatGPT 的发布将把所有这些技术积累转化为一场全球性的现象——但那属于下一篇的故事。

第二，AI 安全的争论升温。 随着模型能力的增长，担忧也在增长。奥特曼在公开场合反复表示 AI 可能带来"存在性风险"。苏茨克维在 OpenAI 内部越来越多地关注对齐（Alignment）问题。阿莫代在 2021 年离开 OpenAI，创办了专注安全的 Anthropic。AI 安全从一个边缘话题变成了产业界不得不面对的核心议题。

第三，开源与闭源之争的序幕。 GPT-2 的延迟公开引发的争论，到 GPT-3 时更加激烈——OpenAI 只提供 API 访问，不公开模型权重。这种"闭源"策略引发了学术界和开源社区的强烈不满，也为 Meta 后来的 LLaMA 开源路线埋下了伏笔。

第四，硬件军备竞赛加速。 NVIDIA 的 A100 GPU（2020）和后来的 H100（2022）成为训练大模型的标配硬件。谷歌开发了 TPU（Tensor Processing Unit）。AI 芯片从一个利基市场变成了科技产业最热门的赛道。NVIDIA 的市值从 2020 年的约 3000 亿美元一路飙升。

八、年表

年份	事件	关键人物
2017	"Attention Is All You Need" 发表，Transformer 架构诞生	瓦斯瓦尼等八位作者
2018	GPT-1 发布（1.17 亿参数）	拉德福德
2018	BERT 发表，双向预训练刷新 11 项 NLP 基准	德夫林
2019	GPT-2 发布（15 亿参数），OpenAI 以"太危险"为由延迟公开	拉德福德
2020	GPT-3 发布（1750 亿参数），展现少样本学习能力	布朗
2020	规模定律论文发表，揭示模型性能与规模的幂律关系	卡普兰
2020	AlphaFold 2 在 CASP14 中突破蛋白质折叠预测	哈萨比斯
2021	DALL-E 发布，AI 学会根据文字生成图像	拉梅什（Aditya Ramesh）等
2021	GitHub Copilot 发布，AI 编程助手进入开发者工作流	—
2021	阿莫代离开 OpenAI，创办 Anthropic	阿莫代
2022	Stable Diffusion 开源，AI 图像生成全面普及	—
2022	InstructGPT 发表，用人类反馈的强化学习（RLHF）提升对话能力	奥特曼、苏茨克维

太史公曰

Transformer 纪元的五年，是人工智能从"有用的工具"变成"不可忽视的力量"的五年。一篇论文的标题——"注意力就是你所需要的一切"——在事后看来既是技术宣言，也是预言。Transformer 的自注意力机制做了一件看似简单的事：让序列中的每个元素都能直接与所有其他元素对话。但这个简单的设计释放了巨大的能量——它让语言模型可以无限扩展，让规模成为通往能力的直通车。GPT-3 的涌现能力震惊了连创造者自己都震惊——一个"预测下一个词"的模型，怎么就学会了翻译、编程、推理？没有人有完整的答案，但每个人都感受到了地面在震动。当 AlphaFold 在分子层面解决了困扰生物学家半个世纪的问题时，AI 终于超越了棋盘和竞赛，触及了人类最深层的好奇心——理解生命本身。而这一切，还只是序曲。

亲历者说

征集中

如果你了解这段历史的第一手资料或亲历者回忆，欢迎提交贡献。

参考资料

Vaswani, A. et al. (2017). "Attention Is All You Need." NeurIPS 2017.
Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL 2019.
Radford, A. et al. (2018). "Improving Language Understanding by Generative Pre-Training." OpenAI Technical Report.
Radford, A. et al. (2019). "Language Models are Unsupervised Multitask Learners." OpenAI Technical Report.
Brown, T. et al. (2020). "Language Models are Few-Shot Learners." NeurIPS 2020.
Kaplan, J. et al. (2020). "Scaling Laws for Neural Language Models." arXiv:2001.08361.
Jumper, J. et al. (2021). "Highly accurate protein structure prediction with AlphaFold." Nature, 596, 583–589.
Ramesh, A. et al. (2021). "Zero-Shot Text-to-Image Generation." ICML 2021.
Chen, M. et al. (2021). "Evaluating Large Language Models Trained on Code." arXiv:2107.03374.
Ouyang, L. et al. (2022). "Training language models to follow instructions with human feedback." NeurIPS 2022.

本纪第九 · Transformer 纪元（2017—2022） ​

一、核心之争：序列建模的正确方式是什么？ ​

二、Attention Is All You Need ​

八位作者 ​

一个意外的事实 ​

三、BERT 与 GPT：两条分岔的路 ​

BERT：理解的路线 ​

GPT：生成的路线 ​

分歧的深意 ​

四、GPT-3：规模的暴力美学 ​

1750 亿参数 ​

涌现能力 ​

五、多模态：AI 学会看、画、写代码 ​

DALL-E 与图像生成 ​

GitHub Copilot 与代码生成 ​

六、AlphaFold：AI 解决了生物学的五十年难题 ​

七、暗流与伏笔 ​

八、年表 ​

亲历者说 ​

参考资料 ​