书 · 大语言模型

从 GPT-1 的 1.17 亿参数到 GPT-4 的万亿级参数，大语言模型在五年内从实验室的好奇心变成了改变世界的力量。这是 AI 历史上最快的范式革命。

待完善

本章节尚待撰写，欢迎参与贡献。

大纲

一、前传：语言模型的演进

n-gram 语言模型：用统计方法预测下一个词
神经网络语言模型：本吉奥（Yoshua Bengio）的开创性工作（2003）
Word2Vec（2013）：词向量革命，"国王 - 男人 + 女人 = 女王"
ELMo（2018）：上下文相关的词表示

二、Transformer 的诞生

"Attention Is All You Need"（2017）：八位 Google 研究员的论文
自注意力机制（Self-Attention）：为什么它比 RNN/LSTM 更好
编码器-解码器架构的分裂：
- 编码器路线 → BERT（Google, 2018）
- 解码器路线 → GPT（OpenAI, 2018）
- 编码器-解码器路线 → T5（Google, 2019）

三、规模定律与涌现

GPT-1（2018）：1.17 亿参数，证明生成式预训练可行
GPT-2（2019）：15 亿参数，OpenAI 以"太危险"为由延迟发布
GPT-3（2020）：1750 亿参数，少样本学习（Few-Shot Learning）震惊学界
规模定律（Scaling Laws）：Kaplan 等人的发现——更大的模型 + 更多的数据 = 更好的性能
涌现能力（Emergent Abilities）：模型达到一定规模后突然出现的能力
Chinchilla 定律（2022）：DeepMind 证明数据量同样重要，不只是模型大

四、ChatGPT 时刻

InstructGPT（2022）：用 RLHF 让模型学会"听话"
ChatGPT（2022.11.30）：产品化的突破，两个月破亿用户
为什么 ChatGPT 成功了：不是最强的模型，而是最好的产品体验
ChatGPT 引发的全球连锁反应：投资暴增、人才争夺、监管恐慌

五、GPT-4 与多模态

GPT-4（2023.3）：多模态能力，看图说话
从语言模型到多模态模型：文本、图像、音频、视频的统一
GPT-4V、GPT-4o：越来越像"全能"的 AI 助手
Claude 3（2024）：Anthropic 的竞争，长上下文能力
Gemini（Google）：从 PaLM 到 Gemini 的整合

六、推理能力的突破

思维链（Chain-of-Thought, CoT）提示：让模型"一步步思考"
OpenAI o1（2024）：推理时计算（Test-Time Compute），用更多推理时间换更好结果
DeepSeek-R1（2025）：用强化学习训练推理能力，成本远低于 o1
推理 vs 直觉：LLM 真的在"思考"还是在模拟思考的模式？

七、全球大模型竞赛

美国

OpenAI：GPT 系列，商业化最成功
Anthropic：Claude 系列，安全优先
Google：Gemini 系列，搜索 + AI 整合
Meta：LLaMA 系列，开源路线

中国

百度文心一言：中国最早发布的大模型产品
阿里通义千问：开源最积极的中国大模型
智谱 ChatGLM：清华系，学术界广泛使用
DeepSeek：低成本高性能，R1 模型全球震动
月之暗面 Kimi：长上下文能力突出
MiniMax：多模态和语音交互
字节跳动豆包：用户规模增长最快

欧洲

Mistral（法国）：小团队高效率的典范

八、LLM 的局限与批评

幻觉（Hallucination）：自信地编造事实
推理的脆弱性：换个说法就可能出错
数据污染：训练数据的版权争议
能耗与环境成本
杨立昆的批评："LLM 永远无法达到人类智能"
LLM 是通往 AGI 的路还是歧途？

九、LLM 的应用生态

AI 编程助手：GitHub Copilot、Cursor、Claude Code
AI 搜索：Perplexity、SearchGPT
AI Agent：从对话到自主行动
RAG（检索增强生成）：让 LLM 接入外部知识
企业级应用：客服、文档处理、代码审查

参考资料

待补充