Skip to content

书 · 大语言模型

从 GPT-1 的 1.17 亿参数到 GPT-4 的万亿级参数,大语言模型在五年内从实验室的好奇心变成了改变世界的力量。这是 AI 历史上最快的范式革命。

待完善

本章节尚待撰写,欢迎参与贡献

大纲

一、前传:语言模型的演进

  • n-gram 语言模型:用统计方法预测下一个词
  • 神经网络语言模型:本吉奥(Yoshua Bengio)的开创性工作(2003)
  • Word2Vec(2013):词向量革命,"国王 - 男人 + 女人 = 女王"
  • ELMo(2018):上下文相关的词表示

二、Transformer 的诞生

  • "Attention Is All You Need"(2017):八位 Google 研究员的论文
  • 自注意力机制(Self-Attention):为什么它比 RNN/LSTM 更好
  • 编码器-解码器架构的分裂:
    • 编码器路线 → BERT(Google, 2018)
    • 解码器路线 → GPT(OpenAI, 2018)
    • 编码器-解码器路线 → T5(Google, 2019)

三、规模定律与涌现

  • GPT-1(2018):1.17 亿参数,证明生成式预训练可行
  • GPT-2(2019):15 亿参数,OpenAI 以"太危险"为由延迟发布
  • GPT-3(2020):1750 亿参数,少样本学习(Few-Shot Learning)震惊学界
  • 规模定律(Scaling Laws):Kaplan 等人的发现——更大的模型 + 更多的数据 = 更好的性能
  • 涌现能力(Emergent Abilities):模型达到一定规模后突然出现的能力
  • Chinchilla 定律(2022):DeepMind 证明数据量同样重要,不只是模型大

四、ChatGPT 时刻

  • InstructGPT(2022):用 RLHF 让模型学会"听话"
  • ChatGPT(2022.11.30):产品化的突破,两个月破亿用户
  • 为什么 ChatGPT 成功了:不是最强的模型,而是最好的产品体验
  • ChatGPT 引发的全球连锁反应:投资暴增、人才争夺、监管恐慌

五、GPT-4 与多模态

  • GPT-4(2023.3):多模态能力,看图说话
  • 从语言模型到多模态模型:文本、图像、音频、视频的统一
  • GPT-4V、GPT-4o:越来越像"全能"的 AI 助手
  • Claude 3(2024):Anthropic 的竞争,长上下文能力
  • Gemini(Google):从 PaLM 到 Gemini 的整合

六、推理能力的突破

  • 思维链(Chain-of-Thought, CoT)提示:让模型"一步步思考"
  • OpenAI o1(2024):推理时计算(Test-Time Compute),用更多推理时间换更好结果
  • DeepSeek-R1(2025):用强化学习训练推理能力,成本远低于 o1
  • 推理 vs 直觉:LLM 真的在"思考"还是在模拟思考的模式?

七、全球大模型竞赛

美国

  • OpenAI:GPT 系列,商业化最成功
  • Anthropic:Claude 系列,安全优先
  • Google:Gemini 系列,搜索 + AI 整合
  • Meta:LLaMA 系列,开源路线

中国

  • 百度文心一言:中国最早发布的大模型产品
  • 阿里通义千问:开源最积极的中国大模型
  • 智谱 ChatGLM:清华系,学术界广泛使用
  • DeepSeek:低成本高性能,R1 模型全球震动
  • 月之暗面 Kimi:长上下文能力突出
  • MiniMax:多模态和语音交互
  • 字节跳动豆包:用户规模增长最快

欧洲

  • Mistral(法国):小团队高效率的典范

八、LLM 的局限与批评

  • 幻觉(Hallucination):自信地编造事实
  • 推理的脆弱性:换个说法就可能出错
  • 数据污染:训练数据的版权争议
  • 能耗与环境成本
  • 杨立昆的批评:"LLM 永远无法达到人类智能"
  • LLM 是通往 AGI 的路还是歧途?

九、LLM 的应用生态

  • AI 编程助手:GitHub Copilot、Cursor、Claude Code
  • AI 搜索:Perplexity、SearchGPT
  • AI Agent:从对话到自主行动
  • RAG(检索增强生成):让 LLM 接入外部知识
  • 企业级应用:客服、文档处理、代码审查

参考资料

待补充