Skip to content

书 · 世界模型

杨立昆说:"大语言模型永远不可能达到人类智能,因为它们只学会了语言,没有学会世界。"世界模型是对 LLM 路线最根本的挑战。

待完善

本章节尚待撰写,欢迎参与贡献

大纲

一、什么是世界模型

  • 核心思想:AI 不应该只预测下一个 token,而应该在内部构建一个对物理世界的"心智模型"
  • 与 LLM 的根本区别:语言模型学习文本分布,世界模型学习因果和物理规律
  • 人类认知的类比:婴儿在学会语言之前就已经理解重力、物体持久性

二、理论源头

  • 内部模型(Internal Model):控制论中的概念
  • 预测编码(Predictive Coding):大脑不断预测感官输入,用预测误差驱动学习
  • 哈(David Ha)和施密德胡贝的"World Models"论文(2018):在梦境中训练 agent
  • 杨立昆的 JEPA(Joint Embedding Predictive Architecture):不预测像素,预测抽象表示

三、杨立昆 vs LLM 路线:核心辩论

  • 杨立昆的立场:LLM 是"自回归在像素/token 空间的曲线拟合",无法理解因果
  • 反对者的立场:LLM 的涌现能力已经表现出某种"世界理解"
  • 规模定律之争:更大的模型能涌现出世界理解,还是只是更好的统计拟合?
  • 这场辩论的意义:决定了 AI 下一个十年的研究方向

四、视频生成即世界模拟

  • Sora(OpenAI, 2024):文本生成视频,被称为"世界模拟器"
  • Sora 是世界模型吗?它能预测物理过程,但也会犯物理常识错误
  • 可灵(Kling)、Runway Gen-3:视频生成领域的中国和全球玩家
  • 从生成视频到模拟物理:这条路能走多远?

五、游戏与虚拟世界中的世界模型

  • GameNGen(Google, 2024):用扩散模型实时生成游戏画面
  • Genie(DeepMind):从视频学习可交互的虚拟世界
  • NVIDIA Cosmos:面向物理 AI 的世界基础模型平台

六、世界模型与 AGI

  • 杨立昆的 AGI 路线图:世界模型 + 目标驱动 AI
  • 世界模型是具身智能的理论基础
  • 开放问题:如何评估一个世界模型是否真正"理解"了世界?

参考资料

待补充