书 · 世界模型
杨立昆说:"大语言模型永远不可能达到人类智能,因为它们只学会了语言,没有学会世界。"世界模型是对 LLM 路线最根本的挑战。
待完善
本章节尚待撰写,欢迎参与贡献。
大纲
一、什么是世界模型
- 核心思想:AI 不应该只预测下一个 token,而应该在内部构建一个对物理世界的"心智模型"
- 与 LLM 的根本区别:语言模型学习文本分布,世界模型学习因果和物理规律
- 人类认知的类比:婴儿在学会语言之前就已经理解重力、物体持久性
二、理论源头
- 内部模型(Internal Model):控制论中的概念
- 预测编码(Predictive Coding):大脑不断预测感官输入,用预测误差驱动学习
- 哈(David Ha)和施密德胡贝的"World Models"论文(2018):在梦境中训练 agent
- 杨立昆的 JEPA(Joint Embedding Predictive Architecture):不预测像素,预测抽象表示
三、杨立昆 vs LLM 路线:核心辩论
- 杨立昆的立场:LLM 是"自回归在像素/token 空间的曲线拟合",无法理解因果
- 反对者的立场:LLM 的涌现能力已经表现出某种"世界理解"
- 规模定律之争:更大的模型能涌现出世界理解,还是只是更好的统计拟合?
- 这场辩论的意义:决定了 AI 下一个十年的研究方向
四、视频生成即世界模拟
- Sora(OpenAI, 2024):文本生成视频,被称为"世界模拟器"
- Sora 是世界模型吗?它能预测物理过程,但也会犯物理常识错误
- 可灵(Kling)、Runway Gen-3:视频生成领域的中国和全球玩家
- 从生成视频到模拟物理:这条路能走多远?
五、游戏与虚拟世界中的世界模型
- GameNGen(Google, 2024):用扩散模型实时生成游戏画面
- Genie(DeepMind):从视频学习可交互的虚拟世界
- NVIDIA Cosmos:面向物理 AI 的世界基础模型平台
六、世界模型与 AGI
- 杨立昆的 AGI 路线图:世界模型 + 目标驱动 AI
- 世界模型是具身智能的理论基础
- 开放问题:如何评估一个世界模型是否真正"理解"了世界?
参考资料
待补充