书 · 世界模型

杨立昆说："大语言模型永远不可能达到人类智能，因为它们只学会了语言，没有学会世界。"世界模型是对 LLM 路线最根本的挑战。

待完善

本章节尚待撰写，欢迎参与贡献。

大纲

一、什么是世界模型

核心思想：AI 不应该只预测下一个 token，而应该在内部构建一个对物理世界的"心智模型"
与 LLM 的根本区别：语言模型学习文本分布，世界模型学习因果和物理规律
人类认知的类比：婴儿在学会语言之前就已经理解重力、物体持久性

二、理论源头

内部模型（Internal Model）：控制论中的概念
预测编码（Predictive Coding）：大脑不断预测感官输入，用预测误差驱动学习
哈（David Ha）和施密德胡贝的"World Models"论文（2018）：在梦境中训练 agent
杨立昆的 JEPA（Joint Embedding Predictive Architecture）：不预测像素，预测抽象表示

三、杨立昆 vs LLM 路线：核心辩论

杨立昆的立场：LLM 是"自回归在像素/token 空间的曲线拟合"，无法理解因果
反对者的立场：LLM 的涌现能力已经表现出某种"世界理解"
规模定律之争：更大的模型能涌现出世界理解，还是只是更好的统计拟合？
这场辩论的意义：决定了 AI 下一个十年的研究方向

四、视频生成即世界模拟

Sora（OpenAI, 2024）：文本生成视频，被称为"世界模拟器"
Sora 是世界模型吗？它能预测物理过程，但也会犯物理常识错误
可灵（Kling）、Runway Gen-3：视频生成领域的中国和全球玩家
从生成视频到模拟物理：这条路能走多远？

五、游戏与虚拟世界中的世界模型

GameNGen（Google, 2024）：用扩散模型实时生成游戏画面
Genie（DeepMind）：从视频学习可交互的虚拟世界
NVIDIA Cosmos：面向物理 AI 的世界基础模型平台

六、世界模型与 AGI

杨立昆的 AGI 路线图：世界模型 + 目标驱动 AI
世界模型是具身智能的理论基础
开放问题：如何评估一个世界模型是否真正"理解"了世界？

参考资料

待补充