书 · 具身智能与机器人

如果 AI 只存在于屏幕之后，它永远无法真正理解这个世界。具身智能的追求是让 AI 拥有身体，在物理世界中感知、行动和学习。

待完善

本章节尚待撰写，欢迎参与贡献。

大纲

一、早期机器人（1960s-1990s）

Shakey（1966，斯坦福）：第一个能"推理"自身行动的移动机器人
布鲁克斯（Rodney Brooks）的行为主义机器人：抛弃符号推理，直接感知-行动
《大象不下棋》（Elephants Don't Play Chess, 1990）：对传统 AI 的挑战
工业机器人的兴起：从汽车工厂到电子制造

二、波士顿动力与运动控制

Boston Dynamics：从 MIT 分支出来
BigDog、Atlas、Spot：从军用到商用
运动控制的突破：从手工编程到强化学习控制
波士顿动力的商业化困境：技术惊艳但商业模式不清

三、深度学习进入机器人（2015-2022）

端到端学习：从传感器输入直接到运动控制
模仿学习（Imitation Learning）：通过观察人类演示学习操作
Sim-to-Real：在仿真环境训练，迁移到真实世界
灵巧操作（Dexterous Manipulation）：OpenAI 用强化学习训练机械手解魔方

四、大模型 + 机器人：具身智能新范式（2023-）

大语言模型作为机器人的"大脑"：理解指令、规划任务、调用技能
VLA 模型（Vision-Language-Action）：具身智能的核心架构
- 核心思想：一个模型同时处理视觉输入、语言指令，直接输出机器人动作
- RT-1（Google, 2022）：大规模机器人数据训练的 Transformer
- RT-2（Google, 2023）：视觉-语言模型直接生成机器人动作指令
- Octo（UC Berkeley, 2024）：开源的通用机器人策略模型
- π₀（Physical Intelligence, 2024）：通用机器人基础模型，融资 4 亿美元
- GR-2（字节跳动）：基于视频生成的世界模型驱动机器人
VLA 的意义：从"感知-规划-执行"的流水线架构到端到端统一模型
VLA vs 传统机器人：不再需要手工设计每个技能，一个模型通吃
Figure 01/02：人形机器人 + OpenAI 大模型集成
1X Technologies：OpenAI 投资的人形机器人公司

五、中国具身智能浪潮

优必选（UBTECH）：中国人形机器人第一股，Walker 系列
小米 CyberOne / CyberDog
傅利叶智能（Fourier Intelligence）：通用人形机器人 GR 系列
宇树科技（Unitree）：四足/人形机器人，B 站爆款
智元机器人（Agibot）：稚晖君创立
银河通用（Galbot）
具身智能成为中国 AI 投资最热赛道（2024-2025）

六、人形机器人之争

为什么是人形？人类环境为人类身体设计，人形机器人适配性最高
Tesla Optimus：马斯克的人形机器人野心
Figure：硅谷明星创业公司，融资最快的机器人公司
人形 vs 专用形态：不是所有任务都需要人形
成本挑战：从百万美元到消费级还有多远？

七、开放问题

具身智能需要世界模型吗？
仿真到真实的鸿沟（Sim-to-Real Gap）能否完全弥合？
安全性：当机器人进入家庭和工厂
通用机器人（General-Purpose Robot）还有多远？

参考资料

待补充