书 · 具身智能与机器人
如果 AI 只存在于屏幕之后,它永远无法真正理解这个世界。具身智能的追求是让 AI 拥有身体,在物理世界中感知、行动和学习。
待完善
本章节尚待撰写,欢迎参与贡献。
大纲
一、早期机器人(1960s-1990s)
- Shakey(1966,斯坦福):第一个能"推理"自身行动的移动机器人
- 布鲁克斯(Rodney Brooks)的行为主义机器人:抛弃符号推理,直接感知-行动
- 《大象不下棋》(Elephants Don't Play Chess, 1990):对传统 AI 的挑战
- 工业机器人的兴起:从汽车工厂到电子制造
二、波士顿动力与运动控制
- Boston Dynamics:从 MIT 分支出来
- BigDog、Atlas、Spot:从军用到商用
- 运动控制的突破:从手工编程到强化学习控制
- 波士顿动力的商业化困境:技术惊艳但商业模式不清
三、深度学习进入机器人(2015-2022)
- 端到端学习:从传感器输入直接到运动控制
- 模仿学习(Imitation Learning):通过观察人类演示学习操作
- Sim-to-Real:在仿真环境训练,迁移到真实世界
- 灵巧操作(Dexterous Manipulation):OpenAI 用强化学习训练机械手解魔方
四、大模型 + 机器人:具身智能新范式(2023-)
- 大语言模型作为机器人的"大脑":理解指令、规划任务、调用技能
- VLA 模型(Vision-Language-Action):具身智能的核心架构
- 核心思想:一个模型同时处理视觉输入、语言指令,直接输出机器人动作
- RT-1(Google, 2022):大规模机器人数据训练的 Transformer
- RT-2(Google, 2023):视觉-语言模型直接生成机器人动作指令
- Octo(UC Berkeley, 2024):开源的通用机器人策略模型
- π₀(Physical Intelligence, 2024):通用机器人基础模型,融资 4 亿美元
- GR-2(字节跳动):基于视频生成的世界模型驱动机器人
- VLA 的意义:从"感知-规划-执行"的流水线架构到端到端统一模型
- VLA vs 传统机器人:不再需要手工设计每个技能,一个模型通吃
- Figure 01/02:人形机器人 + OpenAI 大模型集成
- 1X Technologies:OpenAI 投资的人形机器人公司
五、中国具身智能浪潮
- 优必选(UBTECH):中国人形机器人第一股,Walker 系列
- 小米 CyberOne / CyberDog
- 傅利叶智能(Fourier Intelligence):通用人形机器人 GR 系列
- 宇树科技(Unitree):四足/人形机器人,B 站爆款
- 智元机器人(Agibot):稚晖君创立
- 银河通用(Galbot)
- 具身智能成为中国 AI 投资最热赛道(2024-2025)
六、人形机器人之争
- 为什么是人形?人类环境为人类身体设计,人形机器人适配性最高
- Tesla Optimus:马斯克的人形机器人野心
- Figure:硅谷明星创业公司,融资最快的机器人公司
- 人形 vs 专用形态:不是所有任务都需要人形
- 成本挑战:从百万美元到消费级还有多远?
七、开放问题
- 具身智能需要世界模型吗?
- 仿真到真实的鸿沟(Sim-to-Real Gap)能否完全弥合?
- 安全性:当机器人进入家庭和工厂
- 通用机器人(General-Purpose Robot)还有多远?
参考资料
待补充