Skip to content

书 · 具身智能与机器人

如果 AI 只存在于屏幕之后,它永远无法真正理解这个世界。具身智能的追求是让 AI 拥有身体,在物理世界中感知、行动和学习。

待完善

本章节尚待撰写,欢迎参与贡献

大纲

一、早期机器人(1960s-1990s)

  • Shakey(1966,斯坦福):第一个能"推理"自身行动的移动机器人
  • 布鲁克斯(Rodney Brooks)的行为主义机器人:抛弃符号推理,直接感知-行动
  • 《大象不下棋》(Elephants Don't Play Chess, 1990):对传统 AI 的挑战
  • 工业机器人的兴起:从汽车工厂到电子制造

二、波士顿动力与运动控制

  • Boston Dynamics:从 MIT 分支出来
  • BigDog、Atlas、Spot:从军用到商用
  • 运动控制的突破:从手工编程到强化学习控制
  • 波士顿动力的商业化困境:技术惊艳但商业模式不清

三、深度学习进入机器人(2015-2022)

  • 端到端学习:从传感器输入直接到运动控制
  • 模仿学习(Imitation Learning):通过观察人类演示学习操作
  • Sim-to-Real:在仿真环境训练,迁移到真实世界
  • 灵巧操作(Dexterous Manipulation):OpenAI 用强化学习训练机械手解魔方

四、大模型 + 机器人:具身智能新范式(2023-)

  • 大语言模型作为机器人的"大脑":理解指令、规划任务、调用技能
  • VLA 模型(Vision-Language-Action):具身智能的核心架构
    • 核心思想:一个模型同时处理视觉输入、语言指令,直接输出机器人动作
    • RT-1(Google, 2022):大规模机器人数据训练的 Transformer
    • RT-2(Google, 2023):视觉-语言模型直接生成机器人动作指令
    • Octo(UC Berkeley, 2024):开源的通用机器人策略模型
    • π₀(Physical Intelligence, 2024):通用机器人基础模型,融资 4 亿美元
    • GR-2(字节跳动):基于视频生成的世界模型驱动机器人
  • VLA 的意义:从"感知-规划-执行"的流水线架构到端到端统一模型
  • VLA vs 传统机器人:不再需要手工设计每个技能,一个模型通吃
  • Figure 01/02:人形机器人 + OpenAI 大模型集成
  • 1X Technologies:OpenAI 投资的人形机器人公司

五、中国具身智能浪潮

  • 优必选(UBTECH):中国人形机器人第一股,Walker 系列
  • 小米 CyberOne / CyberDog
  • 傅利叶智能(Fourier Intelligence):通用人形机器人 GR 系列
  • 宇树科技(Unitree):四足/人形机器人,B 站爆款
  • 智元机器人(Agibot):稚晖君创立
  • 银河通用(Galbot)
  • 具身智能成为中国 AI 投资最热赛道(2024-2025)

六、人形机器人之争

  • 为什么是人形?人类环境为人类身体设计,人形机器人适配性最高
  • Tesla Optimus:马斯克的人形机器人野心
  • Figure:硅谷明星创业公司,融资最快的机器人公司
  • 人形 vs 专用形态:不是所有任务都需要人形
  • 成本挑战:从百万美元到消费级还有多远?

七、开放问题

  • 具身智能需要世界模型吗?
  • 仿真到真实的鸿沟(Sim-to-Real Gap)能否完全弥合?
  • 安全性:当机器人进入家庭和工厂
  • 通用机器人(General-Purpose Robot)还有多远?

参考资料

待补充