机器人从视频中学动作，零样本学习如何突破传统训练瓶颈？

BigNews 2025.12.06 18:41

当机器人仅凭观看人类视频就能自主学会李小龙式回旋踢、跨越障碍甚至泡咖啡时，零样本学习技术正在撕裂传统机器人训练的「数据牢笼」，让机器从「硬编码傀儡」蜕变为「视觉驱动的行动者」。

一、突破传统瓶颈的核心路径

数据获取的革命：从动捕设备到自然视频

传统依赖高成本动作捕捉（如穿戴式传感器）和专业编程，而零样本学习直接解析海量互联网视频（如李小龙功夫片、家庭生活录像）。例如特斯拉Optimus通过头盔摄像头采集人类多角度视频，无需预编程即可学习精细动作；智元「灵创平台」让用户用手机拍摄舞蹈视频即可训练机器人复刻动作。

突破点：数据采集成本降低百倍（如Sunday Robotics用200美元手套替代2万美元动捕设备），且覆盖场景更贴近现实。

训练范式的重构：从任务特训到通用能力迁移

传统方法需针对每个动作单独训练（如行走、抓取分开建模），而新框架通过预训练实现跨任务泛化：

Go-Big项目用500+家庭场景视频预训练机器人，使其在陌生环境听懂「打开冰箱」等指令并自主规划动作；

UC伯克利VideoMimic系统仅需单段视频，即可让机器人学会爬楼梯、避障等100多项技能。

突破点：模型从「刷题式学习」转向「举一反三」，解决环境突变导致的动作崩溃问题（如清华BFM-Zero模型抗干扰能力提升）。

物理世界的建模：从像素映射到动力学仿真

单纯复制视频动作易因物理规则不符失败，新技术将视觉生成与物理引擎深度耦合：

DeepMind的PhysWorld框架通过视频生成4D时空模型（含质量、摩擦系数），引导机器人学习符合动力学的动作轨迹，成功率提升15%；

LeVERB系统结合视觉语言模型理解指令（如「坐在箱子上」），再通过物理模拟生成全身控制信号。 #机器人看视频就能学动作##UC伯克利新

二、关键技术突破案例

模仿学习的升级：从姿态复制到语义理解

VideoMimic提取视频中的姿态点云数据，在仿真环境训练后迁移至实体机器人，实现跨形态动作迁移（人→机器狗）；

Figure的Helix模型融合导航与操作，让机器人理解「去厨房倒水」等复合指令。

强化学习的进化：人类指导 + 自主练习

Physical Intelligence提出Recap三阶段训练：人类示范 → 实时纠错 → 自主强化学习，使咖啡制作成功率突破90%；

字节跳动GR-RL模型通过真机强化学习，将穿鞋带任务成功率从45.7%提升至83.3%。

无数据训练的颠覆：物理世界即训练场

哥伦比亚大学研发自观测系统：机器人通过2D摄像头观察自身运动，建立运动学模型，受损后可自主调整动作；

ACT-1模型从零机器人数据起步，通过人类手套动作直接转换控制信号。

三、产业落地与未来挑战

规模化应用加速

国内最大人形机器人训练场（北京石景山）年产出数百万条数据，推动保姆机器人成本五年内降至5万元；

特斯拉Optimus计划2026年量产，目标2030年达百万台。

待突破的瓶颈

泛化天花板：当前模型在未训练场景中成功率仍受限（如LeVERB整体成功率58.5%）；

物理误差累积：微小执行偏差在长程任务中可能导致失败；

伦理风险：大规模人类行为数据采集引发隐私争议。

零样本学习正推动机器人从「实验室特技演员」迈向「现实世界通用助手」。随着视频生成模型（如Veo3的帧链理论）与物理仿真的深度融合，未来机器人或将通过观看教学视频自学弹钢琴、护理老人——这场「视觉启蒙运动」才刚刚开始。 (以上内容均由AI生成)