新浪新闻

机器人从视频中学动作,零样本学习如何突破传统训练瓶颈?

BigNews 2025.12.06 18:41

当机器人仅凭观看人类视频就能自主学会李小龙式回旋踢、跨越障碍甚至泡咖啡时,零样本学习技术正在撕裂传统机器人训练的「数据牢笼」,让机器从「硬编码傀儡」蜕变为「视觉驱动的行动者」。

一、突破传统瓶颈的核心路径

数据获取的革命:从动捕设备到自然视频

传统依赖高成本动作捕捉(如穿戴式传感器)和专业编程,而零样本学习直接解析海量互联网视频(如李小龙功夫片、家庭生活录像)。例如特斯拉Optimus通过头盔摄像头采集人类多角度视频,无需预编程即可学习精细动作;智元「灵创平台」让用户用手机拍摄舞蹈视频即可训练机器人复刻动作。

突破点:数据采集成本降低百倍(如Sunday Robotics用200美元手套替代2万美元动捕设备),且覆盖场景更贴近现实。

训练范式的重构:从任务特训到通用能力迁移

传统方法需针对每个动作单独训练(如行走、抓取分开建模),而新框架通过预训练实现跨任务泛化:

Go-Big项目用500+家庭场景视频预训练机器人,使其在陌生环境听懂「打开冰箱」等指令并自主规划动作;

UC伯克利VideoMimic系统仅需单段视频,即可让机器人学会爬楼梯、避障等100多项技能。

突破点:模型从「刷题式学习」转向「举一反三」,解决环境突变导致的动作崩溃问题(如清华BFM-Zero模型抗干扰能力提升)。

物理世界的建模:从像素映射到动力学仿真

单纯复制视频动作易因物理规则不符失败,新技术将视觉生成与物理引擎深度耦合:

DeepMind的PhysWorld框架通过视频生成4D时空模型(含质量、摩擦系数),引导机器人学习符合动力学的动作轨迹,成功率提升15%;

LeVERB系统结合视觉语言模型理解指令(如「坐在箱子上」),再通过物理模拟生成全身控制信号。 #机器人看视频就能学动作##UC伯克利新

二、关键技术突破案例

模仿学习的升级:从姿态复制到语义理解

VideoMimic提取视频中的姿态点云数据,在仿真环境训练后迁移至实体机器人,实现跨形态动作迁移(人→机器狗);

Figure的Helix模型融合导航与操作,让机器人理解「去厨房倒水」等复合指令。

强化学习的进化:人类指导 + 自主练习

Physical Intelligence提出Recap三阶段训练:人类示范 → 实时纠错 → 自主强化学习,使咖啡制作成功率突破90%;

字节跳动GR-RL模型通过真机强化学习,将穿鞋带任务成功率从45.7%提升至83.3%。

无数据训练的颠覆:物理世界即训练场

哥伦比亚大学研发自观测系统:机器人通过2D摄像头观察自身运动,建立运动学模型,受损后可自主调整动作;

ACT-1模型从零机器人数据起步,通过人类手套动作直接转换控制信号。

三、产业落地与未来挑战

规模化应用加速

国内最大人形机器人训练场(北京石景山)年产出数百万条数据,推动保姆机器人成本五年内降至5万元;

特斯拉Optimus计划2026年量产,目标2030年达百万台。

待突破的瓶颈

泛化天花板:当前模型在未训练场景中成功率仍受限(如LeVERB整体成功率58.5%);

物理误差累积:微小执行偏差在长程任务中可能导致失败;

伦理风险:大规模人类行为数据采集引发隐私争议。

零样本学习正推动机器人从「实验室特技演员」迈向「现实世界通用助手」。随着视频生成模型(如Veo3的帧链理论)与物理仿真的深度融合,未来机器人或将通过观看教学视频自学弹钢琴、护理老人——这场「视觉启蒙运动」才刚刚开始。 (以上内容均由AI生成)

加载中...