新浪新闻

李飞飞划分世界模型三大功能,模拟器瓶颈如何被业界加速攻破?

BigNews

关注

李飞飞在2026年6月4日发布的最新长文中,首次系统性地将混乱的“世界模型”概念划分为渲染器、模拟器、规划器三大功能,并明确指出模拟器是连接虚拟与现实的关键枢纽,但目前面临数据匮乏与物理精度不足的“瓶颈”;业界正通过统一模型架构(如World Labs的Marble)、开源具身数据生成(如极佳视界的GigaWorld)、以及利用海量单目视频训练(如NeoVerse)等路径加速攻破这一难题。

一、三大功能分类:李飞飞如何厘清“世界模型”?

李飞飞与World Labs团队在2026年6月发布的长文中指出,当前被统称为“世界模型”的技术,实质上是智能体闭环(主体→行动→状态→观察)的三类不同投射。

功能分类 核心定义 核心输出 典型代表 当前状态
渲染器 输出供人眼观测的像素,追求视觉逼真度 像素(观测) Sora、Google Genie 3、World Labs的RTFM 商业化最成熟,但物理常失真,“椅子穿过桌子”等硬伤频现
模拟器 输出可计算、可交互的状态,保证几何、物理与动态一致性 状态(结构) 物理引擎、仿真环境 公众关注最少,但李飞飞认为“影响最为深远”;作为结构性骨架,既能派生视觉外观,也能推演行动后果
规划器 根据观测与目标,输出智能体的下一步行动方案 行动(动作) VLA模型、世界行动模型 最引人遐想,但几乎所有演示仍局限于高度受限的实验室环境,与真实部署间鸿沟巨大

二、模拟器瓶颈:为何它是“物理AI的地基”但最难啃?

李飞飞强调,模拟器必须工作在几何、物理与动力学层面,其契约关乎结构而非视觉。当前面临的核心瓶颈包括: 1. 数据资源极度匮乏:渲染器坐拥海量互联网视频数据,而模拟器与规划器面临3D资产与机器人演示数据的严重匮乏。 2. 物理规则模拟精度不足:多物理场模拟计算成本极高,从仿真到现实的迁移(Sim-to-Real)鸿沟依然巨大,导致AI在真实环境中“露馅”。 3. 扩展性受限:传统4D世界模型训练依赖成对的、时间同步的多视角视频,数据获取成本极高,阻碍了向海量开放场景数据的扩展。

三、业界加速攻破路径:从“画皮”到“造骨”

业界正从多个技术路线同步发力,试图攻克模拟器瓶颈:

3.1 统一模型架构:渲染器与模拟器的深度融合

World Labs的Marble:在输出高斯泼溅(渲染)的同时,同步输出碰撞网格(模拟),试图将“好看”与“物理正确”统一到一个模型里,使生成的3D世界兼具视觉真实性与可编辑、可交互的结构性。

李飞飞团队的RTFM:一种实时生成式世界模型,在单卡H100上运行,不依赖显式3D表示,通过从海量视频中端到端学习,自动建模3D几何、反射与阴影,实现持久且3D一致的实时渲染。

3.2 数据突破:利用海量单目视频替代昂贵多视角数据

中科院与CreateAI的NeoVerse:彻底抛弃昂贵的多视角数据,首次利用100万段开放场景单目视频进行大规模训练,将互联网上最丰富的资源直接转化为模拟器训练数据,打破了数据获取的规模壁垒。

3.3 算法与工程协同:提升物理预测精度与训练效率

国产具身世界模型GigaWorld(极佳视界):通过世界模型生成高保真、可控、多样化的具身交互数据,使生成数据在VLA训练中的占比提升至90%。训练出的VLA模型在新纹理、新视角、新物体位置等泛化维度上性能提升近300%,有效突破真机数据不足的瓶颈。

工程优化:针对模拟器计算成本高的问题,李飞飞团队通过“上下文切换”等机制,只调取需要的空间片段帧,使系统保持轻量级推理。

四、终局愿景与当前挑战

李飞飞指出,当前领域最重要的趋势是三大类别正逐渐融为一体。逻辑终点是建立一个统一的世界基础模型,它能在渲染、模拟和规划三种输出模态间自由切换,根据下游需求(如建筑师、机器人、游戏开发者)灵活适配。

然而,通往这一终局的挑战依然显著: 1. 数据分布不均:模拟器与规划器依赖的3D资产和机器人交互数据,相比互联网文本和视频,在规模和质量上仍有数量级差距。 2. 计算成本:多物理场模拟与大规模3D世界模型的训练算力需求极高,远超当前大语言模型。 3. 物理准确性:如何在追求高保真视觉的同时,确保隐式或显式表征下的物理规律(如重力、碰撞、流体动力学)绝对精确,仍是核心难题。 (以上内容均由AI生成)

加载中...