李飞飞划分世界模型三大功能，模拟器瓶颈如何被业界加速攻破？

BigNews 06.04 18:48

李飞飞在2026年6月4日发布的最新长文中，首次系统性地将混乱的“世界模型”概念划分为渲染器、模拟器、规划器三大功能，并明确指出模拟器是连接虚拟与现实的关键枢纽，但目前面临数据匮乏与物理精度不足的“瓶颈”；业界正通过统一模型架构（如World Labs的Marble）、开源具身数据生成（如极佳视界的GigaWorld）、以及利用海量单目视频训练（如NeoVerse）等路径加速攻破这一难题。

一、三大功能分类：李飞飞如何厘清“世界模型”？

李飞飞与World Labs团队在2026年6月发布的长文中指出，当前被统称为“世界模型”的技术，实质上是智能体闭环（主体→行动→状态→观察）的三类不同投射。

功能分类	核心定义	核心输出	典型代表	当前状态
渲染器	输出供人眼观测的像素，追求视觉逼真度	像素（观测）	Sora、Google Genie 3、World Labs的RTFM	商业化最成熟，但物理常失真，“椅子穿过桌子”等硬伤频现
模拟器	输出可计算、可交互的状态，保证几何、物理与动态一致性	状态（结构）	物理引擎、仿真环境	公众关注最少，但李飞飞认为“影响最为深远”；作为结构性骨架，既能派生视觉外观，也能推演行动后果
规划器	根据观测与目标，输出智能体的下一步行动方案	行动（动作）	VLA模型、世界行动模型	最引人遐想，但几乎所有演示仍局限于高度受限的实验室环境，与真实部署间鸿沟巨大

二、模拟器瓶颈：为何它是“物理AI的地基”但最难啃？

李飞飞强调，模拟器必须工作在几何、物理与动力学层面，其契约关乎结构而非视觉。当前面临的核心瓶颈包括： 1. 数据资源极度匮乏：渲染器坐拥海量互联网视频数据，而模拟器与规划器面临3D资产与机器人演示数据的严重匮乏。 2. 物理规则模拟精度不足：多物理场模拟计算成本极高，从仿真到现实的迁移（Sim-to-Real）鸿沟依然巨大，导致AI在真实环境中“露馅”。 3. 扩展性受限：传统4D世界模型训练依赖成对的、时间同步的多视角视频，数据获取成本极高，阻碍了向海量开放场景数据的扩展。

三、业界加速攻破路径：从“画皮”到“造骨”

业界正从多个技术路线同步发力，试图攻克模拟器瓶颈：

3.1 统一模型架构：渲染器与模拟器的深度融合

World Labs的Marble：在输出高斯泼溅（渲染）的同时，同步输出碰撞网格（模拟），试图将“好看”与“物理正确”统一到一个模型里，使生成的3D世界兼具视觉真实性与可编辑、可交互的结构性。

李飞飞团队的RTFM：一种实时生成式世界模型，在单卡H100上运行，不依赖显式3D表示，通过从海量视频中端到端学习，自动建模3D几何、反射与阴影，实现持久且3D一致的实时渲染。

3.2 数据突破：利用海量单目视频替代昂贵多视角数据

中科院与CreateAI的NeoVerse：彻底抛弃昂贵的多视角数据，首次利用100万段开放场景单目视频进行大规模训练，将互联网上最丰富的资源直接转化为模拟器训练数据，打破了数据获取的规模壁垒。

3.3 算法与工程协同：提升物理预测精度与训练效率

国产具身世界模型GigaWorld（极佳视界）：通过世界模型生成高保真、可控、多样化的具身交互数据，使生成数据在VLA训练中的占比提升至90%。训练出的VLA模型在新纹理、新视角、新物体位置等泛化维度上性能提升近300%，有效突破真机数据不足的瓶颈。

工程优化：针对模拟器计算成本高的问题，李飞飞团队通过“上下文切换”等机制，只调取需要的空间片段帧，使系统保持轻量级推理。

四、终局愿景与当前挑战

李飞飞指出，当前领域最重要的趋势是三大类别正逐渐融为一体。逻辑终点是建立一个统一的世界基础模型，它能在渲染、模拟和规划三种输出模态间自由切换，根据下游需求（如建筑师、机器人、游戏开发者）灵活适配。

然而，通往这一终局的挑战依然显著： 1. 数据分布不均：模拟器与规划器依赖的3D资产和机器人交互数据，相比互联网文本和视频，在规模和质量上仍有数量级差距。 2. 计算成本：多物理场模拟与大规模3D世界模型的训练算力需求极高，远超当前大语言模型。 3. 物理准确性：如何在追求高保真视觉的同时，确保隐式或显式表征下的物理规律（如重力、碰撞、流体动力学）绝对精确，仍是核心难题。 (以上内容均由AI生成)