新浪新闻

李飞飞团队重构世界模型三大支柱各方观点

BigNews

关注
观点:

观点组1: 空间智能是AI从语言中心范式转向物理世界交互范式的根本性跃迁,标志着人工智能进化路径的校正。
观点作者:李飞飞
观点内容:人类智能的进化始于在三维环境中的生存与移动,而非语言;过去两年的大语言模型热潮是一种‘倒置的进化’;空间智能不是LLM的增强模块,而是全新的智能范式——它要求AI建立‘大世界模型’,具备三维重建、物理特性模拟和长程预测能力,这才是让机器真正‘理解’而非‘描述’世界的唯一路径。


观点作者:作者
观点内容:从ImageNet到世界模型,李飞飞的每一步都在推动AI的边界;她指出当前AI像柏拉图洞穴里的图像,从未触碰过真实的实体;World Labs集结图形学、视觉、推理领域顶尖专家,旨在为AI补上空间智能这块最关键的拼图——这不仅是技术升级,更是对AI发展哲学的根本反思:智能必须根植于与物理世界的闭环交互。


观点作者:《Agent AI:交互式智能系统的地平线》报告
观点内容:AI的下一个前沿不在于如何更优雅地遣词造句,而在于如何让机器像人类一样感知、推理并干预物理世界;报告将空间智能定义为Agent AI的‘进化基石’,强调其本质是重建智能体与现实之间的POMDP闭环——从被动识别转向主动建模、预测与干预,从而终结‘能言善辩的瞎子’时代。


观点组2: 世界模型的未来在于渲染、模拟、规划三类功能的深度融合,统一于对世界底层结构的联合建模。
观点作者:李飞飞
观点内容:如果一个模型真正理解杯子如何放在桌上——包括几何结构、材料属性、接触力分布与动态响应——它就应能从任意角度渲染该场景、模拟推桌后杯子的运动轨迹、并规划机械臂的抓取路径;三类能力实为同一套世界知识的三种投影;Marble同步输出Gaussian splats(渲染)与碰撞网格(模拟),正是迈向‘统一世界基础模型’的关键一步:按需切换功能,而非割裂构建。


观点作者:Tesla
观点内容:Optimus计划的本质是将FSD的时空理解能力从二维道路扩展到三维物理空间;我们通过Dojo集群训练的不仅是视觉识别模型,更是能预测物体运动、评估支撑稳定性、计算关节扭矩的隐式世界模型;这种跨模态、跨任务的知识复用,验证了统一表征架构在真实复杂场景中的必要性与可行性。


观点作者:宇树科技
观点内容:G1人形机器人以不足1.5万美元的成本实现稳定行走与简单操作,其底层依赖的正是轻量化但物理一致的世界模型——它不追求电影级渲染,却必须精确建模足底摩擦、重心转移与关节动力学;低成本硬件的爆发恰恰倒逼世界模型向‘小而精、实而准’演进,加速渲染-模拟-规划的收敛。


观点组3: 世界模型的商业化成功关键在于打通‘生成—交互—部署’全链路,使AI产出从演示素材升级为工业可用资产。
观点作者:李飞飞
观点内容:Marble平台实现了从理解到创造、从静态生成到动态迭代、从孤立工具到融入管线的三大跨越;它支持标准化工业格式和主流引擎,产出的不再是只能看的‘demo’,而是能直接用于设计、仿真和制造的‘素材’与‘资产’;这种原生编辑能力和工程级兼容性,才是资本市场将World Labs估值从10亿推至50亿美元的核心依据。


观点作者:NVIDIA
观点内容:Project GR00T与Isaac Sim构成的仿真基础设施,使机器人能在虚拟世界中完成‘万亿次’跌倒与尝试后再迁移至实体;这种‘虚拟先行’范式大幅压缩开发周期与成本,证明世界模型的价值不仅在于生成能力,更在于能否成为连接AI研发与物理世界部署的可信桥梁——Omniverse正是为此而生的工业级世界模型操作系统。


观点作者:AMD
观点内容:我们与World Labs合作优化Marble在AMD硬件上的性能,目标是让高保真3D世界生成能力下沉至边缘端和嵌入式场景;这表明世界模型的落地已超越云端演示阶段,正进入对实时性、功耗和兼容性有严苛要求的工业现场,其技术成熟度必须满足‘一次生成、多次编辑、无缝集成、即插即用’的产线标准。


观点组4: 世界模型的核心价值在于构建具备物理一致性的空间智能,而非仅追求视觉逼真度。
观点作者:李飞飞
观点内容:当今AI是个偏科生,它能妙笔生花,却让机器人去厨房拿个杯子都可能闯祸——因为它读了万卷书,却从未活在真实世界,不懂重力,不知物体背后什么样;LLM是‘黑暗中的文字匠’,缺乏对物理世界的‘根基’理解,而世界模型必须在几何、物理和语义规律上可推理、可交互,才能真正支撑具身智能。


观点作者:李飞飞
观点内容:渲染器输出像素(观测),模拟器输出状态,规划器输出动作;三者中模拟器最被低估却最关键——它是连接渲染与规划的枢纽,因为只有在几何、物理和动力学层面建模的状态,才能同时支撑高保真可视化与安全可靠的机器人行动;World Labs的Marble正致力于统一渲染与模拟,但真正的突破在于让AI理解‘杯子放在桌上’所蕴含的全部物理约束,而非仅生成好看画面。


观点作者:参与《Agent AI:交互式智能系统的地平线》报告起草的资深研究员
观点内容:如果你不能理解物体在空间中的位置、重力对它的影响以及它与周围环境的因果关系,你就不可能拥有真正的智能;Agent AI的首要支柱是感知与认知的‘物理对齐’,即让AI模型的内部表征严格服从物理定律,而非依赖统计相关性,这是从Copilot迈向自主具身智能不可绕过的进化基石。


加载中...