新浪新闻

VLA模型与世界模型路线之争,谁将主导具身智能的技术突破?

BigNews 2025.12.17 07:57

一、路线本质与核心分歧

VLA模型(视觉-语言-行动):

数据驱动:通过海量真实驾驶数据(如摄像头画面、控制信号)训练端到端模型,直接将感知映射到行动。理想汽车将其定义为“生成式模型”,输出轨迹和控制信号。

优势:依赖车企百万级车辆的真实数据闭环(如理想拥有150万辆车、10亿公里数据),能快速迭代拟人化驾驶行为。

局限:过度依赖数据质量,难以解决无限长尾场景;语言模块(L)可能成为信息瓶颈,导致效率损失(如小鹏、华为选择去掉L,转向VA模型)。

世界模型:

物理规律建模:让AI在虚拟环境中预测未来状态(如物体运动轨迹),再生成行动策略,强调对时空因果关系的理解。蔚来将其定位为“高带宽认知系统”,超越语言模型的局限性。

优势:通过仿真生成海量场景数据,降低对真实数据的依赖;具备长时序规划和泛化能力,适合复杂决策。

局限:算力需求极高(需千亿级算力支持),实时推理难落地;技术成熟度低,仿真与现实的差距(Sim-to-Real Gap)尚未完全解决。

二、主导权之争:车企派 vs 机器人派

车企派(VLA路线):

代表企业:理想、小鹏(第二代VLA)、华为(WA模型)。

核心逻辑:掌握真实数据是王道。车企通过量产车收集的驾驶数据具有不可复制的规模优势,可快速优化模型体验。例如小鹏用3万卡算力训练无语言转译的VLA,实现5天全链路迭代。

进展:用户反馈显示VLA已涌现拟人化行为(如非严格居中行驶),接近人类驾驶水平。

机器人派(世界模型路线):

代表企业:蔚来、宇树科技、谷歌DeepMind。

核心逻辑:架构决定上限。宇树CEO王兴兴批评VLA是“傻瓜式架构”,依赖数据难以突破临界点;世界模型通过视频预测实现跨任务迁移,更适合开放场景。

进展:蔚来世界模型实现停车场自主寻路;谷歌Genie3可生成720p一致性视频,助力训练。

三、融合趋势:技术互补与产业实践

架构融合:

地平线提出“VLA with World Model”分阶段演进,短期用VLA优化体验,长期引入世界模型提升泛化能力。

小鹏第二代VLA虽保留名称,实际架构已贴近世界模型,通过物理AI实现视觉到行动的端到端映射。

数据协同:

世界模型为VLA提供高效数据生成。例如极佳视界开源GigaWorld-0,用世界模型生成90%训练数据,使VLA性能提升300%。

车企用世界模型做云端仿真测试(如理想),弥补车端算力不足。

四、谁将主导?短期分化,长期协同

短期:具备数据闭环的车企(如理想、小鹏)在自动驾驶落地占优;机器人公司则通过世界模型突破工业场景泛化瓶颈。

长期:

系统能力决胜:具身智能需感知、芯片、本体全栈协同(如理想强调底盘与大脑配合),单一模型无法独立支撑。

政策驱动融合:北京AI白皮书明确世界模型提升泛化能力,上海规划500亿具身智能产业,推动算力、语料等资源整合。

风险提示:当前争论部分源于企业对自身路线的商业化背书(如车企强调数据壁垒,机器人公司突出架构创新),实际技术边界逐渐模糊,需警惕过度宣传。 (以上内容均由AI生成)

加载中...