VLA与世界模型之争,哪种技术路线能真正突破具身智能的泛化瓶颈?
当前自动驾驶与具身智能领域最激烈的技术路线之争,莫过于VLA(视觉-语言-动作)模型与世界模型的博弈,两者能否突破泛化瓶颈的核心分歧在于——VLA依赖语言转译的“低带宽认知”能否承载物理世界的复杂性,而世界模型能否以“高带宽时空推演”跨越数据依赖的天堑。
一、技术本质分歧:语言抽象 vs 物理规律建模
VLA的局限:语言转译的效率瓶颈
VLA以语言模型为基座,需将视觉信息转为语言token再输出动作(如“红灯→刹车”),导致关键信息丢失和决策延迟。例如小鹏指出,传统VLA在紧急场景下需1秒转译,而车辆已滑行16米。华为认为这是“看似取巧的捷径”,语言带宽无法承载物理世界的连续变化(如车辆间距、行人姿态的毫秒级差异)。
过度依赖高质量数据:VLA需海量标注数据训练,但现实中长尾场景(如暴雨中模糊路标)难以覆盖。宇树科技王兴兴批评其为“傻瓜式架构”,缺乏跨任务泛化能力。
世界模型的优势:直接学习物理规律
时空建模能力:世界模型通过视频预测自建物理规则(如重力、惯性),直接输出动作。蔚来的世界模型可生成千万仿真场景,解决数据稀缺问题,在新材质、新视角等泛化场景中性能提升300%。
长时序决策能力:华为WEWA模型、蔚来NWM能在30秒级场景中预判决策(如提前变道避让施工区),而非VLA的短时反应。
二、落地瓶颈:算力、数据与工程化的博弈
| 技术路线 | 优势 | 核心瓶颈 | 代表厂商实践 |
|---|---|---|---|
| VLA | • 工程化快,易量产 • 语言接口适配人机交互 | • 数据依赖性强 • 语言转译效率低 | 理想:依托150万车数据闭环,优化拟人驾驶 小鹏:移除“L”做纯VA模型,降低延迟 |
| 世界模型 | • 物理规则泛化性强 • 降低标注数据需求 | • 车端算力要求高(需千TOPS级) • 仿真到现实的迁移难题 | 华为:WA模型直接视觉控车,无需语言中介 蔚来:云端训练+车端轻量化部署 |
理想的反驳:郎咸朋指出,世界模型的算力需求(需E级FLOPS)注定其更适合云端仿真训练,而非车端实时决策。
融合趋势显现:小鹏VLA 2.0引入物理世界模型生成训练数据,地平线预测“VLA→VLA+世界模型→潜认知模型”是演进方向。
三、终极方向:泛化能力取决于架构与数据的协同
架构融合是必然
纯VLA受限于语言带宽,纯世界模型受制于车端算力,“云端世界模型+车端蒸馏VLA” 成为平衡方案:小鹏72B参数云端大模型蒸馏到车端,提升泛化性;华为用世界模型合成90%训练数据,降低真机数据成本。
小米MiMo-Embodied验证跨领域协同:家居与驾驶场景的知识迁移提升泛化效率。
数据闭环决定天花板
车企数据优势碾压机器人公司:理想150万车主每日生成数亿公里真实路况,而机器人公司依赖采集车数据(分布偏差大)。
仿真与现实的鸿沟:清华孙富春指出,世界模型需建立“物理数字孪生系统”(如质量、摩擦系数建模),否则仿真策略无法泛化到现实。
结论:短期VLA量产、长期世界模型主导,泛化突破依赖架构创新
短期(2025-2027):VLA凭借工程便利性主导量产车(理想、小鹏),但需通过“去语言化”(如VA架构)和强化学习优化泛化瓶颈。
长期(2028+):世界模型将成L4以上核心引擎,其时空建模能力更契合具身智能的“物理作业本质”。
关键胜负手:
谁先实现高保真物理仿真到现实的低成本迁移(如蔚来的生成式仿真);
谁构建车端-云端协同的算力体系(如小鹏自研芯片+3万卡集群);
谁掌握多模态闭环数据生态(理想的车主数据、华为的跨品牌车队)。