新浪新闻

WA与VLA之争:谁的技术上限更高,能真正实现自动驾驶?

BigNews 2025.12.20 07:39

关于WA(世界行为模型)与VLA(视觉-语言-动作模型)的技术路线之争,核心在于两者对自动驾驶终极形态的不同实现路径,而华为、理想、小鹏等头部企业的战略选择正引发行业对安全性和上限的深度讨论。

🔍 一、技术路线的本质差异

VLA:语言中介的“拟人化”路线

通过视觉感知→语言描述→动作执行的路径,依赖语言模型(如GPT类)理解环境规则(如交通标识、交互意图),再将语义转化为车辆控制指令。

优势:交互友好(支持自然语言指令)、开发周期短(利用文本预训练降低数据成本)、短期落地快。

瓶颈:三维物理世界转一维语言时丢失细节(如冰雪路面抓地力变化),决策延迟较高(约200毫秒),极端场景依赖人工标注补足。

WA:物理世界的“直接建模”路线

跳过语言环节,直接从多模态传感器数据(视觉/雷达/声音)生成行为动作,云端构建“世界引擎”模拟极端场景训练模型。

优势:响应更快(决策延迟约100毫秒)、物理因果理解强(如急刹重心转移)、极端场景识别准确率更高(雨雾中识别静止车辆比VLA高37%)。

挑战:研发门槛高(华为年投超100亿元)、硬件成本高40%以上,中小车企难以承担。

🚀 二、技术上限与自动驾驶可行性

WA的天花板更高:

目标构建“数字孪生式驾驶系统”,通过云端生成99.999%的极端场景覆盖,目标接管率低至千公里0.1次。

华为ADS 4.0在复杂城区百公里接管0.8次,优于主流VLA的1.5次。

VLA的潜力争议:

支持者认为其语言基座具备“长思维链推理”,适合L4级复杂决策,理想宣称VLA事故率可提升至人类驾驶10倍(600万公里/次)。

反对者指出语言模型拟合人类习惯与自动驾驶“保守安全”策略矛盾,语言带宽限制对连续动态环境建模不足。

🔮 三、行业趋势:从对立走向融合

头部玩家的路线调整:

华为ADS 4.0已在WA底层结合VLA的交互层(如语音指令解释动作);小鹏第二代VLA转向融合世界模型强化物理推演;长城直接采用“VLA+世界模型”双路线。

英伟达开源Alpamayo-R1 VLA模型,推动行业协同。

终极方案的评判标准:

安全性:WA在物理一致性上更优(如华为后向激光雷达防泊车坠坑),VLA需外挂扩散模型补足几何精度。

商业化:VLA短期成本低,适合L2+过渡;WA长期可减少激光雷达依赖,但需突破算力瓶颈(车端千TOPS级需求)。

💎 四、用户最关注的实践表现

VLA体验:理想OTA 8.1提升绕行与窄路能力,语言交互透明化决策过程(如解释变道原因),但连续鬼探头场景依赖激光雷达。

WA表现:问界M7在夜间野猪碰撞测试中因多传感器融合稳定性占优,但黑盒决策逻辑降低可解释性。

⚠️ 风险提示

部分观点(如“VLA是阶段性妥协”“WA短期难盈利”)存在商业立场差异,需结合实测数据判断。当前技术均未达到L4,用户接管仍是必要保障。 (以上内容均由AI生成)

加载中...