WA与VLA之争：谁的技术上限更高，能真正实现自动驾驶？

BigNews 2025.12.20 07:39

关于WA（世界行为模型）与VLA（视觉-语言-动作模型）的技术路线之争，核心在于两者对自动驾驶终极形态的不同实现路径，而华为、理想、小鹏等头部企业的战略选择正引发行业对安全性和上限的深度讨论。

🔍 一、技术路线的本质差异

VLA：语言中介的“拟人化”路线

通过视觉感知→语言描述→动作执行的路径，依赖语言模型（如GPT类）理解环境规则（如交通标识、交互意图），再将语义转化为车辆控制指令。

优势：交互友好（支持自然语言指令）、开发周期短（利用文本预训练降低数据成本）、短期落地快。

瓶颈：三维物理世界转一维语言时丢失细节（如冰雪路面抓地力变化），决策延迟较高（约200毫秒），极端场景依赖人工标注补足。

WA：物理世界的“直接建模”路线

跳过语言环节，直接从多模态传感器数据（视觉/雷达/声音）生成行为动作，云端构建“世界引擎”模拟极端场景训练模型。

优势：响应更快（决策延迟约100毫秒）、物理因果理解强（如急刹重心转移）、极端场景识别准确率更高（雨雾中识别静止车辆比VLA高37%）。

挑战：研发门槛高（华为年投超100亿元）、硬件成本高40%以上，中小车企难以承担。

🚀 二、技术上限与自动驾驶可行性

WA的天花板更高：

目标构建“数字孪生式驾驶系统”，通过云端生成99.999%的极端场景覆盖，目标接管率低至千公里0.1次。

华为ADS 4.0在复杂城区百公里接管0.8次，优于主流VLA的1.5次。

VLA的潜力争议：

支持者认为其语言基座具备“长思维链推理”，适合L4级复杂决策，理想宣称VLA事故率可提升至人类驾驶10倍（600万公里/次）。

反对者指出语言模型拟合人类习惯与自动驾驶“保守安全”策略矛盾，语言带宽限制对连续动态环境建模不足。

🔮 三、行业趋势：从对立走向融合

头部玩家的路线调整：

华为ADS 4.0已在WA底层结合VLA的交互层（如语音指令解释动作）；小鹏第二代VLA转向融合世界模型强化物理推演；长城直接采用“VLA+世界模型”双路线。

英伟达开源Alpamayo-R1 VLA模型，推动行业协同。

终极方案的评判标准：

安全性：WA在物理一致性上更优（如华为后向激光雷达防泊车坠坑），VLA需外挂扩散模型补足几何精度。

商业化：VLA短期成本低，适合L2+过渡；WA长期可减少激光雷达依赖，但需突破算力瓶颈（车端千TOPS级需求）。

💎 四、用户最关注的实践表现

VLA体验：理想OTA 8.1提升绕行与窄路能力，语言交互透明化决策过程（如解释变道原因），但连续鬼探头场景依赖激光雷达。

WA表现：问界M7在夜间野猪碰撞测试中因多传感器融合稳定性占优，但黑盒决策逻辑降低可解释性。

⚠️ 风险提示

部分观点（如“VLA是阶段性妥协”“WA短期难盈利”）存在商业立场差异，需结合实测数据判断。当前技术均未达到L4，用户接管仍是必要保障。 (以上内容均由AI生成)