通用汽车5万倍实时训练驾驶AI技术突破

微资讯

03.2615:26

关注

自动驾驶是物理AI领域最具挑战性的问题之一。自动化系统必须实时解读混乱且不断变化的世界，应对不确定性，预测人类行为，并在广泛的环境和边缘情况下安全运行。

在通用汽车，我们从一个简单的前提出发：虽然道路上的大多数时刻都是可预测的，但那些罕见、模糊和意外的事件——长尾问题——最终决定了自动驾驶系统是否安全、可靠并准备好大规模部署。

随着通用汽车向免眼部监控的高速公路驾驶迈进，并最终实现全自动驾驶车辆，解决长尾问题成为核心工程挑战。这需要开发能够在最意外条件下表现合理的系统。

通用汽车正在构建可扩展的驾驶AI来应对这一挑战，结合大规模仿真、强化学习和基于基础模型的推理，以仅靠现实世界无法实现的规模和速度训练自动驾驶系统。

自动驾驶的长尾场景类型多样

长尾问题主要包括两类情况。一些因其罕见性而引人注目：路上有床垫、消防栓爆裂、旧金山大停电导致交通灯失效，要求无人驾驶车辆应对前所未见的挑战。这些罕见的系统级交互，特别是在密集的城市环境中，展示了意外边缘情况如何大规模级联。

但长尾挑战不仅仅是千载难逢的罕见事件。它们还表现为需要人类特有礼貌或常识的日常场景。如何在拥挤的停车场排队而不阻塞交通？或者在建筑工地导航，由手势指挥的工人和临时标志引导？这些对人类驾驶员来说简单的挑战，却需要巧妙的工程设计才能让机器完美处理。

部署视觉语言模型

通用汽车正在开发视觉语言动作模型来处理这些细致入微的场景。从标准的视觉语言模型开始，该模型利用互联网规模的知识理解图像，通用汽车工程师使用专门的解码头针对不同的驾驶相关任务进行微调。生成的VLA能够理解车辆轨迹并检测3D物体，同时具备通用图像识别能力。

这些调优模型使车辆能够识别警察的手势信号覆盖红灯，或识别繁忙机场航站楼的"装卸区"是什么样的。这些模型还能生成推理轨迹，帮助工程师和安全操作员理解为什么发生某个操作——这是调试、验证和信任的重要工具。

在高保真度仿真中测试危险场景

问题是：驾驶需要瞬间反应时间，任何额外延迟都会造成严重问题。为解决这个问题，通用汽车正在开发"双频率VLA"。这个大规模模型以较低频率运行，做出高级语义决策（"路上的物体是树枝还是混凝土块？"），而较小的高效模型处理即时的高频空间控制（转向和制动）。

这种混合方法让车辆能够受益于深度语义推理，同时不牺牲安全驾驶所需的瞬间反应时间。

但安全处理边缘情况需要模型不仅理解所看到的内容，还要懂得如何明智地驾驶通过所识别的挑战。对此，没有什么能替代经验。

因此，我们每天运行数百万次高保真度闭环仿真，相当于数万个人类驾驶日，压缩到几小时的仿真中。我们可以重播实际事件，修改真实世界数据创建新的虚拟场景，或完全从零设计新场景。这允许我们定期测试系统应对在现实世界中几乎不可能安全遇到的危险场景。

最困难情况的合成数据

这些仿真场景从何而来？通用汽车工程师采用一系列AI技术产生新型训练数据，能够建模极端情况同时保持基于现实。

例如，通用汽车的"种子到种子转换"研究利用扩散模型转换现有真实世界数据，让研究人员将晴天录像转变为雨夜或雾夜，同时完美保持场景几何。结果是"域变换"——晴天变成雨天，但其他一切保持不变。

此外，我们的GM World基于扩散的仿真器让我们能够使用自然语言和空间边界框合成全新的交通场景。我们可以召唤具有不同天气模式的全新场景，也可以在现有道路场景中添加具有挑战性的新元素，比如切入我们路径的车辆。

轻量级强化学习环境

高保真度仿真并不总是每个学习任务的最佳工具。逼真渲染对训练感知系统在不同条件下识别物体至关重要。但当目标是教授决策和战术规划——何时并道或如何导航十字路口时，计算昂贵的细节不如空间关系和交通动态重要。AI系统可能需要数十亿甚至万亿个轻量级示例来支持强化学习，模型通过快速试错学习明智驾驶规则，而非仅依靠模仿。

为此，通用汽车开发了专有的多智能体强化学习仿真器GM Gym，作为闭环仿真环境，既能仿真高保真度传感器数据，又能在称为"盒子世界"的抽象环境中每秒建模数千个驾驶员。

通过专注于空间定位、速度和道路规则等要素，同时剥离水坑和坑洼等细节，盒子世界为强化学习模型创建了高速训练环境，运行速度比实时快5万倍，每秒GPU时间仿真1000公里驾驶。这种方法不仅让我们模仿人类，还能开发具有可验证客观结果的驾驶模型，如安全性和进展。

当然，从家到办公室的路线并非穿过盒子世界，而是经过沥青、阴影和天气的世界。因此，为将概念专业知识带入现实世界，通用汽车是首批采用"在线策略蒸馏"技术的公司之一，工程师同时运行两种仿真模式：抽象的高速盒子世界和高保真度传感器模式。

这里，强化学习模型——已通过无数抽象里程练习开发出完美"策略"或驾驶战略——充当教师，指导其"学生"，即最终将在车内运行的模型。这种智慧传递极其高效；仅30分钟的蒸馏就能捕获相当于12小时原始强化学习的内容，让现实世界模型快速继承其在仿真中精心磨练的安全本能。

仿真不仅是训练模型良好驾驶，也是试图让它失败。为严格压力测试系统，通用汽车利用称为SHIFT3D的可微分管道。SHIFT3D不只是重建世界，还主动修改世界创建"对抗性"物体来欺骗感知系统。该管道获取标准物体如轿车，微妙变形其形状和姿态，直到成为AI更难检测的"挑战性"趣味屋版本。优化这些失败模式让工程师能够在安全风险出现在道路上之前就预先发现。在这些生成的"困难"物体上迭代重训模型已证明能减少30%以上的险些碰撞，缩小可能被忽视的边缘情况安全差距。

即使有先进仿真和对抗性测试，真正稳健的系统也必须了解自身限制。为在面对未知时确保安全，通用汽车研究人员在模型中添加专门的"认知不确定性头"。这种架构添加让AI能够区分标准噪音和真正困惑。当模型遇到不理解的场景——真正的"长尾"事件时，它会发出高认知不确定性信号。这作为数据挖掘的原则性代理，自动标记最令人困惑和高价值的示例供工程师分析并添加到训练集。

这种严格的多方面方法——从"盒子世界"战略到对抗性压力测试——是通用汽车解决自动驾驶最后1%的拟议框架。虽然它是未来发展的基础，但也提出了工程师必须解决的新研究挑战。

我们如何平衡强化学习的基本无限数据与现实世界驾驶的有限但更丰富数据？通过编写奖励函数，我们能在多大程度上接近完全的人类化驾驶？我们能否超越域变换，生成具有新颖物体的全新场景？

解决自动驾驶的长尾问题不是关于单一模型或技术，而需要一个生态系统——结合高保真度仿真与抽象学习环境、强化学习与模仿学习、语义推理与瞬间控制。

这种方法不仅改善平均情况的性能，还旨在揭示决定自动驾驶是否真正准备好无人类监督运行的罕见、模糊和困难场景。

仍有开放的研究问题。通过奖励函数优化，驾驶策略能在多大程度上变得像人类？如何最好地结合无限仿真经验与真实人类驾驶中嵌入的更丰富先验？生成式世界模型能在多大程度上帮我们创建有意义的安全关键边缘情况？

回答这些问题对自动驾驶的未来至关重要。在通用汽车，我们正在构建所需的工具、基础设施和研究文化来解决它们——不是小规模，而是真实车辆、真实客户和真实道路所需的规模。

Q&A

Q1：通用汽车的VLA模型是什么？它如何解决自动驾驶问题？

A：VLA是视觉语言动作模型，通用汽车基于视觉语言模型开发，通过专门解码头微调用于驾驶任务。它能理解车辆轨迹、检测3D物体，识别警察手势信号、机场装卸区等复杂场景，还能生成推理轨迹帮助工程师理解驾驶决策。

Q2：盒子世界仿真环境有什么特点？为什么比实时快5万倍？

A：盒子世界是通用汽车开发的轻量级强化学习环境，专注于空间定位、速度和交通规则等核心要素，剥离水坑、坑洞等视觉细节。这种抽象化设计让系统运行速度比实时快5万倍，每秒GPU时间可仿真1000公里驾驶，高效训练决策和规划能力。

Q3：SHIFT3D技术如何提高自动驾驶安全性？

A：SHIFT3D是通用汽车的可微分管道，专门创建"对抗性"物体来测试感知系统。它将标准物体如轿车变形成更难检测的"挑战性"版本，主动发现安全风险。在这些困难物体上重训模型已证明能减少30%以上的险些碰撞事故。