破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为_汽车资讯

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为

创始人

2026-02-26 22:06:03

0次

SAGE团队投稿

量子位 | 公众号 QbitAI

自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题，对抗性场景生成成为了一种高效的仿真测试手段。

然而，现有的方法面临经典“跷跷板”难题：要么生成的场景极具攻击性但物理上不真实，要么过于保守而失去了测试价值，难以触及系统的长尾失效边界。

更关键的是，传统方法通常只能学习一个固定的权衡点，一旦训练完成其行为模式即被固化。若需调整测试的难度或者适配不同的被测算法，往往需要重新训练模型，限制了测试效率和灵活性。

针对这些问题，近日被ICLR 2026接收的工作SAGE（Steerable Adversarial scenario GEnerator）提出了一种全新的范式：将可控对抗生成重构为多目标偏好对齐问题。SAGE借鉴了LLM中多目标偏好对齐的思想，通过测试时权重插值，实现了在无需重新训练的情况下，推理阶段对生成场景的“攻击性”和“真实性”进行连续、实时的操控。

为什么需要“可操控”的生成？

在自动驾驶对抗测试领域，研究团队通常希望生成的对抗轨迹既能诱发失效，又符合人类驾驶习惯和物理规律。然而现有的主流方法通常将多个目标线性加权优化，存在两点局限：

1. 目标冲突导致模式坍塌：攻击性与真实性目标本质上是梯度冲突的。传统的线性标量法往往导致模型坍塌到极端解，容易陷入为了攻击而无视物理规律的局部最优。

2. 缺乏推理时灵活性：在闭环训练中Agent的能力是动态进化的。初期需要简单的场景教学，后期需要极端的场景压力测试。固定模型无法满足动态课程学习的需求。

△图1：现有对抗生成方法的局限性（左）与SAGE框架（右）。核心方法

SAGE的核心思想是不再试图训练一个完美的单一模型，而是特征空间训练偏好流形，并通过权重插值查询中间状态。

阶段一：离线对齐——层次化分组偏好优化

为了让模型学会理解“什么是好的对抗场景”，研究团队利用预训练的运动生成模型作为基座，进行偏好优化微调。

为了解决多目标冲突的问题，团队提出了一种离线对齐算法HGPO（Hierarchical Group-based Preference Optimization）。不同于传统的DPO，HGPO通过分层设计将硬约束与软约束解耦，并采用分组采样：

1. 分层设计：将地图合规性视为硬约束，攻击性和拟人化视为“软偏好”。

2. 分组采样：

a. 可行性优先：任何符合地图约束的轨迹优于违规轨迹。

b. 可行域内择优：在符合约束的集合中，比较奖励得分高低。

分层设计避免了模型在优化过程中为追求高回报而破坏可行性，提高了样本效率。通过HGPO，研究团队分别得到两个专家模型：一个最大化攻击性，一个最大化真实性和合规性。

阶段二：在线可控——测试时权重融合

在微调完成后，SAGE不需要在推理时重新训练。相反，直接在权重空间连接这两个偏好“端点”的路径上进行线性插值：

用户只需要调整偏好系数就能获得一个新的混合模型，生成处于两者风格之间的场景。通过一次离线训练即可得到覆盖从“保守”到“激进”的连续生成谱系，近似完整的Pareto前沿。

为什么权重插值是有效的？

直觉上，对两个神经网络的参数直接求平均会破坏模型的非线性结构导致性能崩塌。为什么在SAGE中这种做法不仅有效，甚至比直接混合输出结果更好？

研究团队引入了线性模式连通性（Linear Mode Connectivity, LMC）理论来解释这一现象。

由于两个专家都是从同一个预训练模型微调而来的，它们位于参数空间中同一个low-loss basin。LMC理论指出，连接这两个专家的线性路径上，模型依然保持低loss。研究团队进一步证明：当reward landscape在插值路径上呈现凹性，权重插值就优于输出混合。

△图2：LMC经验证据以及权重空间的偏好向量控制。实验验证

研究团队在Waymo Open Motion Dataset （WOMD）上进行了大量的实验与讨论。

开环生成性能

在生成质量上SAGE展现出了显著的优势。SAGE在保证高攻击成功率的同时，大幅降低了地图和物理违规率，并且生成的轨迹更加连贯、符合运动学约束。

△图3：SAGE控制的对抗车辆能够执行变道加塞等符合人类逻辑的高风险博弈行为。

△图4：SAGE生成多类对抗行为。

可控性上，在测试时仅调节偏好系数即可实现在Pareto前沿上连续控制生成的行为模式。

△图5：(a) SAGE生成的Pareto前沿显著优于其他方法。(b)碰撞率和真实性连续且单调可控。

△图6：通过调节对抗性权重，SAGE产生的轨迹从自然驾驶行为过渡到对抗行为。闭环训练效用：更鲁棒的自动驾驶策略

研究团队将SAGE集成到闭环强化学习训练中，利用其可操控性设计了双轴课程学习策略，同时控制对抗强度和频率。

△表3：不同对抗训练方法得到的驾驶策略性能对比。

基于SAGE训练的Agent在安全性、任务完成度和舒适度上均取得了最佳平衡。这种“循序渐进”的对抗训练方式有效缓解了灾难性遗忘，让Agent既能处理极端Corner Case，又不会在正常驾驶中变得过度保守。

总结

SAGE将可控对抗场景生成视为测试时偏好对齐问题。通过引入偏好优化和权重空间插值，实现了零成本测试时操控，仅需一个标量即可遍历从“保守”到“激进”的行为谱系。

Pareto 偏好团队模型测试训练难题跷跷板研究自动 Agent 插值权重

上一篇：小鹏汽车副总裁回应GX无人驾驶上下客，称是第二代VLA小试牛刀

下一篇：行业揭秘！无人驾驶竟是“演的”？背后藏着一群隐形司机

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为

相关内容

热门资讯