猿力部落——汽车人的技术社区
据EurekAlert! AAAS报道,自动驾驶技术发展迅猛,已从基于规则的系统过渡到深度神经网络。然而,端到端模型仍面临诸多缺陷:它们往往缺乏世界知识,难以应对罕见或模糊的场景,并且对其决策过程的洞察也十分有限。相比之下,大型语言模型(LLM)在推理、情境理解和解读复杂指令方面表现出色。然而,LLM的输出是语言性的而非可执行的,这使得它们难以与实际车辆控制系统集成。这些差距凸显了构建框架的必要性,该框架应将多模态感知与基于成熟驾驶逻辑的结构化、可操作的决策输出相结合。应对这些挑战需要对如何将多模态推理与自动驾驶规划器相融合进行更深入的研究。
上海交通大学、上海人工智能实验室、清华大学及合作机构的研究团队开发了DriveMLM,这是一个用于闭环自动驾驶的多模态大型语言模型框架。该研究成果发表在《视觉智能》(Visual Intelligence)期刊上。DriveMLM整合了多视角摄像头图像、激光雷达点云、系统消息和用户指令,生成对齐的行为规划状态。这些状态可以直接接入现有的运动规划模块,从而实现实时驾驶控制,并为每个决策生成自然语言解释。
DriveMLM解决了基于LLM的驾驶中的一个核心挑战:将语言推理转化为可靠的控制行为。该框架将LLM的输出与模块化系统(例如Apollo)中使用的行为规划状态相匹配,涵盖速度决策(保持、加速、减速、停止)和路径决策(跟随、左转、右转等)。
一种专门的多模态分词器将多视角时序图像、激光雷达数据、交通规则和用户指令处理成统一的词嵌入。然后,多模态逻辑学习模型预测合适的决策状态并生成相应的解释,从而确保可解释性。
为了支持训练,团队创建了一个大规模数据引擎,该引擎在八张CARLA地图和30个具有挑战性的场景(包括罕见的安全关键事件)上生成了280小时的驾驶数据。该流程会自动标注速度和路径决策,并结合人工修正和基于GPT的数据增强,生成丰富的解释性标注。
在CARLA Town05 Long基准测试的闭环评估中,DriveMLM的驾驶得分达到76.1分,比Apollo基线系统高出4.7分,并且在所有对比系统中实现了最高的每次干预里程数(0.96英里)。DriveMLM还展现出强大的开环决策准确性、更高的解释质量以及在自然语言指导下的稳健性能——例如,在不同的交通状况下,能够避让紧急车辆或理解“超车”等用户指令。
研究团队指出:“我们的研究表明,LLM一旦与结构化决策状态相匹配,就能成为自动驾驶车辆强大的行为规划器。DriveMLM超越了简单的规则遵循。它能够理解复杂的场景,推理运动规律,并用自然语言解释其决策——这些能力对于安全性和公众信任至关重要。DriveMLM将感知、规划和人工指令整合到一个统一的框架中,为下一代自动驾驶系统提供了一个充满希望的发展方向。”
DriveMLM展示了多模态逻辑逻辑模型如何提升自动驾驶的透明度、灵活性和安全性。其即插即用设计使其能够无缝集成到Apollo或Autopilot等现有系统中,无需进行重大架构变更即可改进决策。解读自然语言指令的能力拓展了交互式驾驶辅助和个性化车载AI副驾驶的可能性。更广泛地说,DriveMLM为构建能够理解复杂环境、预测风险并为其行为提供合理依据的推理驱动型自动驾驶系统指明了方向——这些都是在实际交通网络中部署可信赖AI的关键能力。