文 | 钱钱
编辑 | 阿景
自动驾驶现在是越来越火了,但从L2、L3往L4、L5升级的路上,卡在半道儿了。
不是说车不能跑,而是遇到复杂情况就容易“犯迷糊”。
比如前面有积水,它知道减速吗?隧道里遇到实线,它会不会变道?这些看似简单的问题,现有系统还真不一定能处理好。
为啥会这样?现在主流的自动驾驶系统要么靠数据堆出来,要么就只会简单的场景交互。
就拿端到端系统来说,数据喂得再多,遇到没见过的情况还是抓瞎。
VLA系统虽然加了语言交互,但对三维空间和交通规则的理解还是差点意思。
感知和决策各干各的,这才是最大的问题。
那有没有办法让自动驾驶不仅看得准,还能懂规则呢?北大王选计算机研究所的王勇涛团队还真搞出了新东西KnowVal系统。
这个系统不只是升级硬件,而是从根上改了自动驾驶的决策逻辑。
重构自动驾驶的“大脑”:KnowVal如何让机器“懂规则”
以前的自动驾驶系统,眼睛(感知)和脑子(决策)是分家的。
看到东西了,但不知道该咋处理。
KnowVal就不一样了,它搞了个“开放三维感知-知识检索”的新套路。
简单说,就是先把周围环境看明白,再去“翻法规手册”,最后才做决定。
具体咋操作呢?首先是“看明白”这一步。
KnowVal用了多模态感知,不光能识别常见的车和人,连那些不常见的“长尾场景”也能搞定。
比如突然窜出来的小动物,或者施工路段的锥桶,它都能三维定位。
本来想光靠视觉可能就够了,后来发现还得加上语言描述。
就像咱们看到隧道会说“进隧道了,要开灯”,它也会把场景转换成“隧道场景,需遵守禁止变道规定”这样的语言信息。
看明白之后,就得“查法规”了。
它会把看到的情况转成查询语句,比如“前方50米有行人,当前下雨”,然后去知识图谱里找相关的规则。
这个知识图谱可不简单,里面有交通法规、道德准则,还有老司机的经验。
就像咱们开车时脑子里会过一遍“该让行人”“不能超速”,它也会把这些规则调出来。
最后是“做决定”。
规划模块会先给出几条可能的行驶轨迹,然后价值模型来打分。
这个价值模型就像个严格的考官,会根据安全、合规、效率这些指标给每条轨迹打分,最后选分数最高的。
如此看来,这就跟老司机开车一样,既要看路,又要懂规矩,还得权衡利弊。
从实验室到马路:KnowVal的真实表现到底怎么样?
光说不练假把式,KnowVal的实际表现到底如何?在nuScenes开环测试里,它用在好几个基线模型上,碰撞率都是最低的。
Bench2Drive闭环测试更厉害,驾驶分数和成功率直接拿了第一。
这些数据可不是瞎吹的,实打实说明它的决策能力确实强。
更有意思的是那些定性测试。
比如过积水路段,它会自动减速,怕溅到行人。
这个细节虽然小,但说明它真的理解“安全礼让”这个道德准则。
还有隧道场景,遇到实线它绝对不变道,严格遵守交规。
这要是换成以前的系统,怕是早就压线了。
不过话说回来,现在的测试基准还是有点不够用。
nuScenes、Bench2Drive这些虽然权威,但对法律和道德行为的评估维度太少。
以后还得搞更全面的测试,比如极端天气、动态交通规则更新这些场景都得加上。
北大这个团队在视觉数据理解方面本来就有积累,发了不少顶会论文,跟企业合作也多,后续升级应该没问题。
总的来说,KnowVal系统算是给高阶自动驾驶开了个好头。
它把知识和价值判断融进去,让机器不仅能“看路”,还能“懂法”“明事理”。
这可不是简单的技术升级,而是从“数据驱动”到“数据-知识双驱动”的转变。
当然了,要真正实现“类人驾驶”还有段路要走,比如知识图谱怎么动态更新,极端场景怎么处理得更鲁棒。
但至少现在,我们看到了自动驾驶变得更“聪明”的希望。
以后坐自动驾驶汽车,心里也能更踏实点不是?