出品 | 搜狐汽车·E电园
摄像 | 丁卓 后期 | 丁卓
主持人 | 张云乾 编辑 | 蔡欣宇
前几天华为智能汽车解决方案 BU CEO 靳玉志表示,走 VLA 技术路线的企业,认为现在大家是通过 Open AI 等各种语言大模型,把网上的信息学了一遍以后,将语言、所有的学习转换成 LM 的方式掌握知识。这样的路径看似取巧,其实并不是走向真正自动驾驶的路径。华为更看重 WA,这个路径目前看起来非常难,但能实现真正的自动驾驶。那么,华为选择的WEWA架构,到底是什么,有什么“神奇”之处呢?
首先我们要知道什么是WEWA架构,WEWA架构分为两部分,WE world engine世界引擎,它主要负责云端,WA则是world action model世界行为模型,主要掌管的是车端。
咱们先来唠唠云端那点事儿啊。自从端到端开始,数据训练量就显得尤为重要,收集到的人类驾驶数据,可以说99%都是正常驾驶相对来说简单场景的数据,像非常复杂、少见的长尾场景,那数据量是少之又少。不信你就跟身边儿的老司机打听打听,问问他开车这么多年,危险复杂的场景能有几次。这种数据量上不去,那辅助驾驶中长尾场景的处理就一直会有问题。而负责云端的世界引擎,就是来解决这个问题的。
首先,AI通过现有的环境数据,先在云端模拟一个现实世界,把真实世界非常细节的还原到云端世界里。之后它根据已经看过的人类驾驶视频,生产出此路段场景不同情况的视频,或者同情况不同路段的视频,并且可以自定义难度等级。就比如,这个AI学习到的是路上突然窜出只小狗,那它可能自己打造出路上突然窜出羊群、长颈鹿大象等场景,甚至可以在你想做避让的车道安排上别的车辆,提升难度。这样做的好处就是我们喂给AI 10个少见视频,它可能自己延展出成千上万种情况。就这样延展下来,高质量高难度的场景数据,是真实世界的一千倍。而负责规控的模型在云端世界里疯狂刷不同高难度的场景进行训练。这就是用AI训练AI。
喂给模型大量人类驾驶员的数据素材,里面肯定会包含一些不安全不正确的驾驶数据,什么闯红灯啊走非机动车道啊,并且一有AI,幻觉是避免不了的,无论是低质量数据还是幻觉,都会影响模型训练发生意外,更何况WEWA架构中,每一步都有AI的参与,那怎么才能降低幻觉避免错误危险的规控,保证安全呢。
于是,华为为模型训练设置了奖惩函数。简单来说华为把工程师团队和AI组成了一个陪审团,这个陪审团的工作就是为场景规控下安全等级打分,汇总每一位成员的分数得出来综合评分,那肯定评分越高它越安全,通过这个评分让模型理解什么才是安全行为规控。
好了聊完了云端,接下来是车端的事儿了。那视频开始前说过,VLA是从大语言模型修改来的,它的强项是语言识别以及文字推理能力,就像是一个文科生。但辅助驾驶是在物理世界运行,那WEWA架构的world action model世界行为模型就更像是一个理科生,并不需要完全看懂语言类的内容,擅长的就是物理世界的空间感知和行为推理。
讲到这,你就想吧,人类驾驶数据加上AI生成数据,模型再去反复训练,优秀数据再由AI扩写场景模型再训练,这一个个循环那得处理多少的数据,那是不是车端的芯片算力要求要比带动VLA的芯片算力更高呢?
其实并不是,首先VLA/VLM是从LLM大语言模型修改蒸馏来的,这个大语言模型包含的内容信息可就太多了,各种语言数字诗词歌赋中英日法语那都算在内,换句话说大语言模型本身就不是专门为辅助驾驶工作的,但是华为的世界行为模型可是辅助驾驶专用的模型,没有那么多不需要的信息数据需要处理,所以它的算力集中在像交通参与者的速度位置的空间推理和行为预测。
另外,华为还打造了MoE多专家决策,就好比医院里的专家会诊,每个专家都只研究自己负责的特定场景。比如暴雨有雨战专家,窄路有穿缝大师,被加塞有博弈高手,分工非常明确,简单的场景就出那么一两个专家解决,复杂场景多专家一起会诊。你想啊,全模型的训练可能得用3个月,MoE里每个专家只用训练它负责的部分,差不多1周就能上线,什么场景对应不同专家出战,也会节省算力。
好了,以上就是WEWA架构的介绍了,那前段时间我也试驾到了m8 EV,简单体验了一下ads 4.0。那最明显感觉它侧重安全部分的就是在村镇这段路。在前方有人行横道两侧停满临停车时,SR界面会显示视线遮挡降低车速,这也避免了有行人或非机动车鬼探头的情况。但它并不是每个人行横道都会减速,在车道两侧没有临停车,感知系统能看得见周围道路参与者情况下,它会以正常车速通过人行横道。
那无论是WEWA架构这种世界模型还是VLA,本质上都是在将“大模型”引入智能驾驶,只是方式不同。VLA天生就是多模态融合的产物,视觉和语言等信息在模型内部被打通,而世界模型路线则在泛化上则提供了另一种思路,用无限生成的数据去弥补有限经验。Corner Case在统计学上的小概率世界,而世界模型则是把小概率事件变成训练中的“高频事件”。 可以说世界模型赋予的是空间和数据层面的泛化力,先求稳再求巧,而VLA赋予的是知识和认知层面的泛化力,触类旁通,善于学习新东西。二者目标相似,路径有别。那各位观众老爷们,你们更看好哪种路径呢?其实从技术融合趋势看,世界模型和VLA正在彼此借鉴,走向合流。也许不久的将来,汽车的大脑将同时拥有“想象力”+“语言智慧”呢。