出品 | 搜狐汽车·E电园
摄像 | 余伟 后期 | 谢雨馨
主持人 | 张云乾 编辑 | 蔡欣宇
上一期我们聊过了华为ADS 4.0的WEWA架构,更偏向世界模型的方案确实在空间和数据层面有更好的泛化能力,而理想等车企选择的VLA路径,把视觉和语言等信息在模型内部被打通,路径不同,各有优势。那么,就没有一种方案融合两种路径取之所长嘛?诶,吉利的千里浩瀚来了。
大家好,我是张有理,今天咱们就来盘盘千里浩瀚的Smart AI Agent架构。
首先咱们要知道什么是AI Agent,其实之前李想在ai talk中解释过,Agent这个词直译过来是代理人的意思,但在智能人工或者辅助驾驶领域,Agent最贴切的翻译应该是“智能体”或者说“能动者”。 它不是被动工具,而是可以感知、决策、学习、能自主行动的系统。就像你王者荣耀里打的高级人机,不仅能补刀、看视野、开团,甚至还能听指挥快速支援反野蹲人。所以,Agent就是一个具有自主性,能够理解复杂目标,并通过调用工具和规划步骤来独立完成任务的AI系统。它不再是等待命令的“工具”,而是一个可以委以重任的“伙伴”或“下属”。
好,解释完这个名词,我们来看看吉利是如何打造并训练这个智能体的。和华为的wewa架构类似,Smart AI Agent架构也会分为云端和车端。
首先,是由各种雷达、摄像头以及听觉、环境传感器,全面、高精度地收集周围环境的一切原始数据,加上导航信息,一起送入云端的多模态基座大模型,这个模型融合了视觉语言大模型,在这里,数据不再是孤立的点云和像素,而是进一步被解读。车辆不仅能识别一个红色的圆形标志是“红灯”,更能理解其含义是“需要停车”,不仅能听见救护车声音,还能知道让行,不仅能“看到”交警的手势,也能“理解”这个手势的指挥意图。
当然根据这些数据,云端也仿真出一个一模一样非常细致真实的虚拟世界,根据真实世界中采集到的极端罕见场景,扩展出成千上万种可能的复杂变体,用AI训练AI。这一部分是不是很耳熟,也就是说在云端,主要依靠的还是和wewa类似的世界模型。
那在车端,主要发力的就是VLA大模型了。之前说过vla有做归控的能力,但由于VLA的时延明显,输入、解析、输出每一步都会有时间差,所以目前的研发,无论是最先提出的理想还是今天聊到的吉利系,都还不能用VLA做归控,VLA依旧是给端到端模型做辅助来用,E2E虽然上限低难解释,但保不准什么时候就突然灵光一现,瞬间开窍。
那同样是做辅助,有了VLM不就可以了,为啥一定要进化到VLA呢?这其实是由于vlm一般是单祯信息去做判定,就像做阅读理解,问《背影》里父亲买橘子时艰难爬上月台的描写主要体现了什么?VLM可能只根据提干就说那是父亲老了动作不灵活。但VLA是多帧信息处理问题,她会联系上下文内容,再告诉你这是作者为了体现父亲对我的爱。这样的联系上下文、多帧判定的能力,就让VLA更善于推理预判,给出的归控错误率更低,也就更稳定。
那除了VLA,在车端也部署了和华为类似的MoE多专家决策,像专家会诊一样,针对不同场景调用专门负责该场景的的子模型进行决策,从而实现高效、精准的主动干预。
那以上就是smart AI Agent的简单解析,目前这一套方案运用到千里浩瀚H7上。当然,理论是理论,体验到底咋样呢?咱们一起来看看搭载千里浩瀚H7的极氪9X表现咋样。
那这一次呢我们还是在辅助驾驶的兵家必争之地重庆测试的9X,全程50多公里。
在这段路上,首先需要肯定的是9x的归控相比之前版本会更激进更腻人一些,比如,出环岛有非机动车驶过,不会完全停住过分谦让,小步慢挪,非机动车一过立马驶出,在环岛的效率明显提高。另外,重庆毕竟是山城,有很多的隧道以及岔路选择,9X在出隧道后,强明暗变化下接着做连续路线选择,也非常流畅及时,没有出现错误路线,这对传感器以及路线归控响应速度都是不小的考验。同时,重庆有非常多的多车道转弯,9X即便是在没有车道线的情况下,弯中的路线归控做的也很稳定,不会出现让人恐慌的入侵其他车道情况,转弯后立马并线的动作也非常丝滑。那在体感方面呢,9X一整段路上没有出现过突兀的刹车动作,红灯刹停或者避让行人的动作很轻柔。
一改往日的保守,更激进腻人的归控确实在效率方面明显提升。但同样,与车博弈,它的归控也会更激进。红绿灯口直行,我们位于中间车道,左右都有社会车辆,右侧直行车辆由于避让旁侧非机动车,入侵到中间车道,此时9X并没有完全停住让行,而是稍稍借用左车道,迅速驶离。虽然这样的情景很容易紧张,但这种博弈相信很多老司机都会这样处理。
让人紧张的不只这一次,在一个双向单车道路段,前方中间有隔离带,两侧非常多的临停车辆,9X先向左避让,在临近隔离带前向右转动方向准备进入车道,但此时右侧临停车推开车门下车,很常见的开门杀,这要是我自己开,高低落下窗户国粹输出一套。而9X呢对自己的“身材”好像充满自信,很丝滑的驶过。
明明自己体型很大,但他会最大化利用空间,就比如快速路上,我们在最右侧车道,前方有临停车占用一部分车道,左侧又有车让他无法变道,9x并没有快速减速并线,而是轻点刹车,在本车道内完成避让。就这个位置,这么大的车,我自己开都会优先考虑赶紧降低车速并到左侧车道。9x的表现确实很丝滑,但我总感觉他给自己留的安全空间太少了。
说实话,在与社会车辆博弈时,总感觉他有“赌”的成分在,旁侧车礼让,那就会觉得他像老司机,但如果旁侧车不让那就需要人为接管。
另外,虽然千里浩瀚H7已经加入了VLA模型,但VLA对特殊车道的处理还是能避开就避开,即便是非禁行时间段公交车道效率更高也不会一直使用。其实模型对特殊车道的训练是很复杂的,各大城市的限行标准不一,即便是一个城市训练出来,很难保证他在其他城市可以正确稳定发挥。
那VLA的应用不止是在辅助驾驶,泊车目前应用的会更多一些,比如目前9X可以出停车场时漫游找出口,并且可以语音控制向左转向右转,但这种语音指令暂时还只在泊车部分。哦对了这次我们还体验了一把重庆来福士广场的地库,就这个旋转下地库,这么大车我手动尝试了一次真的直想骂街,但让9X自己开下去确实开的比我好,转弯啊速度啊把握的都很稳定。
好了,以上就是9X的千里浩瀚H7体验,总结来看,其实绝大多数场景甚至重庆狭窄加拥堵路段,他都可以处理的很丝滑,相比之前偏保守的调教在归控方面确实激进很多,如果是辅助驾驶经验丰富的人去使用,那确实觉得一些博弈很老司机,但他对安全距离的把控如果是刚开始使用,那稍微复杂一点的路况就会容易引起恐慌和不信任。那看回Smart AI Agent架构,它有在云端再造世界来磨砺技术的世界模型,也给了车端会学习、会思考的超级大脑,剩下的就要交给时间了,毕竟无论走哪条技术路径,都需要对模型进行更大量更精准的训练才能有更好的表现和能力。