2026年1月31日,2025“智驾天梯榜”年度盛典重磅启幕,智驾行业顶尖专家、企业高管、投资机构代表与车主代表齐聚一堂,共赴这场年度行业盛会。
地平线智能驾驶资深产品总监刘文尧发表演讲时表示,高阶智驾系统的发展历经规则系统、混合系统、全链路数据系统三个构型阶段:
第一阶段为基于研发工程师编写规则代码的规则系统,虽能做出亮眼DEMO和视频,但场景泛化能力弱,难以大规模落地;
第二阶段是当前行业量产主流的混合系统,各模块依特定场景设计,新增场景需新增模块,面对无预设的随机场景时体验与能力易遇瓶颈;
第三阶段的全链路数据系统因 FSD V12落地迎来行业曙光,其入华版本V13让行业切实感受到类人性的端到端智驾体验,而从混合系统向该阶段跨越需经历极为痛苦的研发重构,此前积累的技术成果与经验需彻底舍弃,原有问题要基于新架构重新破解,研发端需重新投入大量心力完成重构,才能实现该阶段的量产落地。
以下为刘文尧演讲实录(略有删减)
今天,地平线在城区辅助驾驶领域打拼的成果和经验跟大家做一些分享。
首先,一提地平线大家想到的就是芯片,辅助驾驶领域的芯片,确实一直以来我们在行业当中其实属于是隐藏在供应链之后的,比如说博世是Tier1的,地平线是隐藏在Tier1后面的供应商的角色,我们在不断往台前努力,从技术上我们提供更加全套的辅助驾驶的解决方案,我们叫HSD,这个技术其实也是花了非常非常多的时间和痛苦的打磨才能获得今天这样一个成果。
刚才庞老师在开场的时候有讲到第一电动所做的年度的50人的评选,我们当初看到非常好的点就是它里面不单单是提到了很多行业当中的领导者、公司的老板,同时还提及了一些真正带领一线研发的研发的负责人,其实这些人才是真正贡献现在产品成果的最主要的主力军,我也是希望可能将来第一电动能够在更多的后面的评选当中挖掘出更多的在一线贡献自己心血的研发人员,因为他们才是最辛苦的产品打造者。
HSD在去年年底,在星途ET5上正式首发量产,其实说来特别巧,不管是文远韩总所说的他们量产的车,还是我们HSD量产的车型,都是在奇瑞星途车上做量产。更多的主机厂比如像奇瑞,更愿意开明地拥抱更多的新技术、新的冉冉升起的供应商,而不再迷信于说我就要自己把所有的东西打造出来。
还有一个特别重要的点,就是为什么我们会选择跟奇瑞合作,地平线一直不觉得辅助驾驶就是城区的这种高级别的辅助驾驶的能力,是专属于行业当中最高端的这些所谓的智能汽车的车型,这个技术本身,辅助驾驶技术其实就应该是偏功能型的、普惠型的技术,只要是它的能力足够强了,每一个普通的用户都会想去用,不应该是某些特定的价格段专属的功能,所以我们一直希望将这样的技术能够普及到每一个用户,都能够去接触到,都能够去使用到。所以星途ET5和深蓝的L06是地平线首发搭载的两个车型,后面还会有更多的15万级别的助力车型的落地。
我们一直在想,这个行业当中,在行业早期的行业当中,产品的好坏评价可能是行业当中的测试,可能是一些专业的媒体,随着后边越来越多的用户能够亲身接触到辅助驾驶的能力,用户会有越来越多实际的行业体感,真正好坏的评价者不再是行业当中少数的权威人员,而应该是直播镜头前每一个真实的用户,你们觉得这个产品好才是真的好,不应该只是属于小众的人群。所以我特别共鸣于庞老师开场的时候感谢每一个在线上或者在线下观看我们直播内容的车主,还有用户们,其实你们才是真正这些成果的评价者。
重点讲一下我们是怎么一步步走到现在这个阶段的,刚才庞老师也讲了整个得分波动的几个起伏,其实跟我们眼中整个技术的演进是有三个时代对应的。
▍高阶智驾系统的三个构型发展阶段
在辅助驾驶当中的第一个时代就是规则系统阶段,HSD第一代的时候就是基于规则的产品形态,所有大家能够看到的一些当时的亮点场景其实都是由研发工程师自己写的规则代码驱动的,每一个场景有一套自己对应的规则。这样一个产品可以做成比较好的DEMO和视频,但是它很难做到大规模泛化,可能在某一个路段能跑,但是一旦在更泛化的场景当中就出现了问题。
所以,我们就进入到了第二个混合系统的时代,现在其实绝大部分行业当中已经量产的功能都还是处于混合系统的阶段,我记得当时庞老师说了一个非常重要的点,当时增加难度的时候有一个很重要的点,不给大家公布道路路线,还有相关的信息,其实这里面很大的挑战就是混合系统当中很难在不知道给定前提的情况下能够获得很好的体验。因为所有的单独的系统模块可能都是根据一些特定场景的给定需求来设计的,每增加一个新的场景就要再增加一个新的模块,一旦你给他一些随机性的场景出现,它的方法能力又迅速地陷入到了瓶颈当中。
所以我们真正看到的行业的曙光其实确实是FSDV12的落地,这里标的V13的核心原因是因为V13是真正第一个进入到中国市场的版本,当时大家其实对于真正一段式端到端的产品到底有什么样的产品体验的表现,大家其实更多的是一种猜测或者是只能在网上看到北美的用户体验的一些视频,真正能让大家去感受到类人性的体验还是V13入华的时候,我们其实也是在V12、V13中间这个时间点做出了决心,全面地用第三个全链路的数据系统,或者是现在大家都在提的一段式端到端的思路来做这样的产品研发,这中间有一个非常痛苦的过程,在2和3之间有一个阴影标注的面积,很多人之前看这个图的时候都不会注意到中间阴影区域,这个区域其实是非常非常难的,现在行业当中大家传播的节奏非常快,每到一个传播的节点都想抛出一个新的名词。
但是大家知道真正研发在做产品的时候,其实系统迭代的周期和他拿到一个新的算法架构的周期的时候需要经历一个特别痛苦的重构的过程,标阴影的区域其实就是2到3有一个非常痛苦的重构过程,在第二阶段当中取得的很多的技术成果、经验的收益,其实你想要再重构到第三个阶段的时候都需要把它完全抛弃掉,你曾经可能已经用第二个系统架构解决的问题,你需要用第三个系统重新再解一遍,重新跳到研发的坑和过程里面。我们也花了非常大的心力最后才达到了第三个阶段的量产。
▍当前城区辅助驾驶系统基本仍处于混合式架构的范式阶段
如果我们去整体看一下现在的,刚才提到的混合架构的问题的话,我们可以给它有两个类型范式的总结,第一个是混合架构下一般就是两段式的端到端,它的产品形态其实是由一个一段式的感知,输出了感知结果以后,接入到一个纵向和横向的模型当中,最后再将横纵向的模型输出做一个拼接,最后做到控车。
还有一种方式其实是一段式的端到端输出的原始轨迹,但是由于没有拿到最好的收益,它的原始轨迹出现了一定的瑕疵,所以需要加上横向和纵向的后处理优化,最后再去控制车辆。这两种形态其实都会有一些共性的问题,第一个是大家看到蓝色的模块,都是不需要的模块,模块增多就会带来系统响应时间变慢,系统响应时间变慢自然丝滑感就会下降。第二个是所有的模块之间信息传递都是需要有人写的规则的,来定义上一个模块的输入是什么,这个模块的输出又是什么,这些人写的规则就会带来信息传递过程当中的损失,比如说感知的模块,所有的传感器的信息进入之后,输出的只不过是需要看到的分类,这个是车道线、这个是车、这个是人,一些重要的信息有可能在这个过程中被损失掉。
两种路线其实都做了某种意义上横纵向的分离,横纵向的分离就会带来一个问题,人在开车的时候其实同时一个脑控制我们的手和脚,横向的手控制方向盘,纵向的脚控制油门和刹车,然后再去做拼接,有可能在复杂场景下出现横向和纵向打架的情况,丝滑感不够。
▍地平线HSD:国内首个真正一段式端到端
其实最本源的架构还是一段式的端到端,它解决的问题就是把我们刚才所说的时延的过高、横纵向的分割全部解决掉,由于他本身的模型的架构很简单,它就是通过传感器的输入,中间有一个模型,然后直接输出一个横纵向合在一起的控车的轨迹,所以说他才能够真正做到足够高的类人性。
重点提及了现在行业当中一段式端到端比较重要的场景特点,第一个就是不再有场景化分割的感觉,之前一些混合架构的系统大家可能会觉得说不同场景下这个车开的风格可能不一样,有的场景下这个车会更激进一点,有的场景下更保守一点,但是用了一段式端到端之后,整个场景的隔离感是比较少的。第二个是控车风格更加像人,方向盘摆动的速度和纵向的刹车和油门的控制会更加细腻,更像人开的。第三个是防御性驾驶的特性,刚才其实我们也在韩总的视频当中看到了一些他应对突发场景的能力,就是他不再是一种传统主动安全的感觉,更像是轻易不会开到一个有风险的驾驶场景当中去的风格,更像人对于防御性预判的驾驶策略。
(播放视频 略)我不想讲太多技术性的东西,我们还是用视频来看我们现在车型的场景能力。这个应该是在广东深圳这种南方的非常复杂的场景当中,去体现一段式端到端的控车能力,重点看城区复杂场景下方向盘的稳定性,还有它应对各种各样复杂场景下响应的速度。
▍全场景可开:HSD漫游自主寻路
这个系统现在有一个很重要的特点,就是在非常复杂的场景下,它的响应速度很快,同时它的控车轨迹非常像人在开车的时候才会输出的控车轨迹,所以不再是一个场景能否通过的问题,而是它通过的方式是否足够像人一样。大家可以想象一下我们作为用户,现在所有的量产车都是L2级别辅助驾驶的功能定位,用户在开车过程当中的心理活动就是坐在主驾位上将这个车辆的开车行为跟自己在这个场景当中的开车行为做对比,一旦这个对比是非常大的差异化的结果,这个用户就会有非常大的恐慌感,很有可能这个用户出现了几次恐慌感以后,这个功能他就再也不敢用了。
所以我们为了让所有的用户能够更多地用起来这个功能,现在一个很重要的系统特性就是他要有足够强的拟人性,这样才能让用户跟这个功能产生足够强的信任感。其实行业当中大家去讲强化学习的时候一直喜欢提以前AlphaGo下围棋的风格,也确实当时它是最早将强化学这个学习方式做验证和突破的场景,但是有一个重要的点,下棋的方式在赢人类专家的时候所用的方式已经不再拟人了,是用了人可能都想象不到的下棋思路战胜了人。
但是现在辅助驾驶所处的阶段,由于我们的驾驶环境是人和辅助驾驶系统共存的情况,你想让用户有足够强的信心,你想让交通环境对你的系统有足够强的接受度,拟人是最关键的,接下来短期内大家都要重点打磨这样一个产品特性。其实我们现在已经看到了行业当中越来越多已经量产辅助驾驶的系统都在找城区当中拟人丝滑性产品体验的感觉。
除了刚才说的拟人特性之外,还有一个很重要的产品的不一样,就是我们所说的通用驾驶能力的打造,怎么体现?(播放视频)我们的车型能够在非结构化道路当中也能够做行驶,没有导航信息的情况下也能够行驶。比如现在我们就是在山间的林间小道上行驶,没有明显的车道线,而且它也没有明确的导航信息,就是在自主漫游地巡路,最后开到一个停车场里面,再从停车场的闸机出口开出去,这样的方式就是现在的漫游模式,就是系统最底层驾驶能力的体现。
这个漫游模式我们在量产之前,跟我们的客户沟通了非常非常长的时间,因为我们整个的星途ET5已经量产的车型,我们是没有传统意义上的ACC、ICA这样的基础辅助驾驶功能的,车辆就是两种功能模式,开启功能以后,你给导航就是NLA的情况,没有导航的时候就是漫游的模式,漫游的模式在整体驾驶能力、通行能力,跟NLA基本是一致的,需要转弯的时候也会去转弯,该绕行的时候也会绕行,这就是基础的通用驾驶能力的打造,用户使用过程当中大家可以想象一下,如果在上车的时候还没有决定我想去哪儿,可以先开启这个功能,车辆先开起来,然后你再想好你的目的地,输入之后就会生成NLA的模式,如果中途改目的地也不会降级到ICA或者ACC的功能模式,这才是真正的全场景的系统模式的内核。
刚才说的车端的端到端的控车系统,现在行业大家都在提VLA、大语言模型,系统当中也用了,但是我们没有用VLA这样一个结构,我们所使用的其实是一个端到端+VOM并行的系统结构,在车端所跑的其实就是我们下面看到的端到端的模型,因为其实再怎么说,我们车端的算力能跑的就是小模型,大家不要盲目相信大模型这样营销的名词,车端的算力能跑的就是小模型,就有点像真正在跟任何的大语言模型做沟通的时候,所谓推理的思维链,你问他一个问题,它还需要想非常长的时间,才能给你一个答案。
这个响应速度还是在一个云端这么大算力的情况下能够提供的,可想而知,在车端有限算力的情况下,你还想让它做非常复杂的推理,它的时延一定是非常长的,而且在辅助驾驶情况下能够有非常好体验的核心评价指标就是系统时延,所以我们的做法就是在车端要给他快速反应的端到端的系统控车,需要有深度思考和文字信息理解的放到云端的VOM模型当中,这个模型真正能够给车端端到端提供的是在必要场景,必要情况下先验式的、理解式的类似导航的信息。
接下来有两个类似的场景,左边就是可变车道的理解,这个理解其实云端的VOM会发挥作用,提前识别到可变车道指示牌的信息,接下来的路口怎么开、要停在哪儿,这个时候云端的VOM会给到端到端一个类似指引的导航信息,这样做的好处,即使是云端VOM反应速度慢一点,也不影响车端控制的实时响应速度,这是并行的不打架的节奏。这是接下来行业当中,可能在现有时代算力下面主流的架构,我们不是说VLA没有收益,而是真正想拿到收益需要更大的算力驱动,才能保证在低时延的情况下能够跑得动这么大的模型。
▍AD开发范式的本质重构:从“做加法”到“做减法”
如果从整个的经验上做总结,这个图是我们这两年多以来,做端到端最主要的心态和研发思路上的变化,左边其实是有点像以前还是规则或者是混合系统阶段开发的思路,我最早做媒体,后来去厂商做市场的工作,那个时候大家做产品的核心点就是我定义一个,我下一个版本的发布时间点,或者是一个节奏的目标,在这个点当中我们和产品一起共创我们有哪些新的功能,是现在行业当中的痛点,然后跟研发说能不能做,研发说能做,大家排一个时间点把这个功能做出来,或者没做出来,发布会先发出去,后面这个功能再上线,它都是通过新增的场景来去牵引研发做开发的这样一种研发思路,但是大家可以想,在老的系统范式下,系统上限其实是有限的,有点像左边这棵树的图片,树并不高,但是由于你在这个范式下面还需要有新的功能出来,所以在这个树的高度下往外长很多的枝叶,每个枝叶都是小的单独模块。
现在一段式端到端的研发模式有点像右边的开发逻辑,它不再是单点设计某些新的功能,现在跟研发提任何的系统功能可能都没有办法给我一个特别明确的一定能给出来的时间,因为他需要通过模型的不断训练、数据的不断采集清洗,让这个能力自己在模型上面长出来,而不是你正向设计,然后把它变成规则,然后再做开发这样的逻辑,这样的好处其实是系统基础的能力,就是我们刚才说的通用驾驶能力在逐渐生长的,在这个生长的过程当中一些新的能力会自己涌现出来。比如说现在新的版本就会有的特性,在到达一个用户导航目的地之后,车辆会主动靠右开,这个能力就不是正向的直接用规则写出来的,而是它自己通过不断地学习人类的驾驶风格自己学出来的风格。
这样一个范式往后再去做优化,它的思路其实相对来说也很简单,会返璞归真,不再是拼功能细枝末节的定义,其实就是在数据驱动的基础的范式的基础之上,然后有一个足够强的研发的工程能力做保证,在这两个基础之上不断地提升你的算力,提升你高质量数据的优化和获取的能力,然后去提升模型的尺寸。
我们以前一直所说的传感器的硬件未来我们的判断是会越来越标准化的,因为只有这样的话才能够把你整个的数据驱动的链路逐渐叠加起来,这也是我们对未来的一个判断,其实我们相信现在,用户真正开一小段时间,比如智驾开一圈,差异化的体感还不会那么强,但是如果真的有一天随着范式的提升,我们的能力能达到10倍的提升,我们达到超过千的MPI了,那个时候用户的体感可能会大大不一样,他对这个系统的信任感就会再进一步提升,那个时候可能就真的有点像韩总给的预测,有可能看到L4或者超过人类安全属性的四级的雏形的出现。
作者:王鸣幽
来源:第一电动网(www.d1ev.com)