智驾路线暗战升级:元戎启行理想向左,华为博世向右
创始人
2025-09-01 16:31:00
0

近日的两场发布会,再次引发业界对智驾路线的争论和思考。

一是,元戎启行正式发布全新一代辅助驾驶平台DeepRoute IO 2.0,以及自研的VLA(Vision-Language-Action,视觉语言动作模型),融合视觉感知、语义理解与动作决策三大核心能力。据悉,元戎启行已达成5个定点合作项目,首批量产车即将进入市场。

“虽然目前VLA仍处于早期,相当于‘幼年期’,但它的技术上限已经远超传统端到端方案。新一代架构需要新一代芯片支持,这不是CNN时代可比的。”面对自动驾驶路线之争,元戎启行CEO周光如此阐述了VLA的优势和远景。

二是,华为乾崑媒体日现场,华为智能汽车解决方案BU CEO靳玉志接受了媒体采访,并针对“辅助驾驶最终技术路线”进行了回答。在他看来,华为不会采用VLA,WA(World Action,世界行为模型)才是能真正实现自动驾驶的终极方案。

靳玉志认为,华为更看重WA,中间省掉VLA的language环节,让vision成为一个代表,它可能来自于声音,可能来自vision,也可能来自于触觉。这个路径目前看起来非常难,但能实现真正的自动驾驶。

当智能化进入下半场,辅助驾驶赛道已是刺刀见红,不同技术路线的竞争日趋激烈——以理想、小鹏和元戎启行为代表的企业押注VLA,一跃从“端到端时代”迈入“VLA新纪元”,而以华为为代表的企业则更看重WA,认为VLA增加了不必要的中间环节。

那么,究竟谁能最终胜出?

“VLA的下限,超过端到端上限”

元戎启行是业界最早布局VLA、也是进展最快的玩家,在创始人周光看来,VLA的面世是一个跨时代的进展,它标志着自动驾驶正式进入大模型时代。下半年,元戎启行的VLA模型即将量产上车,这将成为公司技术发展的一个重要里程碑。

从技术层面,周光将VLA模型称为“基于GPT的端到端模型”,与传统的CNN端到端模型有本质区别。CNN架构自2012年发展至今,GPT则是基于Transformer大模型架构,两者在参数量、数据处理等方面差异显著。

周光认为,BEV视角存在先天局限,就像玩坦克大战,墙后的物体一旦无法被看到,系统就会认为“不存在”。可现实中,真实的视角更像CS(游戏《反恐精英》),司机会借助毫米波雷达等传感器,或凭借对空间遮挡关系的理解,采取谨慎策略通过复杂场景——

这并非要“穿墙透物”,而是必须提升对高级语义和空间关系的理解能力,这一点,恰恰是CNN端到端系统难以实现的。

另一方面,VLA有其护城河。

“VLA融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。”

第一代端到端系统正逐渐触及性能瓶颈,当前以CNN为载体的模型,无论用多少数据或额外训练手段,其提升空间已非常有限。正因为端到端有其上限与瓶颈,才有更多玩家大胆探索,押注VLA赛道,从长远上解决端到端的难题。

周光介绍了VLA模型的四大核心功能。

分别是:空间语义理解、异形障碍物识别、文字类引导牌理解和记忆语音控车,这些功能将根据实际部署节奏逐步释放。

其中,空间语义理解是最新版本的最大亮点,该功能可在视野受限的动态或静态盲区环境中(如公交车遮挡、复杂路口、桥洞等)感知潜在风险,主动对盲区进行“预防性预判”。系统可在风险出现前提前减速、稳妥通行,具备高度拟人化的防御性驾驶策略,为用户带来更安心的出行体验。

其余三项能力,异形障碍物识别能使系统能够识别并灵活应对如施工锥桶、超载小货车等非结构化障碍;文字类引导牌识别让系统“看懂路标”,准确解析潮汐车道、公交专用道等文字信息;记忆语音控车功能支持自然语言指令交互,并逐步学习用户偏好,带来更具个性化与拟人化的驾驶体验。

VLA模型,真正的难点是什么?

在周光看来,最难的是思维链(Chain of Thought,CoT)和长时序推理,当然,这也是VLA真正的核心能力。思维链是这类架构的基本要求,没有它,模型就不能算是真正的VLA。

VLA模型具备思维链能力,支持长时序推理,短期记忆依靠视频帧,长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史,语言是对现实的高效压缩。正因为能够进行长时序分析,VLA可以处理更复杂路况,完成更深层次的推理。

VLA的另一个优势,是海量知识库。通过互联网规模的数据蒸馏与训练,模型积累了丰富的常识,而这是CNN或BEV端到端系统所不具备的。

培育“新物种”,道阻且长

“更准确地说,VLA的本质,是基于GPT的端到端模型,目前坚持投入大算力的公司,包括小鹏,其实都在朝这个方向走。比如特斯拉,最新芯片算力达2500TOPS,CNN模型根本不需要如此大规模的算力,只有GPT架构才需要大参数和大算力支持。”

周光认为,CNN模型参数量有限,而GPT架构天然适合扩展,这才是未来方向。

VLA与第一代端到端最根本的区别,是模型架构变了——从CNN转向GPT。训练方法比如是否引入RL,只是策略问题,CNN架构本身无法实现类似人类的推理和泛化能力。

理想的思路,和元戎启行是一致的。

李想把理想汽车的辅助驾驶划分为三个阶段——第一阶段是该公司2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”;第二阶段,是2023年开始研究、并于2024年正式推送的端到端+VLM辅助驾驶,接近“哺乳动物智能”;第三个阶段则是VLA,它将正式开启“人类智能”阶段,通过3D和2D视觉组合,完整地看到物理世界,而非VLM仅能解析2D图像。

“端到端模型像猴子开车,它能够学习人类行为,但并不理解物理世界。”李想的这个比喻,直接指出了端到端目前的缺陷,为了让智能驾驶“越开越像人”,理想汽车选择推翻此前的架构,自研VLA司机大模型。

值得一提的是,李想和周光都持同一个观点,即VLA不是一个突变的过程,而是一个进化的过程。

周光在采访时表示,从规则算法、端到端1.0到VLA模型,车企或供应商想自研辅助驾驶系统,都无法直接切入VLA,从有图、无图、端到端到VLA模型,每个阶段都无法跳过,整个发展过程必不可少,最多只能压缩某些阶段的时间,但不可能完全绕过。正因为此,他才坚定地认为,VLA模型的下限,其实已经超过端到端方案的上限。

以数据门槛为例,周光曾分析说,一家智驾公司至少要交付上万辆车,才能做端到端1.0(即端到端+VLM),而想要做到一个模块的VLA架构,则需要10万辆级的量产车才行。

李想也曾在一次采访中表态,如果一家企业连规则算法都做不好,那他们根本不知道怎么去做端到端;类似的,如果一家公司无法将端到端做到一个非常极致的水平,那么,他们连VLA怎么去训练都不知道。

面对VLA的火热,华为拒绝跟风。

靳玉志在近日的媒体发布会时强调,VLA依赖视觉和语言的中转,而WE直接省略语言环节。“WA直接通过行为端,或者说,直接通过vision这样的信息输入控车,而不是把各种各样的信息转成语言,再通过语言大模型来控制车。这里的 vision只是一个代表,它可能来自于声音,可能来自于视觉,也可能来自触觉。”

博世智能驾控中国区总裁吴永桥也在世界人工智能大会上表态,博世目前对VLA落地难度有清醒认知,公司依旧将战略重心押注在“一段式端到端”(One-stage End-to-End)技术路径上。

自动驾驶的终局会是怎样?

智能驾驶还远远没有完善的时候,大家都在用自己的思路,探索不同的技术路线,豪赌下一个蓝海。可以确定的是,无论是选择VLA路线的元戎启行和理想们,还是选择走WA路线的华为们,都深知长期主义的重要性。

正如周光在采访环节表示,现阶段,元戎启行还是聚焦于解决0到1的问题,先确保核心能力落地,再优化用户体验。元戎启行将VLA称为“新物种”,而这场培育“新物种”的万里长征,后面依旧道阻且长。

相关内容

热门资讯

车辆行驶中突然熄火怎么办 车辆... 当车辆在行驶过程中突然熄火,你应该采取以下措施:1、首先,保持冷静并打开危险报警灯,以警示其他车辆。...
空气压缩机用途是什么 空气压缩... 以下是关于空气压缩机的详细作用: 1. 压缩气体作为动力:空气经过压缩后可以用于机械、风动工具以及控...
桂k是哪里的车牌 桂k是哪里的... 桂K是广西玉林市的车牌,广西省其他市的车牌分别为桂A(南宁)、桂B(柳州)、桂C(桂林)、桂D(梧州...
轮胎w和y区别 轮胎w和y区别... 轮胎的型号中,字母W和Y的区别在于速度等级的不同。字母Y代表的速度等级为每小时300千米,而字母W代...
像水波纹的车标是什么车 像水波... 像水波纹的车标代表了哪些汽车品牌?车标呈现出水波纹设计的汽车品牌有昶洧汽车、中兴汽车和哈飞汽车。昶洧...
福克斯发动机故障灯亮了怎么回事... 福克斯发动机故障灯亮可能是由于多种原因造成的,包括传感器故障、油质不达标、混合气燃烧不良、增压问题、...
朗逸起动钥匙孔在哪里 朗逸起动... 朗逸起动钥匙孔位置: 1、朗逸起动钥匙孔位于方向盘的右下方,插入钥匙打到ON挡即可启动发动机。 2、...
转向机咯噔响怎么处理 转向机咯... 转向机咯噔响可能是由多种原因引起的,下面将为您详细介绍几种解决方法:1. 首先,检查转向机是否缠绕了...
染了头发可以拍驾驶证照片吗 染... 根据驾考规定,理论上可以染发后拍驾驶证照片,因为并没有规定不允许。需要注意的是,拍摄驾驶证照片的要求...
发动机启动时有异响后又正常 发... 发动机启动时出现异响后又正常的原因有多种可能性,以下是一些常见的原因: 1.发动机温度过低:在汽车冷...