理想、华为、小鹏：三种智驾路线，三种“天命在我”_汽车资讯

理想、华为、小鹏：三种智驾路线，三种“天命在我”

创始人

2025-11-21 00:48:19

0次

“话说天下大势，分久必合，合久必分”。

一年之前，除了蔚来死磕世界模型，各路智驾玩家合兵一路，都在冲刺端到端的落地。

而到了现在，在端到端的范式之下，智驾局面之分化堪比三国：

理想押宝VLA，华为和蔚来站队世界模型，小鹏则要沿着第二代VLA直接走向L4。

虽然不见明牌的刀光剑影，但桌面下的唇枪舌剑却实在不少。

理想智驾负责人郎咸朋说VLA是可以走向更高级别自动驾驶的，世界模型是为VLA服务的；

华为车BU CEO靳玉志说VLA取巧，并不是走向真正自动驾驶的路径；

小鹏新上任的智驾一号位刘先明则表示，第二代VLA才是当前智驾的最优解。

大家各执一词，都笃定自己才是正确的。

可智驾技术路线究竟最终会收敛在哪里，行业目前仍没有定论。

虽然谁是正确的尚未可知，可它们之间到底有什么区别却是清晰的。

在《大火的VLA，为什么华为不用？》这篇文章中，我们已经讨论了VLA和世界模型的不同。

那么来到本篇文章，我们再聊聊VLA和第二代VLA，以及第二代VLA和世界模型之间的区别。

VL还是V+L？

首先需要明确的是，行业并没有明确地划分出第一代和第二代VLA。

所谓第二代VLA其实是小鹏的一家之言。

VLA大家应该不陌生了，指的就是视觉语言动作。

按照元戎启行CEO周光的说法，VLA的核心能力指的思维链和长时序推理。

而VLA之所以具备思维链和长时序推理，其核心又在于VLA的L，也就是语言。

VLA能够将看到的视觉信息转化成自然人类语言，然后再结合车辆状态，做出对应的行动规划和决策。

理想VLA在运行时呈现的CoT推理卡片，就是视觉转化成自然语言的典型呈现。

这样一来，辅助驾驶的可解释性自然大大增强，驾驶者能知道VLA看到了什么、准备怎么做——思想整齐划一，信任感和安全感也就基本到位。

可从何小鹏的角度出发，VLA的问题恰恰就在语言这里。

在何小鹏看来，VLA需要从视觉到语言、从语言到动作这两个环节。

一方面，语言转化能力成了影响辅助驾驶能力的瓶颈；另一方面，两次转化过程中，信息损耗也很高。

所以何小鹏在小鹏科技日上说从第一性原理看，VLA“非常不好”。

既然L不好，小鹏第二代VLA索性就把L部分给砍掉，实现从视觉直接到动作。

如果把L完全砍掉，VLA不就完全变成VA了，跟世界模型无二，怎么还能是VLA？

实际上，按照小鹏自动驾驶中心负责人刘先明的说法，第二代VLA其实还是会有文字，只是文字会被Token化，变成物理语言。

与此同时，VLA的“VL”是从视觉到语言，有一个先后的的转译过程。

第二代VLA中的“VL”则是加法关系，输入的是视觉加Token化语言，然后再到动作。

更浅显地说，有些像做算数题，刚开始算的时候，需要明确加减逻辑、背诵乘法口诀、掰手指头、写草稿纸。

而一旦熟练，往往看一眼就知道计算结果了。

逻辑还是在，只不过被内嵌到那一眼的感觉中去了。

VLA和世界模型什么关系最好？

VLA和世界模型最好的关系应该是什么？

理想在云端部署世界模型进行预训练，然后迭代车端的VLA，所以郎咸朋认为世界模型是为VLA服务的。

世界模型吭哧吭哧练兵，VLA就风风火火打仗。

蔚来在NWM有问必答第三期中说当蔚来世界模型打开语言输入时，它就包含了VLA视觉语言行动模型的特征。

也就是说在蔚来这里，世界模型其实就包含VLA，只是自己想不想用的事，很像将军和小兵的关系。

华为车BU CEO靳玉志又说，华为不会走向VLA的路径，我们认为这样的路径看似取巧，其实并不是走向真正自动驾驶的路径，华为更看重WA，也就是World Action，中间省掉Language这个环节。

华为在云端有WE世界引擎，在车端有WA世界行为模型，跟VLA就是相忘江湖的两条平行线。

到了小鹏这里，VLA和世界模型又发生了新的关系。

何小鹏说第二代VLA既是VLA模型，又是世界模型，本质是理解——推演——生成，最终做出最佳决策。

翻译过来，在第二代VLA这里，VLA和世界模型成了你中有我、我中有你的紧密协作关系。

相比于VLA，世界模型最明显的变化就是外界给出一个刺激，就能是直接从视觉到动作。

就好像向上抛出一个苹果再伸手接过来，它就是一看到便就有动作的反应。

没有人会在那一瞬间根据苹果重量、地球加速度、空气阻力等外界因素，再计算出手的时间、速度、力度。

蔚来智驾负责人任少卿也曾说过，语言是低带宽的，只能描述有限信息，会对世界形成概念认知，却不能建立时空认知，也就是对物理规律的认知。

一辆搭载了FSD V14.1.7的特斯拉最近就遇上了一个典型的需要时空认知的场景。

前方车辆打滑甩尾，直接来了个原地掉头。

当前车刹车灯一亮，特斯拉就进行了减速动作，等汽车有明显的甩尾动作之后，特斯拉的减速力度已经不够，车主及时接管并猛踩刹车才最终避免了碰撞。

车辆如果要成功处理这样瞬息万变的危险场景，必须要对时间、空间的规律有所认知，才能做出类人的下意识反应。

VLA缺乏对物理规律的认知，第二代VLA便通过世界模型将VLA的这块短板给补了上来。

刘先明在小鹏科技日Workshop中放的PPT显示，第二代VLA能够将视频+语言信息经过一定处理后输入到世界模型中，经过强化学习后输出到动作。

写在最后

到了这里，综合以上信息，我们可以列举一下VLA、第二代VLA、世界模型，这三者之间的区别了。

当然，最终是VLA、第二代VLA还是世界模型最强，自然还是靠体验来说话。

透过VLA、第二代VLA和世界模型之间的三国杀，其实也能看到智驾行业来到今天，已经进入了一个缺乏清晰共识的阶段。

智驾的终极答案到底是什么，目前谁也说不清楚。

也许条条大路通L4，大家的坚持都能得到好的结果；也许之后又杀出来一个“司马家”，大家只好再推倒重来。

路线视觉语言理想华为模型智驾动作世界天命何小鹏刘先明小鹏

上一篇：喜欢“方盒子”的等等广州车展5款新车来袭坦克300极地版领衔

下一篇：智能油车新标杆，广汽丰田换代威兰达15.98万起开启域控新时代

理想、华为、小鹏：三种智驾路线，三种“天命在我”

相关内容

热门资讯