在看到理想汽车“理想AI Talk第二季”中播放的一段演示视频:驾驶员唤醒“理想同学”给出指令,就可以让辅助驾驶临时调整路线、停车时,我正坐在离开机场的出租车上,看到首都机场高速拥堵,于是告诉司机转走京承高速。
李想在一个多小时时间里所谈的“理想VLA司机大模型”、“从动物进化到人类”,在这一刻有了非常具象的呈现。
主持人张小珺问李想在体验过VLA(Vision-Language-Action Model,视觉语言行动模型)后,有什么aha moment(惊喜时刻)?
李想说:“我觉得挺难有什么惊喜时刻,因为你已经理解它的原理了,其实就变得跟人很像。它变得更像人其实没什么惊奇的,对吧?相反一个动物忽然会一些东西,你觉得挺惊讶,但一个人做好东西,你认为其实是正常的。”
尽管相比于普通用户,李想更清楚VLA的原理、逻辑和性能,但就像那一刻我告诉出租车司机应该走哪条路一样,当VLA真的可以按照我给出的语言指令做出执行时,那是一种奇妙但又自然、顺滑的体验。
进化,其实往往就是在这样悄无声息中完成。
,时长
00:49
VLA,让辅助驾驶进化到“人类智能”
从上次“理想AI Talk”到现在过去了130天,随着DeepSeek的火爆,似乎很多人都在期待AI解放生产力的时刻,但李想却说:“从实际的角度而言,人工智能发展这么好,但我每天工作时间并没有减少,还是在增加。”
事实上,大多数人对于AI的使用,仍然将其作为一个信息工具。AI在给出结果的时候,需要联网搜索信息,再进行推理,但从索引的信息源开始其实就会出现失真和不准确,最终带来大量无效信息、无效结果。
李想在过去几个月和很多人在讨论这个问题到底出现在哪里?
他将AI工具分为三个层级:信息工具、辅助工具和生产工具。目前,大多数人将AI作为信息工具使用,而成为辅助工具后,AI可以提升效率,就像目前的辅助驾驶系统,体验更好但不能摆脱对人的依赖。未来,AI发展成为生产工具后,能够独立完成专业任务,显著提升效率与质量。
李想认为,判断Agent(智能体)是否真正智能的关键,在于它能否成为生产工具。只有当人工智能变成生产工具,才真正迎来爆发时刻。比如替代目前人类雇佣的司机,承担起类似的职责。
而VLA,就是要让AI真正成为司机,成为在交通领域的专业生产工具。这也是为何理想汽车选择了“VLA司机大模型”这样一个名字。
其实这已经解释了VLA对于用户来说是怎样的价值,而更通俗地讲,它就是“代驾”,用户现在如何与代驾司机沟通,未来就如何与司机Agent说。
这个过程不是“突变”,而是“进化”。
在理想汽车,进化经历了三个阶段:
第一阶段,是2021年起理想汽车自研基于规则算法和高精地图的辅助驾驶,类似于“昆虫动物智能”;第二阶段,是2023年起开始研究,并于2024年正式推送的端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近于“哺乳动物智能”。
但端到端模型在处理复杂问题时存在局限,VLM尽管可以提供辅助,但开源模型在交通领域的能力有限,同时端到端也难以与人类沟通。因此,理想汽车从2024年起开始了VLA的研究。
这也就是第三阶段,VLA开启“人类智能”,它通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,能看、能理解、能行动。
这三个阶段是循序渐进的,只有做好规则算法才能知道如何做端到端,只有把端到端做到极致水平,才有机会做VLA,这个过程没有捷径。
如何“造司机”?
李想说他只和DeepSeek创始人梁文锋聊过一次,但印象深刻,他说:“我自己个人感觉,他(梁文锋)有两个特点,第一他是个特别自律的人,第二是我认为他是会在全世界范围内取研究和学习最佳实践和最好的方法论的一个人。”
“自律最大的特点就是能够坚守这些你相信的东西,能够坚守这些最佳实践,能跟人性的一些懒惰、走捷径,这些方面做对抗。”李想这样解释他对自律的理解。
很多时候,外界总觉得理想汽车的成功是靠“冰箱、彩电、大沙发”的捷径,但事实上,从造车到研究VLA,理想的脚踏实地从未少过。
就像李想谈到将自研整车操作系统理想星环OS开源的原因,其实并不复杂,DeepSeek的开源帮助理想汽车加速了9个月的研发时间,带来了巨大的收益和帮助,因此李想、谢炎(理想汽车CTO)的内心,也希望对社会做些贡献。
理想汽车在提到VLA训练过程时,特意提到“对齐人类价值观”,其实这背后同样是李想对于技术、产品、品牌的态度,理解这一点,是理解理想汽车训练VLA,打造“AI司机”过程的基础——就像选员工需要专业、职业和信任一样,理想汽车要做的人工智能是有人类价值观的人工智能,有道德、有边界。
这也解释了,为何有了DeepSeek,但理想汽车依然大量投入资源到基座模型的研发。这是因为在汽车领域,VLA的V(vision视觉)和L(language语言)都涉及更专业的车领域、交通领域的语义语料和面向家庭用户的语义语料,以及VL(视觉和语言)的组合语料,这些是OpenAI和DeepSeek所无法提供的。
而这是一个“漫长”而没有捷径的过程,“结果还没呈现呢,你没办法直接去吃第十个包子。”李想说道。
理想汽车对于VLA的训练分为预训练、后训练和强化训练三个环节,类似于人类学习驾驶技能的过程。
预训练,相当于人类学习物理世界和交通领域的常识,通过大量高清2D、3D的视觉数据、交通相关语料,以及与物理世界相关的VL(视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。
后训练,相当于人类去驾校学习开车的过程。随着Action(动作)数据的加入,即对周围环境和自车驾驶行为的编码,VL基座变为VLA司机大模型,具备实时性特点,实现了在复杂交通环境中的博弈能力。
强化训练,相当于人类在社会中实际开车练习,让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至是超越人类驾驶水平。其包含两部分:一是通过RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)完成安全对齐,使模型遵守交通改规则,贴合中国用户的驾驶习惯;二是将纯强化学习模型放入世界模型中训练,提升舒适性、避免碰撞、遵守交规。
在完成这三步训练后,VLA司机大模型即可部署至车端运行。而用户对于VLA司机大模型的感知,除去更舒适、安全的体验外,最直观的就是“司机Agent”可以听懂用户的自然语言,就像人类司机一样对用户的指令做出反馈。
走无人区,解决行业解决不了的问题
最近几个月,辅助驾驶走到了风口浪尖的十字路口,在李想看来,这么多年一路走来,现在像是黎明前的黑暗,他说:“正因为辅助驾驶行业遇到了问题,我最喜欢、最开心的方式,就是去解决行业解决不了的问题。”
当初理想汽车推出增程,是为了解决电池成本高、充电难的问题;后来推出5C,是为了解决充电慢、等待时间长的问题。如今做操作系统,也是因为过去传统系统存在性能不佳、开发缓慢、芯片匹配周期长的问题。
“我觉得这些问题(存在)恰恰是我们的价值所在。”李想这样说道。
而在做VLA的时候,李想并不知道预训练、后训练和强化训练哪个最难,因为没有任何人走过这条路,也就无法预测未知,李想坦言自己走的是一个无人区。
但就像李想所说,他始终坚持自己所坚信的东西。做VLA并非脑袋一热,而是有清晰的逻辑分析和理论路径的——走无人区,但方向很清楚。
李想认为VLA最早实现的领域就是交通,因为这个领域规则清晰,车在路上跑尽管复杂但边界清楚,具备确定性。其次,车的控制最多是3个自由度(左右、前后、轻微的旋转),而相比机器人40多个自由度,简单了太多。第三,是很好做强化,用户在使用过程中的不满意接管,就是系统能力和人类没有对齐,那就可以告诉系统不该做什么以及该怎样做。此外,G值、交通规则、碰撞都是可以清晰表达的,训练数据也就非常清晰。
再过两个月,理想汽车将迎来成立十周年,在这样一个标志性的时间点上,李想觉得自己今天90%的状态、思维方式甚至和上高中时差不多,他说:“遇到问题去解决问题、解决别人不愿意解决的问题、解决消费者遇到的最大的问题、去找更多的人学习。我觉得到今天为止我没变化,只是解决的问题在变大、服务的用户群体在变大、公司的规模在变大。”
过去十年,理想汽车的成长也并非一帆风顺,而行业的内卷与竞争也愈演愈烈,但我们可以看到理想汽车每次遇到困难和挑战后,都可以快速调整并解决问题,归根结底,乐观而积极的心态和冷静、务实的处事逻辑是支撑这一切的根本。
张小珺在对谈结束前问李想,如何成为一个更有能量的人?
李想回答说:“我觉得就是关注人,关注那些离你最近的人,关注亲密关系的人,还有是首先关注你自己,接受自己的优点和不足,并且用成长替代改变。”
这或许也就能够解释,为何“冰箱、彩电、大沙发”那么多,但却很少有人能够真正学到“创造移动的家,创造幸福的家”的本质。
而这,才是过往被很多人忽略的,理想汽车最核心的竞争力。