今年年底,你的特斯拉汽车将会表现出类似“有意识”的感觉。
这是上周特斯拉 CEO 马斯克,在 All-In 科技峰会上接受访谈时针对特斯拉自动驾驶表达的新观点。
与此同时,你是否想过或者意识到,你正在驾驶的车,已经开始在“偷偷学习”了?
当你开着它穿梭在拥堵的城市路口,或在高速上疾驰时,它可能并不仅仅在“被你驾驶”。在看似平凡的日常里,它正像一个安静的学生,把你的每一次转向、刹车、加速、避让,甚至犹豫,默默记在“笔记本”里。
如果说传统汽车是“机械”的工具,那么新一代辅助驾驶汽车更像是一个不断成长的学徒。区别在于,它并不是只会模仿的“复读机”,而是通过一种叫做“强化学习”的人工智能魔法,逐渐学会自我博弈、自我进化,甚至在某些场景里,学得比人还聪明。
这就是今天我们试图要讲清楚的故事:一场从围棋棋盘延伸到马路街头的人工智能革命。
从围棋到“外星人”
强化学习的前世今生
很多人第一次听说“强化学习”这个名词,应该是在 2016 年的那场“人类与机器的围棋大战”。当时,AlphaGo 以 4:1 战胜了世界冠军李世乭,震惊全球。但真正的里程碑出现在 2017 年:AlphaZero 横空出世,它不再依赖人类棋谱训练,而是纯粹靠着与自己对弈,不断试错、不断调整策略,最终在 21 天内达到胜过中国顶尖棋手柯洁的 Alpha Go Master 的水平。
这背后的逻辑,就是“强化学习”。
如果说传统的模仿学习像是孩子抄写课本,照猫画虎;那么强化学习更像是孩子在游乐场里不停试探,不断摔倒、爬起,再试一次,逐渐总结出“最佳玩法”。
要理解辅助驾驶背后的技术逻辑,我们不妨从一个简单的比喻开始。
想象一下,如果要教一个从未见过汽车的“外星人”学会开车,你会怎么做?最直观的方法就是让它坐在副驾驶座上,观察你是如何操作的——什么时候踩刹车、什么时候打转向灯、如何判断车距。这种方法结合后续的“实际演练”在 AI 领域被称为“模仿学习”,就像教孩子识别猫和狗一样,通过大量标注好的样本数据来训练模型。
图虫创意
但这种方法有个“缺陷”:学生永远无法超越老师。如果人类驾驶员在某些情况下的判断并不完美,那么 AI 也会继承这些缺陷。更重要的是,现实世界的驾驶场景千变万化,即便是经验丰富的老司机,也不可能遇到所有可能的情况。
这就像是让一个学生只通过背诵标准答案来学习数学,虽然能应对已知的题型,但面对全新的问题时就会束手无策。
而强化学习则完全不同,它更像是让 AI 成为一个“自学成才”的天才。
想象一个更有趣的场景:我们把这个“外星人”放在一个巨大的驾驶模拟器中,让它自己去尝试开车。刚开始,它可能会撞墙、闯红灯、逆向行驶,犯各种低级错误。但每一次尝试后,我们都会给它一个“分数”——开得好就奖励,开得差就惩罚。
图虫创意
神奇的事情发生了:通过成千上万次的尝试,这个外星人不仅学会了基本的驾驶技能,更重要的是,它开始发现一些连人类驾驶员都没有想到的驾驶策略。它能在复杂路况下找到最优路径,在紧急情况下做出超人类反应速度的判断。
这就是强化学习的魔力所在。它不是简单地复制人类的行为,而是通过与环境的无数次交互,自主发现最优策略。就像围棋世界中从需要学习人类棋谱的 AlphaGo,到完全通过自我对弈就能击败世界冠军的 AlphaZero 的一种进化。
而这套技术逻辑,在最近几年已经开始被移植和应用到了辅助驾驶领域。这意味着,智能化汽车的辅助驾驶能力,不再只是“人类的复制品”,而是有机会成为“超人类的驾驶员”。
超越人类的可能
中美辅助驾驶技术的“论剑
在辅助驾驶领域,这场基于“强化学习”的技术革命正在全球范围内展开,而最引人注目的对决发生在中美两大阵营之间。一边是特斯拉的 FSD(Full Self-Driving),另一边是以 Momenta R6 为代表的中国强化学习大模型。
有趣的是,无论是特斯拉的 FSD 还是 Momenta R6,它们在技术路线上都铆足劲让强化学习率先实现了量产上车。这就像两位武林高手,虽然师承不同,但都默契地选择了同一套“内功心法”。
但“英雄所见略同”的是:它们都采用了“端到端”的技术架构。
什么是端到端呢?想象一下传统的驾驶辅助系统就像一个流水线工厂:第一道工序识别物体,第二道工序判断距离,第三道工序规划路径,第四道工序控制车辆。每一道工序都需要人工设计和调优,就像工厂里每个环节都需要专门的工人。而端到端系统就像是一个全能的工匠,直接从原材料(传感器数据)制作出成品(驾驶决策)。这个“工匠”通过深度学习,自己摸索出了最有效的工作流程。
其次,它们也都遵循“渐进式成长”的逻辑。就像培养一个孩子,不能指望他一夜之间从婴儿变成成年人,这些 AI 系统也是通过不断的数据喂养和算法迭代,逐步提升自己的“驾驶智商”。
但是,两者的成长环境却截然不同,这就像两个武林高手分别在不同的环境中“修炼内功”。
特斯拉官方
特斯拉 FSD 的成长环境相对“温和”。美国的道路环境虽然复杂,但相比中国来说,规则更加标准化。道路参与者种类少,交通规则相对简单,行人和非机动车的行为相对可预测。这就像是在一个“规则明确的棋盘”上学习下棋。但基于特斯拉辅助智驾领头羊的角色,让特斯拉 FSD 的体验一骑绝尘,鲜有超越者出现。
而 Momenta R6 则是在中国路况“地狱难度”的环境中成长起来的。中国的交通环境可以说是世界上最复杂的之一:汽车、电动自行车、自行车、行人在同一个空间里“和谐共存”,基础设施不断更新导致的施工占道、临时变道,甚至是不同地区的驾驶习惯差异、基础设施多样性……等等。
于是基于强化学习的Momenta R6飞轮大模型在中国复杂环境下的成长,培养出了独特的“中国功夫”式的技术优势:超强的“奇怪”场景适应能力。
例如在拥堵时优雅地“插队”实现流畅插空变道,与电动车“和平共处”,在复杂路口做出最优决策。面对加塞、鬼探头、盲区遮挡等高危复杂路况,都能精准预判、聪明决策、灵活应对。
甚至还练就了丝滑拟人的操作方式——在借道避让,窄路巡航等复杂场景中,车辆能够保持平稳流畅的加减速。
而在今年 2 月,特斯拉才正式宣布在中国市场推出其备受瞩目的“完全自动驾驶”(FSD)功能。特斯拉车主们期待已久的 FSD 功能终于在中国落地,引发热议,甚至开始了大规模的“中美技术的比拼测试”但特斯拉此次推出的 FSD 功能在国内被定位为“辅助驾驶”,而非自动驾驶,被网友推测为 FSD 的不完整版,甚至也出现了很多“水土不服”的状况。
有句话说得好:“由俭入奢易,由奢入俭难。”在中国路况这样的“地狱难度”下训练出来的 Momenta R6 强化学习大模型,就像是在高原上训练的运动员,一旦到了平原地区,自然能发挥出更强的实力。而特斯拉则开始像一个刚进入高原的运动员一样,在新的空间中不断的适应与“快速学习”。
也正是因为这样的原因,Momenta 的技术实力不仅征服了众多中国车企,更是获得了“BBA”(奔驰、宝马、奥迪)德国豪华品牌的全面认可,难点就在于德系豪华品牌对技术的要求极其苛刻,这在行业内无异于“金字招牌”。
同时,基于“强化学习”的 Momenta R6 飞轮大模型的发力,别克高端新能源子品牌“至境”旗下的首款智能豪华轿车——别克至境 L7 得到了“强化学习”的真传,在业内首批实现“无断点”城市 NOA(Navigate on Autopilot),其中就包括在中国复杂的高速 ETC 都能够准确识别,安稳的驶过无车道线的区域,找到准确的通行入口流畅通行。
至境 L7 同时还发布“多步变一步,不停车一键泊入”功能,带来行业顶流的辅助驾驶体验。这些功能听起来可能很技术化,但用通俗的话说,就是让你的车从一个“老司机”变成一个“驾驶大师”。
至境 L7 的发布会前,别克专门复现了此前懂车帝智驾横评测试中最困难的两道考题,分别是高速事故场景模拟“消失的前车”、城市事故场景模拟“盲区藏辆左转车”。
两项挑战中,至境 L7 均挑战通过,主动制动避险。
辅助驾驶的下一个十年
技术与用户的“平衡术”
回到文章开头的那个问题:你的车在偷偷学习,你知道吗?
现在你知道了。你的车不仅在学习,而且在进行一场关于智能、安全和效率的深刻变革。“强化学习”技术让这场变革不再是简单的技术升级,而是一次思维模式的根本性转变——从被动的工具到主动的伙伴,从模仿人类到超越人类。
特斯拉作为辅助驾驶的先发者,确实在技术普及和市场教育方面做出了巨大贡献。但技术的世界从来不相信“先来后到”,只相信“适者生存”。Momenta R6 飞轮大模型通过在“最难地图”上的修炼,已经展现出了后来居上的实力。
就像中国制造的高铁,最初是“引进消化吸收”,但最终跑出了世界上最快、最稳定的高铁系统;中国的辅助驾驶技术,也正在经历从“追赶”到“引领”的跨越。
技术价值很重要,但用户价值更重要。无论是多么先进的算法,多么复杂的模型,最终都要落实到用户的真实体验上。在这个层面上,那些真正理解用户需求、能够在复杂环境中提供优质体验的技术,才能成为最后的赢家。
而这,可能正是中国辅助驾驶技术最大的优势——我们不仅有世界上最复杂的应用场景,更有世界上最多样化的用户需求。在满足这些需求的过程中锻造出来的技术,自然具备了走向世界的实力。
未来某一天,当你的车在行驶途中全程没有一次“掉链子”,甚至在复杂的路口,它比你处理得还从容。你会不会忽然意识到:你的车,早已学会了“自我博弈”,而且可能,已经比你更会开车了。
强化学习的魔法,正在悄悄改变一切。
-果壳商业科技传播联合出品-