出品 | 搜狐汽车·E电园
摄像 | 丁卓 后期 | 谢雨馨
主持人 | 张云乾 编辑 | 蔡欣宇
就在前几天小鹏第二代VLA发布会上,何小鹏说这次不是升级,是L2到L4的跨越。真有那么大的突破吗?今儿咱们就掰开揉碎了讲讲小鹏的第二代VLA并且实际感受一下。
在发布会上有一个小“公式”,自动驾驶的能力=模型*算力*数据*本体,我们拆开来看。
首先,是模型。目前绝大部分使用世界模型的厂家、供应商都认为自动驾驶本质上是物理AI。像我们平常平时聊的AI,比如ChatGPT、文生视频,都是‘数字AI’。它们的世界就是服务器里的0和1,输入是文字,输出也是文字,错了删掉重来就行。但自动驾驶是‘物理AI’——它多了一个东西,叫‘本体’,也就是车本身。AI想得再明白,最后得通过方向盘、电机、刹车去执行。这就像你脑子里想好了怎么投篮,但你的身体得真的把球投出去。但身体不听使唤,想再好也没用。”物理世界的难度,是数字世界的指数级。数字世界输入的是规整的文字,输出一个是或否就够了,但在物理世界,输入的是连续不断的视频流,没有标点符号,没有段落划分。就像让你看一整段没有剪辑的监控录像,然后立刻做决策。车输出的是方向盘角度、电门深浅——必须是丝滑的连续信号,不能一卡一卡的。
所以小鹏认为目前任何现成的 LLM 和 VLM 大模型都不可能直接套用,于是将第二代 VLA 直接打造成了一套原生多模态的物理世界基座模型。
以前的车,摄像头看摄像头的,雷达看雷达的,最后再把信息拼起来,像做拼图,容易拼错也需要时间。所以在这个模型里,小鹏设计了原生多模态 Tokenizer,这相当于给车装了一个能同时处理眼睛和耳朵信号的处理器。信息一收集上来就把画面和声音揉在一起理解,效率高,也不容易出错。
另外,传统的VLA模型需要先把视觉信息“翻译”成语言,再根据语言生成动作,这个中间环节会造成信息丢失和反应延迟。所以,小鹏的第二代VLA去掉了中间的“语言转译”环节,实现了从“视觉”到“动作”的端到端直接映射。
有了模型,还需要车端强大的算力支撑。现在大家都卷芯片算力,数字是一个比一个大,这次发布会提出了两个词,一个叫名义算力,一个叫有效算力。名义算力就是指大家经常听到的标出的多少多少算力,有效算力就是在辅助驾驶中真正能使用和调度的算力。举个通俗一点的例子,你买了个第三方充电器,盒子上写着30W快充,这是名义算力。结果插上手机,充了半天发现还不如原装10W的充得快——因为协议不匹配、线材损耗、发热降频,最后真正进到电池里的,可能只有5W。这就是有效算力。
很多智驾芯片也是这个道理。厂商告诉你这颗有500TOPS,那是盒子上标的数字。但上了车,要适配各种软件、要过散热、要跑算法,七绕八绕下来,真正用来干活的可能只剩100多。小鹏做的,就是不用第三方,自己出原装全套。自己造芯片(相当于做充电头)、自己写编译器(相当于做充电线)、自己设计模型(相当于手机端的快充协议)。三者从头打通,没有协议损耗,没有线材浪费。图灵芯片搭配图灵模型,这一套下来计算利用率高达82.5%,推理时延差不多在80ms。得益以上种种,思维链的推理效率提升 32 倍。
那最后就是基于世界模型的仿真与强化学习了,这一部分之前出过专门的解析,就不过多展开了。那过去一年里仿真 Case 从 3 万增至 50 万,一天测试当量相当于人类跑 3000 万公里。那在这里,最核心的是‘自我博弈’。VLA模型想怎么开,世界模型就生成各种刁钻场景来刁难它。两者像两个高手过招,天天打、天天练,越打越强。
小鹏也推出的舒适度小程序撒了吗,固定好位置后,它会根据车辆颠簸复读,实时显示剩余咖啡,专业模式下也可以查看加速度等具体信息。但是!实在抱歉各位,我手机中间崩了一次,我记得崩之前显示的咖啡余量差不多在80多点,绝大部分撒出的原因是来自转向,但说实话,转向并没有让我有很明显的体感不适,它的过弯操控像一个很喜欢驾驶的老司机,这一点和特斯拉FSD的操控很相似。那整体来看,在我心里最好的地方是在于它现在从感知到控制明显比之前效率高,很多避让等动作真的非常丝滑,再加上它有几乎无感的人机共架模式,即便有突发情况接手也不会有车跟你博弈的体感。但在这段路上频繁出现压实线并线和车道内偏右行驶的情况,我们和工程师了解了一下,在正式推送的版本中,这个问题会被修复。