报告由元戎启行 CTO 曹通义在 NVIDIA GTC 2026 大会发布,核心提出自动驾驶本质是规模化问题,通过模型规模化、数据规模化、仿真技术三大方向突破瓶颈,以 400 亿参数 VLA 基础模型为核心,构建模型与数据双飞轮,加速迈向 L5 级自动驾驶,当前已实现 20 万辆车落地部署,目标冲刺百万辆车规模。
报告指出,实现 L5 自动驾驶需满足三大条件:系统全模块数据驱动、端到端无人工规则、足够车队闭环接管数据,且模型容量足以覆盖所有场景。当前行业虽认可数据闭环逻辑,但 L5 落地持续延期,核心是模型与数据规模化双重瓶颈:小模型数据吸收易饱和,传统数据 pipeline 依赖人工、效率低下,数据迭代无法复利增长,二者速度共同决定自动驾驶进阶效率。
为破解瓶颈,元戎启行打造兼具产品与数据引擎属性的基础模型。模型规模化方面,推出 400 亿参数 VLA(视觉 + 语言 + 动作)基础模型,分四阶段训练:预训练以视频预测为核心,100PB + 海量视频数据实现 100% 数据利用效率,解决传统端到端轨迹训练数据浪费问题;中期训练分三步,先通过视觉 + 动作学习驾驶行为,再融入语言实现驾驶推理与分析,最终形成驾驶员、分析师、评判者三位一体能力;后训练通过强化学习优化策略,实时推理延迟控制在 60-85 毫秒,满足 10-15Hz 实时控制需求。
数据规模化层面,核心痛点是 raw 数据转化为高质量样本的效率。传统数据 pipeline 耗时超 5 天,元戎启行用基础模型赋能全流程,实现自动诊断问题、AI 挖掘高价值数据、思维链标注、自动评估,将周期压缩至 12 小时,效率提升 10 倍。依托 20 万辆车的接管数据,结合模型自动筛选、标注、评分能力,把所有数据转化为模型训练样本,推动数据飞轮从 20 万辆向百万辆扩容。
仿真技术用于弥合仿真与现实差距,针对低频高风险长尾场景,借助 NVIDIA 开源工具链实现高保真 3D 场景重建与自动修复;通过 Cosmos 风格迁移生成全天候仿真数据,结合自研 DiPIR 技术在真实数据中插入 3D 障碍物,系统生成极端危险场景;最后通过强化学习优化,让模型评判器评估推理与动作一致性,精细化打磨边缘场景决策。
目前,元戎启行城市 NOA 方案累计装车超 20 万辆,真实行驶里程达 13 亿公里。未来将以统一 VLA 模型为核心,依托模型、数据、仿真三大能力,持续迭代优化,以规模化定律为路径,加速实现 L5 自动驾驶落地。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系