在人工智能技术持续突破的浪潮下,理想汽车CEO李想在今晚的#理想AI Talk第二季#上详解其自主研发的VLA(视觉语言行动模型)架构,并称其为“司机大模型”。这一技术被视为自动驾驶领域迈向“生产工具”的关键一步,或将彻底改变人车交互逻辑。
我让AI帮忙整理提炼了一下有关AI和VLA的内容如下:
一、从“机器”到“司机”:VLA如何模拟人类驾驶?
传统自动驾驶技术长期受限于规则算法和端到端模型的“机械性”——前者依赖高精地图和预设规则,后者虽能学习人类行为,却难以理解物理世界。李想将这两类技术比作“昆虫”和“哺乳动物”,而VLA的目标是成为“人类司机”。
VLA的核心架构分为三阶段训练:
“它最终要像人类一样,既能看懂导航地图,也能在小区里自主漫游。”李想举例称,面对道路施工等复杂场景,VLA可像人类司机般灵活应对,而非僵化停摆。
二、开源力量:DeepSeek如何加速理想汽车AI进程?
中国AI企业DeepSeek的开源模型成为理想VLA开发的催化剂。李想坦言:“原计划年底自研的语言模型,因DeepSeek V3开源提前了9个月。”理想汽车由此将自研操作系统“理想星环OS”开源,形成技术回馈生态。
关键合作亮点:
三、安全对齐:AI司机的“职业性”从何而来?
“模型能力越强,越需要约束其‘胡来’的可能性。”李想透露,理想汽车已组建100人规模的“超级对齐团队”,从三方面确保AI司机可靠性:
团队甚至模拟了“新手司机加塞”等危险行为,通过强化学习剔除不良驾驶习惯。“我们要训练的不是赛车手,而是职业司机。”李想强调。
四、行业变局:自动驾驶进入“生产力工具”时代
李想将VLA定义为“生产工具”,而非辅助功能。这一转变意味着:
对于特斯拉FSD入华,李想评价其“基本功扎实”,但当前版本尚未释放真正实力。“真正的较量在端到端架构与VLA之间展开。”
五、挑战与未来:全自动驾驶还有多远?
尽管VLA被寄予厚望,李想仍保持审慎:
“我们正经历黎明前的黑暗。”李想表示,2025年VLA将支撑理想汽车实现城市NOA全场景覆盖,而真正的“全自动驾驶”需等待法律与社会共识。
结语:AI重构人车关系
从“开车”到“与AI司机共处”,理想汽车的VLA架构不仅是一次技术跃进,更预示着交通领域的生产力革命。当李想说出“我们其实是在造司机”时,或许人类与机器协同驾驶的时代已悄然临近。