长安汽车AI实验室团队
一群聚焦汽车智能座舱AI研发的年轻人,从零开始,从理念到产品,他们精研磨砺,不断改进长安系智能网联新能源车的用户体验。
“你好小安,向右变道”
“即将向右变道请确认”……
近日,长安科技园某试验车旁,一群年轻人围成一圈,一边看着语音交互,一边盯着显示屏。驾驶员轻声喊出“确认”,汽车迅速开启转向灯,同时方向盘自行转动,一气呵成地完成向右侧变道。这时,大家松了口气,随后一齐欢呼起来。
AI大模型正不断向汽车领域进军,在重庆长安汽车股份有限公司,有一支青年突击队,他们通过AI大模型技术推进汽车智能座舱AI研发,即将上市的新款车就聚合有他们的创新成果。
▲团队成员集思广益解决难题。受访者供图
摸索中找准科研努力的方向和切口
“人工智能突飞猛进,对汽车产业将带来怎样的影响?”2021年8月底,重庆长安汽车股份有限公司成立AI实验室,“90后”罗咏刚成为项目负责人,承担起将前沿AI技术落地汽车领域的重任。
▲罗咏刚(右一)与团队成员一起上车测试。受访者供图
“团队建立时,相关领域的探索刚起步。大家的专业也是天差地别。”为了尽快凝聚起团队合力、打开突破口,大家摸索开展了动力底盘、工具链等方面研究,“想了很多办法,但效果并不理想。”
缺乏方向感,科研就显得盲目和沉重。但这支年轻的团队在咬牙坚持。一年后,随着OpenAI推出GPT-3.5版本,团队受到启发,正式确定了努力方向——聚焦汽车智能座舱AI研发。经过短暂讨论,罗咏刚等决定以多意图控制为切口,打开局面。
“什么是多意图控制?简而言之,就是通过AI大模型技术使得驾驶员可以同时对车辆进行多项功能控制。”罗咏刚解释,在传统驾驶座舱,驾驶员打开车窗、空调、氛围灯等控制行为都是一对一控制,要实现同时的多意图控制,就要给车辆装上AI大模型并升级。通过不断实验,罗咏刚他们用了2个月时间,先初步实现了3意图控制。
“开窗、开空调,同时放首周杰伦的歌。”在试验车上,罗咏刚下达指令,不到一秒内,车辆如预想般开窗、开空调、放起音乐。大家顿时欢呼雀跃。“虽然一开始功能不多,但却是我们团队共同努力的成果,证明我们的研究方向是正确的。我们的坚持没有白费。”
以“多意图控制”为起点,
这支年轻团队迅速展开攻关,
很快在语音编排、服务推荐等领域获得突破。
以思考和坚韧把金点子变成好产品
“小安小安,我要导航去大竹林。”不到1秒,司机便收到汽车的回复:“我有三条路线,请问你要选择哪一条呢?”这正是长安汽车语音交互模块工作的状态。通过云端建立连接,AI大模型借助语音合成技术向用户需求进行反馈,实现人车间的沟通交流。
其实,早在2024年10月前,这项技术并不成熟,一旦遇上弱网、断网,交互就会中断,非常影响用户体验。团队副总设计师孟艺凝与部分成员萌生了一个想法:如果增加一个线下语音处理模块,是不是能解决突然断网的问题呢?
▲孟艺凝(右三)与团队成员合照。受访者供图
“逻辑看似简单,但操作很难。”孟艺凝说,最难的是链路问题,线下语音处理模块如果通过CPU处理,虽然最为简单高效,但CPU需要处理汽车运行中的海量信息,剩余资源十分有限;若是通过DSP数字信号处理技术进行处理,又会因数据格式的转化造成损失。“需要我们持续不断优化。”团队决定走一条“中间路线”,将“云端”和车载CPU及相应模块、DSP系统整合在一起,通过不断迭代,实现目标。
另外,他们还针对语音交互中的各种痛点进行了分析,按照用户体验最佳、资源利用最少、技术水平最能实现的原则确定了最优解决方案。
今年6月,
孟艺凝负责并开发的
自然语言处理模块将
正式完成并交付。
不久的未来,
这项技术成果将应用在新款车型上。
集思广益找到语音模型的关键突破口
4月9日,对于团队“00后”成员李翔来说是个特别的日子,由他设计并训练的语音模型,正式通过考核进入量产流程,这是他首个全流程参与完成的作品。
▲李翔正在训练语音模型。受访者供图
可好景不长,测试部门很快发现了问题,“有时候语音系统听不懂我们说话。”“车载语音系统的回复明显错误。”……究竟哪里出了问题?
“这反映出模型的泛用性不行。简单说就是我的关键词库还不足以覆盖生活中常用的提问表述方式。”李翔冷静分析。“既然不够,那就升级扩充原有关键词库。”团队说干就干、绝不服输,一个月后,测试部门仍给出“效果不佳”的反馈。
AI产品的特点就是效率高、迭代快,最忌讳的就是像这样长期“卡”在一个环节而没有改观,这个研究项目很可能被放弃,之前的工作成果也将付诸东流。
闭门造车解决不了问题,那就集思广益。李翔将问题带到例会上,与团队成员们展开讨论。最终大家决定,通过嵌入AI大模型来解决问题。一个月调整,李翔的新语音模型出炉。
“前面风景好美。”测试时,一位同事对着语音大模型说出了这样的话。这时,大模型迅速回复:“是否要打开车窗、调整座椅靠背?”李翔一下子激动地跳了起来,这个回复非常符合驾驶者的心意。
今年4月,李翔等人的语音模型终于通过最终测试,进入量产环节。几个年轻人激动得流下了幸福的泪水。
(来源:新重庆-重庆日报)