Percept-WAM:真正看懂世界自动驾驶大脑,感知到行动一体化模型
创始人
2025-12-11 10:32:27
0

在过去几年,自动驾驶圈流行一句话:「大模型会说话,但不会开车。」

一方面,大规模视觉语言模型(VLM)在文本理解和逻辑推理上突飞猛进;另一方面,一旦把它们放到真实道路上,让它们处理长尾场景、远距离目标和复杂博弈时,这些 “聪明大脑” 却常常犯低级错误:看不清、定位不准、反应不稳定。深层原因在于 ——现有 VLM 在空间感知和几何理解上的能力,远远跟不上它们在语义层面的 “表达能力”。

为了让大模型真的能 “看懂世界”,在很多现有方案中,研究者会在训练中加入一些 “感知类 QA” 问题,比如问 “左前方有没有车”“两车距离有多远”。但这类监督更多停留在语义标签和粗略相对关系层面,并没有让模型真正学会可用于控制决策的强 2D/3D 感知能力 —— 例如精确、稳定的检测框、分割结果和 BEV 感知信息。换句话说,今天很多 VLA 仍然停留在「会回答关于世界的问题」,而不是「真的看清这个世界」。这种 “弱感知的大模型”,显然不足以支撑自动驾驶和广义具身智能对空间理解的高要求。

近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路。

相关内容

热门资讯

Percept-WAM:真正看... 在过去几年,自动驾驶圈流行一句话:「大模型会说话,但不会开车。」 一方面,大规模视觉语言模型(VLM...
新紫光集团在重庆成立科技公司,... 企查查APP显示,近日,重庆紫光天际科技有限公司成立,法定代表人为许惠龙,注册资本为3000万元,经...
国内船企单次合作“史上最大单”... 本报(chinatimes.net.cn)记者刘昱汝 徐芸茜 北京报道 12月8日,中国船舶集团有限...
起亚官图揭晓全新概念车:棱角切... 起亚汽车近日正式发布了一组全新概念车的官方图片,其极具冲击力的设计语言瞬间吸引了全球目光。这款概念车...
OPPO向奥迪许可5G专利,可... 12月10日,OPPO宣布与奥迪公司(下称“奥迪”)签署全球专利许可协议,将包含5G在内的蜂窝通信标...
「毅」新闻 | 新石器完成超6... 近日,全球最大的L4级无人城配(RoboVan)解决方案提供商——新石器公司(Neolix)宣布完成...
腾势D9 OTA升级来袭:智能... 腾势D9近日完成了一次重要的OTA升级,为车主们带来了多项智能座舱的全新功能与优化体验。此次升级覆盖...
速腾聚创斩获“近百万台”定点,... 来源:市场资讯 (来源:观察者网) (文/观察者网 张家栋 编辑/高莘) 12月8日,激光雷达厂商速...
企业竞争图谱:2025年智能物... 今天分享的是:企业竞争图谱:2025年智能物流车 报告共计:18页 智能物流车赛道驶入快车道:成本与...