原创 暴力实测千问App!亮点够惊艳,评分高达4.8,竟栽在麦当劳识别上
创始人
2026-01-19 23:40:42
0

1月中旬的AI圈算是炸开了锅,阿里千问App突然官宣全面接入自家全生态,点外卖、订机票、网上购物全能在一个App里搞定,直接喊出要迈入“AI办事时代”的口号。

这话听着够唬人,但有博主不死心,拿“黑客指令”和“500斤大米配送”这种极端需求暴力试探后,总算扒出了这款国产AI的真实底细,亮点确实够亮眼,可短板也扎眼得很,成熟与稚嫩直接对半开。

一、亮点够硬:安全生态双能打

说句实在话,千问这次在安全这块的表现,是真的让人挑不出大毛病。

博主搞的暴力测试里,不管是想钻漏洞的Prompt注入攻击,还是试图越权查财务信息,甚至是提一些涉及危险行为的歪点子,千问都能精准拦截,丝毫不给可乘之机。

单论安全合规这块的评分,直接冲到了4.8+的高分。咱们普通人用AI点外卖、付账单,最在意的就是钱和隐私安全,千问这种守住底线的表现,无疑给用户吃了颗定心丸。

我跟你讲,这次升级最加分的还是生态整合能力。从1月15号开始,千问正式打通了淘宝闪购、支付宝、飞猪这些阿里系应用,真正实现了“一站式办事”。

以前点外卖,得切换好几个App选店、下单、付款,现在对着千问说一句“帮我点40杯霸王茶姬伯牙绝弦”,它直接就能调用资源生成订单,连付款都能通过支付宝AI付完成,全程不用跳来跳去。

尤其是点瑞幸这种需要选冰度、糖度、加不加料的饮品,再多嵌套需求,千问都能捋得明明白白,下单效率直接拉满。

更值得夸一夸的是它的多模态能力,简单说就是“看图识物”的本事够硬。

拿张食材照片给它,不仅能精准认出是什么,还能匹配到能做这道菜的餐厅,从识别到推荐形成完整闭环,这在当下的外卖AI里算是相当成熟的功能了。

发布会现场演示的AI打电话订餐厅更绝,除了最后会自报“我是千问AI助手”,语气、沟通逻辑都和真人没差,连确认人数、到店时间这些细节都能聊清楚,这份交互深度比不少同类产品强太多。

而且支付宝还为AI付加了三重保障,必须手动授权开通,付款要刷脸或输密码,还承诺被盗即赔,安全感直接拉满。

不光是点外卖,千问在复杂任务处理上也有两把刷子。有实测显示,让它规划北京两日游,4分钟就能生成带地图标注、景点开放时间、预算明细的完整手册,还能一键导航、订酒店。

甚至能帮你开发简单的小游戏、把财务报表做成可视化PPT,真正从“只会聊天”变成了“能干活的助手”,这也是国产AI的一大进步。

二、短板扎眼:常识逻辑拖后腿

你发现没,越是功能多的AI,越容易在常识上掉链子。千问在“价格逻辑陷阱”测试里就暴露了这个问题,哪怕配送费比买的水贵10倍,它也只会机械执行指令,不会反过来想想这需求根本不合理。

还有人测试点20杯咖啡,明确要求10杯加冰、10杯无糖,结果千问直接给生成了20杯热无糖,复杂指令的精准度明显还有提升空间,遇事只会死磕指令,不会灵活变通。

从另一个角度看,千问的基础能力漏洞也很突出。在预算优化测试中,不光计算逻辑简单粗暴,还闹了个大笑话。

把麦当劳认错成了茶颜悦色,这明显是垂直领域的知识储备不够,说白了就是“认品牌”的本事还不到家。

就算是新上线的购物功能,体验也不够完善,商品卡片得一个个点着看,没法直观对比价格、销量,有时候还不如直接打开淘宝闪购搜得痛快,反而绕了弯路。

咱们再说说听话的准确性,面对“不要香菜、不要蒜、少放辣”这种多重否定的需求,千问不能一次get到重点,得反复提醒、调教好几轮,才能完全按要求来。

这背后其实是它在长逻辑推理上的不足,注意力没法兼顾所有约束条件。

订机票、酒店的时候更明显,虽然能给出直飞和中转方案,但春节期间机票价格、酒店库存实时变动,千问没法及时同步最新信息,经常出现标注“可订”实际已经售罄的情况,想锁定最优选择还得自己反复核对。

还有个小毛病就是信息呈现太杂乱,处理复杂需求时,有用的操作入口、关键信息都埋在大段文字里,不能像手机APP那样做成显眼的卡片,找起来很费劲。

说句实在话,咱们用AI是图省心,要是找个功能还得逐字读回复,反而增加了麻烦。

三、能力均衡:潜力足但需打磨

客观来讲,千问这次升级确实展现了国产AI的硬实力。它搭载了阿里最强的Qwen大模型,对中文语境的理解能力拉满,不管是日常聊天还是处理复杂需求,都能get到咱们的潜台词,“双商”在线。

而且它的功能覆盖够广,既能当外卖助手、出行规划师,还能帮着做PPT、开发小游戏,兼顾了日常使用和轻度办公需求,这种能力均衡性在国产AI里并不多见。

但潜力归潜力,短板也不能忽视。目前千问最大的问题,就是“懂技术却缺常识”,能精准执行指令,却不会判断指令是否合理,这也是很多国产AI的通病。

比如面对“500斤大米配送”这种明显超出常规履约能力的需求,它不会提醒用户“没法配送”,反而会硬着头皮尝试,这种机械性的表现很影响使用体验。

而且在实时数据同步上还有差距,不管是机票价格还是酒店库存,都没法做到和平台实时同步,导致推荐结果不准。

结语

千问这次升级,算是实打实把AI从“聊天工具”推进到了“办事助手”的阶段,阿里生态+安全保障的组合拳打得很到位。但常识逻辑、实时数据同步这些短板,也说明国产AI离真正“聪明”的主动助手还有距离。AI办事时代才刚起步,堆功能容易,磨细节难。与其盲目加新功能,不如先把常识逻辑、用户体验打磨扎实,毕竟咱们用AI图的是省心,不是找罪受。国产AI的进步有目共睹,只要补齐短板,未来可期。

相关内容

热门资讯

原创 雷... 众所周知,上汽奥迪相较于一汽奥迪,它的弱势可不是一点半点,最显著的问题就是车型阵容非常缺乏。截至目前...
吉利的四十不惑 1月22日,吉利控股集团正是发布了面向2030年的“一个吉利,全面领先”战略框架。 在集团迎来创业4...
同为A级油车,大众朗逸和丰田卡... 在新能源和智能化浪潮的双重夹击下,一些合资品牌逐渐被淡忘,然而合资大众和合资丰田,在国内的市场表现,...
一汽解放获评“15年商业向善典... 1月22日至23日,第十五届公益节暨2025 ESG影响力年会在北京举行。作为公益慈善领域最具影响力...
原创 奔... 导读:作为北京奔驰基于EVA纯电平台打造的中大型纯电轿车,2026款奔驰EQE以“配置升级不加价”的...
2025年末上海网站定制开发公... 很多企业做官网时,会把预算押在“更高级的视觉”,但真正影响线索的是“选型效率”。客户来官网往往不是来...
溢价50%-80%,星星人新系... 泡泡玛特旗下新晋IP“星星人”正迅速崛起,大有接棒昔日顶流“Labubu”之势,成为潮玩市场的新焦点...
收评:商业航天出高潮 无人驾驶... 今天盘面好像真的是一波多折,基本上就是看到指数在爬了一个坡之后,突然来一波断崖式的下行,然后查找原因...
摩根士丹利:2026年底,特斯... 1月23日,摩根士丹利发布特斯拉(TSLA.US)最新报告。其中指出,特斯拉在奥斯汀车队中取消安全驾...
马斯克透露FSD系统预计最快下... 据路透社报道,当地时间1月22日,特斯拉CEO埃隆·马斯克在瑞士达沃斯世界经济论坛上透露,特斯拉需驾...