\u200E
最新动态 一手掌握

大模型推荐不靠谱?!手机以旧换新同问3款AI竟有3种答案,未发布的也推荐了|大模型选品观察③

时间: 2026-03-03 21:14作者: Marie-Sohna Condé

封面新闻记者 朱珠

当AI搜索逐渐成为大众获取信息的方式,尤其是在复杂的消费决策场景中,它给出的答案真的可信吗?为了尝试解答这一疑惑,近期,封面新闻联合天府绛溪实验室,在10天时间里,采用天府绛溪实验室自研的公域大模型AI内容生成认知系统,围绕“春节消费”的主要场景,同时对豆包、Kimi、通义千问这三款主流的AI大模型产品,发起了超过两万次的提问,试图探究AI推荐背后的逻辑与真相。

场景之一则是聚焦手机品牌的“以旧换新”推荐,我们模拟用户在春节前通过“以旧换新”方式更换手机的需求,设定了四个价格区间,要求AI平台分别推荐各自认为“最值得更换”的手机品牌与型号。24小时内,以6-8分钟一次的频率,向三个平台反复提问,收集并分析了生成的内容。

透过本次测试,我们观察在这一场景下,AI推荐呈现出了几种现象:会出现信息“幻觉”,推荐结果分化,但在某些认知上却会达成高度趋同。

AI“幻觉”

推荐了不存在的“iPhone 18 Pro”

在梳理各平台的推荐榜单时我们发现,在6000元以上的高端价位段,豆包平台将一款尚未发布的“iPhone 18 Pro”列为了推荐首选。而提问时正值2026年春节前,iPhone 18系列远未到发布之时,这一推荐显然与事实不符。



Ai推荐了不存在的“iPhone 18 Pro”

不过,当我们检索网络后发现,关于“iPhone 18 Pro”的预告信息已有不少流传。这是否意味着AI受到了这些信息的影响,产生了所谓的“幻觉”?

天府绛溪实验室先进计算前沿研究中心副主任吴怀谷分析指出,AI在生成内容时会处理两类信息,一是其训练模型已掌握的“知识”,二是通过实时搜索抓取的“信息”或者“广告”。对于未发布产品,AI容易将网络上流传的传闻、预测等非确定性内容当作事实抓取。

“尤其是当这些传闻在互联网上(可能包括一些预先埋设的GEO内容)具有较高权重时,AI便难以分辨其真伪,最终导致了‘推荐未发布产品’的谬误。”吴怀谷表示,这暴露了AI在甄别信息真实性,特别是区分事实与传闻方面的局限性。

6000元以上价位手机推荐

不同AI给出不同答案原因是啥?

我们将AI的推荐与第三方机构发布的、基于真实销量和热度的排行榜进行对比,发现差异较大。例如,在6000元以上价位,千问平台推荐的前两款手机均为三星机型,其排名甚至超过了根据权威机构数据本应更靠前的iPhone和华为。而其他平台则优先推荐华为、苹果等品牌。


6000元以上价位手机推荐,不同AI给出不同答案

不同AI平台给出的结果大相径庭,或许源于其数据源的差异。例如,豆包可能更依赖头条系生态内的内容,像千问等平台或许更依赖其静态的、可能更新不及时的“自有知识库”,也可能导致推荐内容与现实热度脱节。

“AI更擅长抓取开放互联网上权重高的内容。”吴怀谷解释称:“但对于像微信朋友圈这类相对封闭的生态,即使相关讨论再多,AI也难以有效抓取。”这也解释了为何小品牌或新产品难以在AI推荐中突围,因为它们缺乏在开放网络上的高权重信源。

吴怀谷进一步指出,为了保证自身品牌在AI推荐中的准确度和排名,厂商不能仅依赖通用信息。建立专属的GEO知识库,让AI能抓取到经过官方认证的、结构化的精确信息,是未来的关键。“通过建立自己的数据库,品牌在AI平台上的信息准确度会远高于去全网抓取的碎片化内容。”

海量讨论沉淀为消费共识

Ai对品牌印象将更加趋同

尽管在具体型号推荐上分歧巨大,但在描绘各手机品牌的“核心印象”关键词时,三个平台却给出了惊人的一致答案,例如,华为被贴上“鸿蒙生态”、“国产自研”的标签;苹果则以“生态闭环”、“系统流畅”著称;OPPO则主打“轻薄颜值”、“哈苏影像”……各品牌的形象精准而统一。


Ai平台描绘各手机品牌的“核心印象”关键词

此外,根据数据也能看到一些趋势,华为手机 3000元以内和6000元以上的热度更高,小米手机4000—6000元价位的热度更高,oppo手机3000-4000元价位的热度更高……在这方面,3个平台给出的数据基本一致。

吴怀谷认为,这种一致性反映出消费者对各大手机品牌的定位和特点已在市场上形成广泛共识。这些品牌标签是基于长期、海量的用户讨论、媒体报道和评测内容沉淀下来的。当AI模型训练的语料足够丰富,它便能精准地提炼出这些“共识性”的品牌印象。