李彦宏宣称无幻觉，文心一言亲测却「打脸」？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

李彦宏宣称无幻觉，文心一言亲测却「打脸」？

新识研究所

2024-11-14

1 评论 1172 浏览 0 收藏

11 分钟

百度创始人李彦宏在百度世界2024大会上宣称，大模型技术已经“基本消除了幻觉”，并介绍了其最新研发的检索增强的文生图技术（iRAG）。然而，新识研究所对文心一言的实际测试结果却显示，李彦宏所宣称的“无幻觉”效果似乎并不稳定，甚至在某些情况下与实际情况相去甚远。

11月12日，在百度世界2024大会上，李彦宏在主题为《应用来了》的演讲中，公开对外表达了“过去24个月，AI行业的最大变化是什么？是大模型基本消除了幻觉”的看法，并且发布了检索增强的文生图技术（iRAG），称其可“用于解决大模型在图片生成上的幻觉问题，极大提升实用性”。

然而在体验中，新识研究所却发现文心一言在文字与文生图上消除/解决了幻觉，可能只是李彦宏的“幻觉”。

一、李彦宏说大模型消除幻觉，文心一言复现却漏洞百出？

作为在发布会上展示的技术，除了当场演示不翻车之外，最起码要做到让用户可以复现。但李彦宏这次的现场演示，却实在让人怀疑他用的是不是提前预设好的东西。

在大会当场，李彦宏隆重推出了检索增强的文生图技术——iRAG。据介绍，该技术将百度搜索的亿级图片资源与基础模型能力相结合，能生成极为逼真的图片。李彦宏强调，iRAG技术效果远超原生文生图系统，成功消除了机器味，并显著提升了AI生成图片的实用性。

那么是怎么个消除了机器味、证明生成的图片是真实的呢？李彦宏拿出了天坛作为案例。

首先，李彦宏使用某开源模型生成了一张北京天坛的图片，然后告诉大家，这张天坛图片是错误的，因为天坛只有三层而该开源模型生成的图片中天坛有四层，并告诉大家，这就是图像等多模态模型幻觉的最真实情况。

而在指出这个开源模型的错误后，李彦宏也展示了文心一言利用iRAG技术生成的爱因斯坦在天坛的图片，以展现百度iRAG技术消除多模态模型幻觉的实力。

图源：小熊财经

这一切看似很流畅，使用了iRAG技术生成的图片也的确不再“臆想”，但在我们复现该图片的时候，却出现了问题。

在同样的要求之下，文心大模型生成的“天坛”却不像李彦宏当场展示的一般，而是给出了有四层的“天坛”图片，这不刚好也算是犯了李彦宏指出同行们的错误吗？

图源：文心一言生成

在层数之外，这张生成的“天坛”照片在下面栏杆的数量上也与真实的天坛对不上号，真实的天坛共有三层栏杆，而生成的图片则有四层甚至五层栏杆出现。

图源：文心一言生成

或许有人觉得我这样的要求有点“吹毛求疵”，但在五次同样的要求之下，文心一言有三次给出了“打脸”李彦宏的输出结果，实在令人有些汗颜。

而在另外一张现场展示的“大众揽巡汽车飞跃长城”图片上，文心一言也给出了同展示相去甚远的答案。

图源：文心一言生成

左上图为真实的大众揽巡，左下为大会展示的大众揽巡，而右图则为再次生成的大众揽巡，李彦宏展示的图片与真实的揽巡的确相差不远，但为何再次生成的图片，连大众的logo都被“幻觉”掉了呢？

在图片之外，李彦宏表示文字层面的RAG已经做得很好，基本让大模型消除了幻觉，但作为日常深度使用各家大模型的用户来说，起码在豆包、Kimi、文心一言这些大众使用频率最高的大模型应用上，是远远达不到李彦宏所说的程度的。

（事实上多伦多不是加拿大的首都）

而从技术上来说，RAG（检索增强生成）本质上是一种基于信息检索方法缓解LLM幻觉的技术，就是无法彻底杜绝模型的幻觉问题，这似乎就是Transformer架构本身的问题，例如在处理代码编写和数学等需要推理的任务时，RAG的表现就不那么理想了，而如此武断地给出RAG基本让大模型消除了幻觉的论断，真的没有问题吗？

二、李彦宏，才是被“忽悠瘸”的那个？

如果说像这样的事件是偶然的话那还可以理解，但从AI时代开始李彦宏与百度的多次发声与动作来看，也不能排除李彦宏被下面做产品、做业务甚至所宣传的人“忽悠”出幻觉的可能。

作为最先发布大模型的企业，百度的文心一言在去年年初可谓是风光无两，就差把中国大模型之光的title安在脑袋上了。但一年半之后的现在，占尽先发优势的文小言的MAU只有豆包的四分之一，同文心一言年龄相仿的月之暗面的产品Kimi也快要赶上。

数据来源：公众号@AI产品榜

而要追究个中原因，虽然的确脱不开近几个月豆包有抖音“独家宣传权”、Kimi大肆烧钱的因素，但归根结底，还是由于百度在大模型上的进展并没有保持住领先优势。

在今年4月Create 2024百度AI开发者大会上，百度带来了包括智能体开发工具AgentBuilder、AI原生应用开发工具AppBuilder、各种尺寸的模型定制工具ModelBuilder在内的三个AI开发工具，其中的智能体开发工具AgentBuilder似乎有很大的超越性，也被百度寄予了厚望。

但是，在创建智能体的能力上，百度的超越性并没有宣称的那么大。

以豆包为例，发现智能体、创建AI智能体也早已对C端用户放开，并在真实的使用中并不输给百度AgentBuilder开发的智能体。

图源：豆包

李彦宏对于大模型技术和趋势的一些发言和判断，也经常会让人觉得与现实发展并不相符。

同样在今年4月Create 2024百度AI开发者大会上，李彦宏曾表示：“开源模型会越来越落后”。他给出的原因是，大家以前用开源觉得便宜，其实在大模型场景下，开源是最贵的，所以开源模型会越来越落后。

开源模型成本高就一定会落后？显然并不是直接的因果关系。更何况在技术领域，几乎每一个开发者都信奉开源的力量，认为开源驱动了绝大多数技术创新，那为什么到了李彦宏这里就出现了另一种答案呢？

而再往前，早在去年百度发布文心一言时，李彦宏就称“百度文心一言和OpenAI差距可能在两个月左右”，但王小川直言“这可能是平行宇宙里的李彦宏说的，不是我们这个世界里的”。至于彼时百度文心一言和ChatGPT的差距究竟有多大，当前文心一言的使用体验有没有追上GPT-4o，其实明眼人都能看得出来。

再加上一直以来重发布、轻落地，重宣传、轻体验的大模型应用功能迭代，很难让人不怀疑，以技术出身的Robin，是真的跟随百度进入了AI时代，还是在潜移默化之间被筑起的信息茧房慢慢同化，成为了那些产品开发人员、业务人员乃至公关人员的“发声筒”了？

作者：杨启隆
编辑：丁力

本文由人人都是产品经理作者【新识研究所】，微信公众号：【新识研究所】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

新识研究所

关注科技互联网新能源新消费

138篇作品 469576总阅读量

自动泊车系列专题｜泊出外界干扰

12-293090 浏览

奥卡姆剃刀的“谎言”

08-152662 浏览

抖音看向美团，微信看向抖音

02-175892 浏览

火爆全网的瑞幸&茅台的联名营销——背后洞察

09-1012083 浏览

两条广告点赞破100万，他是2023年的爆款制造机

07-165696 浏览

陈祉含

李彦宏在百度世界2024大会上提出，大模型技术已经“基本消除了幻觉”，并通过检索增强的文生图技术（iRAG）展示了其在图片生成上的进步。然而，实际测试显示，文心一言在消除幻觉方面似乎并不稳定，有时甚至与宣称的效果相去甚远。这种现象引发了外界对百度大模型技术实际应用效果的质疑，也表明在实际应用中，技术的宣称与实际效果之间可能存在差距。

最近来自辽宁回复