大模型就是「造梦机」，Karpathy一语惊人！人类才是「幻觉问题」根本原因

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

开通会员

发布

大模型就是「造梦机」，Karpathy一语惊人！人类才是「幻觉问题」根本原因

新智元

2023-12-11

0 评论 1789 浏览 2 收藏

零基础想转行产品经理？别担心！我们的实战营专为转行者设计，提供体系化课程和项目实战，帮你弥补经验短板，成功实现职业转型，拿到心仪offer。

大模型幻觉这一问题，在先前已经有不少人讨论过，而最近，OpenAI科学家Andrej Karpathy关于大模型幻觉的解释再次引起了人们的争论。Andrej Karpathy提出了怎样的看法呢？不妨来看看本文的讲述和分析。

幻觉，早已成为LLM老生常谈的问题。

然而，OpenAI科学家Andrej Karpathy关于大模型幻觉的解释，观点惊人，掀起非常激烈的讨论。

在Karpathy看来：

从某种意义上说，大语言模型的全部工作恰恰就是制造幻觉，大模型就是「造梦机」。

另外，Karpathy的另一句话，更是被许多人奉为经典。他认为，与大模型相对的另一个极端，便是搜索引擎。

「大模型100%在做梦，因此存在幻觉问题。搜索引擎则是完全不做梦，因此存在创造力问题」。

总而言之，LLM不存在「幻觉问题」。而且幻觉不是错误，而是LLM最大的特点。只有大模型助手存在幻觉问题。

对此，英伟达高级科学家Jim Fan分享了自己的看法，「令人着迷的是，最好的LLM可以通过切换到『工具使用模式』来『决定』何时做梦，何时不做梦。网络搜索是一种工具。LLM可以动态调整自己的『dream% 超参数』。GPT-4试图做到这一点，但远非完美」。

亚利桑那州立大学的教授Subbarao Kambhampati也跟帖回复了Karpathy：

LLM一直在产生幻觉，只是有时他们的幻觉碰巧和你的现实一致而已。

而提问者是否能够让幻觉和自己的现实一致，很大程度取决于提问者自己对产生内容的检查能力。

基于这个认知，他认为，所有想要将LLM的能力拟人化的尝试都只是人类的一厢情愿，将思考、想法、推理和自我批评等拟人化概念强加在LLM上都是徒劳的。

人类应该在认清LLM能力的本质基础之上，将它当作一个「补充人类认知的矫正器」，而不是潜在的替代人类智能的工具。

当然，讨论这种问题的场合永远少不了马老板的身影：「人生不过就是一场梦」。

感觉下一句他就要说，我们也只是生活在矩阵模拟之中

一、Karpathy：LLM不存在「幻觉问题」，LLM助手才有

对于大模型饱受诟病的幻觉问题，Karpathy具体是如何看的呢？

我们用「提示」来引导这些「梦」，也正是「提示」开启了梦境，而大语言模型依据对其训练文档的模糊记忆，大部分情况下都能引导梦境走向有价值的方向。

只有当这些梦境进入被认为与事实不符的领域时，我们才会将其称为「幻觉」。这看起来像是一个错误，但其实只是LLM本就擅长的事情。

再来看一个极端的例子：搜索引擎。它根据输入的提示，直接返回其数据库中最相似的「训练文档」，一字不差。可以说，这个搜索引擎存在「创造力问题」，即它永远不会提供新的回应。

「大模型100%在做梦，因此存在幻觉问题。搜索引擎则是完全不做梦，因此存在创造力问题」。

说了这么多，我明白人们「真正」关心的是，不希望LLM助手（ChatGPT等产品）产生幻觉。大语言模型助手远比单纯的语言模型复杂得多，即使语言模型是其核心。

有很多方法可以减轻AI系统的幻觉：使用检索增强生成（RAG），通过上下文学些将做梦更准确回溯在真实数据上，这可能是最常见的一种方法。另外，多个样本之间的不一致性、反思、验证链；从激活状态中解码不确定性；工具使用等等，都是热门且有趣的研究领域。

总之，虽然可能有些吹毛求疵，，但LLM本身不存在「幻觉问题」。幻觉并非是缺陷，而是LLM最大的特点。真正需要解决幻觉问题的是大语言模型助手，而我们也应该着手解决这一问题。

二、LLM是造梦机，请停止一厢情愿的「拟人化」

来自亚利桑那州立大学的AI科学家Subbarao Kambhampati教授，把自己的研究总结成了一篇X上的长文。

他认为产生不同的认知（包括幻觉）就是LLM本质能力，所以不应该对于LLM产生过于理想化的期待。

链接地址：https://twitter.com/rao2z/status/1718714731052384262

在他看来，人类应该将LLM视为强大的认知「模拟器」，而不是人类智能的替代品。

LLM本质上是一个令人惊叹的巨大的外部非真实记忆库，如果使用得当，可以作为人类强大的认知「模拟器」。

而对于人类来说，想要发挥LLM的作用，关键是如何有效地利用LLM，而不是在这个过程中不断用拟人化的企图来自欺欺人。

人类对于LLM最大的错觉就是我们不断地将LLM与人类智能相混淆，努力地将思考、想法、推理和自我批评等拟人化概念套在LLM之上。

这种拟人化是相当徒劳的——而且，正如很多研究中展现的那样——甚至会适得其反并具有误导性。

而从另一个角度说，如果我们不将「通过LLM开发出达到人类水平的AI系统」设定为唯一目标，就不用天天批判自回归LLM非常差劲（比如LeCun教授）。

LLM是可以非常有效地补充认知的「模拟器」，并没有天然包含人类的智力。

LLM在某些事情上能比人类做得好太多了，比如快速概括，归纳总结。

但是在做很多其他事情的能力上比人类又差太多了，比如规划、推理、自我批评等。

人类真正需要的也许是：

充分利用LLM的优势。这可以在LLM产品架构中加入人类或者其他具有推理能力的工具来强化LLM的优势。
在某种程度上，人类水平的智能仍然是目前值得追寻的圣杯，保持开放的研究途径，而不是仅仅是堆叠算力，扩大自回归架构。

三、大模型幻觉，究竟从何来

前段时间，一个名为Vectara的机构，在GitHub推出了一个大模型幻觉排行榜。

结果显示，在总结短文档方面，GPT-4的表现最为优异，而Google PaLM的两款模型直接垫。

其中，GPT-4的准确率为97.0%，幻觉率为3.0%，回答率为100.0%。Palm-Chat 2的准确率为72.8%，幻觉率高达27.2%，回答率为88.8%。

不过，这个榜单一出来，受到了许多业内人士的质疑。

OpenAI联合创始人兼研究员John Schulman曾在一次演讲——「RL和Truthfulness – Towards TruthGPT」，探讨了幻觉问题。

根据Schulman的说法，幻觉大致可以分为两种类型：

模型猜测错误。
模式完成行为：语言模型无法表达自己的不确定性，无法质疑提示中的前提，或者继续之前犯的错误。

语言模型代表一种知识图谱，其中包含来自其自身网络中训练数据的事实，因此「微调」可以理解为学习一个函数，该函数在该知识图谱上运行并输出token预测。

举个例子，微调数据集可能包含「星球大战属于什么类型影片」这个问题，以及答案「科幻」。

如果这些信息已经在原始训练数据中，即它是知识图谱的一部分，那么模型不会学习新信息，而是学习一种行为——输出正确答案。这种微调也被称为「行为克隆」。

但是，如果答案不是原始训练数据集的一部分（也不是知识图谱的一部分），即使网络不知道答案，它便会学习回答。

使用实际上正确但不在知识图谱中的答案进行微调，从而教会网络编造答案——即产生「幻觉」。相反，用不正确的答案进行训练会导致网络隐瞒信息。

四、网友激烈探讨

「LLM 是一个造梦机」。多么美妙的一句话。如果我们人类也生活在更高维度创造者构造的梦境中，那么LLM将来是否也能递归地创造出做梦的机器？

另一位网友分享了他要求ChatGPT给自己的回复进行置信度评分时，ChatGPT给了90%，并且解释了原因：

我在回复末尾提供的置信度是一个估计值，反映了根据我所掌握的上下文和信息，我认为回复与您的询问的吻合程度。它不是通过精确的算法或公式计算出来的，而是根据问题的复杂性、所提供信息的清晰度以及我对所能获取信息的准确性和相关性的编程进行的主观评估。

其实对于幻觉的讨论本质上就是对于「真理」的讨论，也许并没有什么东西是绝对客观的「真理」。

当所需数据已经存可用时，并不总是需要搜索事实。然而，LLM面临的挑战在于其学习过程，这通常涉及一种「破坏性」数据压缩。解决这个问题——减少数据丢失，不仅能缓解幻觉问题，还能减少对大量训练数据集的需求。

事实上，我们的最终目标不仅仅是创造更多的LLM，而是实现真正的智能。虽然LLM通过语言理解提供了一瞥，但它们的根本缺陷是学习过程损害了数据完整性。理想的架构应该是在学习过程中保留数据，保持对原始信息的忠实，同时还能让模型发展和完善其智能。我假设这样的架构可能涉及复制数据而不是压缩数据。

每个LLM都是一个不可靠的叙述者，就其架构的本质而言，它是不可逆转的。

对于大模型幻觉问题的解释，你赞同Karpathy的看法吗？

参考资料：

https://twitter.com/karpathy/status/1733299213503787018

https://twitter.com/DrJimFan/status/1733308471523627089

为我投票

我在参加人人都是产品经理2023年度评选，希望喜欢我的文章的朋友都能来支持我一下~

点击下方链接进入我的个人参选页面，点击红心即可为我投票。

每人每天最多可投30票，投票即可获得抽奖机会，抽取书籍、人人都是产品经理纪念周边&起点课堂会员等好礼哦！

投票传送门：https://996.pm/z4Knm

编辑：桃子，润

来源公众号：新智元（ID：AI_era），“智能+”中国主平台，致力于推动中国从“互联网+”迈向“智能+”。

本文由人人都是产品经理合作媒体 @新智元授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

新智元

"智能+"中国主平台，致力于推动中国从"互联网+"迈向"智能+"

142篇作品 322405总阅读量

以「消费者行为学」搭建产品经理的系统性知识框架

08-243387 浏览

经营分析，如何洞察业务痛点

03-2716244 浏览

进化思考 (3) ：医疗AI，重在基层

12-042017 浏览

促销的新选择：把双杯优惠的「第二杯」存起来

07-033794 浏览

脱下孔乙己的长衫，我要划着我的断桨出发了

07-315622 浏览

目前还没评论，等你发挥！

C端转B端产品经理，我是如何进行调整的

专题

16970人已学习16篇文章

SCRM工具的搭建以及相关业务运用场景

私域模式已完成从探索到落地的转换，许多企业也纷纷落局。而基于私域衍生出的SCRM工具，也成为私域运营必不可少的利器之一。本专题的文章分享了SCRM工具的搭建以及相关业务运用场景。

专题

17255人已学习12篇文章

APP年度报告的设计思路

每年一到年底，各家APP平台就会陆续推出年度报告。本专题的文章分享了年度报告的设计思路。

专题

11963人已学习11篇文章

数字未来设计趋势

随着互联互通的发展，虚拟与现实之间的距离在逐渐缩小，未来数字设计也在发生着变化。本专题的文章分享了数字未来设计趋势。

专题

20746人已学习16篇文章

有效的页面引导设计指南

一个清晰的入口引导能够让用户提高点击的欲望，从而实现操作全流程。本专题的文章提供了有效的页面引导设计指南。

专题

19087人已学习12篇文章

feed流应该如何设计?

如何设计出一个抓住他人眼球的feed流？feed流的组成元素以及常见的feed流样式？本专题的文章提供了对于feed流设计的思考。

专题

12273人已学习12篇文章

工作中如何提升话语权？

面对多岗位意见不统一时，如何提升自己的话语权，让自己的建议能够真正被他人纳入范围内？本专题的文章分享了关于提升话语权的一些建议。

网站统计