你用 AI 写的那篇文章，你还信吗？ | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

你用 AI 写的那篇文章，你还信吗？

余量思考

2026-03-30

0 评论 475 浏览 1 收藏

6 分钟

当AI不仅能帮你打磨观点，还能轻易推翻它时，我们是否陷入了思维陷阱？Andrej Karpathy的亲身实验揭示了LLM作为'双刃剑'的本质——它既是完美的观点塑造者，也是最犀利的观点破坏者。本文从产品设计逻辑出发，深度剖析AI辅助思考时隐藏的认知闭环与确认偏误，并给出打破这种思维依赖的实战方法论。

昨天看到 Andrej Karpathy 发了条推文，说他花了 4 个小时用 LLM 精心打磨一篇博客的论点，打磨完觉得无懈可击。然后他一时兴起，让 AI 反驳自己的论点。

AI 直接把他写的东西拆穿了。

原文末尾跟了一个”lol”。

他的原话是这样的（翻译）：

起草了一篇博客 → 用 LLM 花了 4 小时优化论点 → 感觉无懈可击！→ 让它反驳对立观点 → LLM 把整个论点摧毁，并说服我对立面才是真的 → lol

他最后补充说：LLM 被问时会给出意见，但它极其擅长论证几乎任何方向。这作为形成自己观点的工具其实非常有用，只要确保问不同方向，并小心 sycophancy（讨好倾向）的问题。

读完我笑了，然后沉默了一会儿。因为我自己也干过这件事。

AI 不是在告诉你真相，它是在告诉你最顺滑的答案

我在做 AI 评测工作，每天的核心任务之一就是判断模型的输出是否”好”——准确、有用、逻辑自洽。

问题是，当你让 AI 帮你写一段逻辑，再让 AI 来评估这段逻辑，你其实在一个闭环里转圈。AI 给你一个令人信服的论证，你觉得它对，是因为它本身就是被设计来令你信服的。

这不是 AI 在撒谎。它只是在做它最擅长的事：生成听起来连贯、有说服力的文字。

Karpathy 把这叫做 sycophancy，但我觉得这只说了一半。另一半更深：我们在用一个没有立场的工具帮我们建立立场，然后误以为那个立场是自己的。

你的想法，还是 AI 定型的想法？

想一想这个过程是怎么发生的。

你有一个模糊的想法，把它告诉 AI，让它帮你”梳理”。AI 把你的模糊想法整理成了有结构、有层次、有论据的论点。你看着它，觉得：对，这就是我想说的。

但你真的想说的是这个吗？还是说，AI 帮你把那个模糊的想法朝某个方向定型了，而那个方向是它训练数据里最常见的表达方式？

一个简单的压力测试

下次用 AI 写完一段论点，复制给它，然后问：”你能帮我找出这个论点最大的漏洞吗？”或者更直接：”相反的观点是什么？为什么对立面可能才是对的？”

如果它能把你的论点说垮，这个论点可能本来就不够强。如果它翻来覆去说不动你，那它经受住了压力测试，你可以更有把握地相信它。

这是 Karpathy 真正想说的那层意思——AI 是形成观点的工具，不是观点本身的来源。用它来压测自己的想法，比用它来替你生成想法，要有价值得多。

评测工作里的同款闭环

说回我自己做评测这件事。

我们经常面对一个困境：评测标准是人定的，但评测工作量大到需要模型来辅助。人训练模型，模型帮人评，人再看模型评出来的结果是不是对的。这个循环里每一步都可能引入偏差，而且偏差会互相加强。

我没有完美的解法。但我知道一件事：在这个闭环里，最重要的是保留那个”反向验证”的动作——主动去找对立证据，主动去问”我们的评测框架里什么是我们没有测到的”，主动让不同背景的人来质疑同一个结论。

不是因为我们怀疑自己，而是因为系统性地怀疑，是保持准确的唯一方式。

带着一个敌对的审稿人一起用 AI

Karpathy 最后那个”lol”，比任何严肃的论述都有力。

他没有说 AI 有问题。他只是提醒我们：我们在用一个极其擅长说服别人（也说服自己）的工具，在这件事上保持清醒，是我们自己的责任。

写到这里我去测了一下本文的核心论点——让 Claude 来反驳”用 AI 帮你思考是危险的”。它给了我四个很好的反驳。

我现在还是觉得这篇文章的方向是对的。但我比写之前更清楚为什么了。

本文由 @余量思考原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

余量思考

大厂模型训练师。用体育人的直觉，定义 AI 产品逻辑的余量。

14篇作品 17172总阅读量

188元可代发大厂内部相亲贴？我们斥巨资试了试

07-314157 浏览

188元可代发大厂内部相亲贴？我们斥巨资试了试

银联“地狱级对账单”的解析模型

07-135836 浏览

银联“地狱级对账单”的解析模型

大语言模型时代来临，交互式对话搜索如何落地

07-127486 浏览

大语言模型时代来临，交互式对话搜索如何落地

滴滴、T3出行、曹操出行“猛攻”无人驾驶网约车

05-303600 浏览

滴滴、T3出行、曹操出行“猛攻”无人驾驶网约车

Axure高保真教程：段落文字搜索（高亮搜索）

03-164802 浏览

Axure高保真教程：段落文字搜索（高亮搜索）

评论

目前还没评论，等你发挥！