材料够了，观点呢?

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

Liam的微响

2026-06-10

6 评论 1620 浏览 2 收藏

23 分钟

当创作者盲目依赖AI搜集素材、生成观点时，实际是在放任模型的预设叙事替代自己的判断。本文通过真实案例与心理学研究，犀利指出内容创作中最危险的假设——‘先搜集材料再形成观点’的割裂逻辑，并给出了‘人类样本先行’的破局之道。

一、先看一个翻车案例：正确的材料，离谱的输出

最近听到听到汉洋、重轻和可达，诗梳风最新一期的播客EP20 用 AI 生产内容的复盘之一：AI 知道你要什么吗？

很有感触。你让AI给你搜集材料，给你生成观点？？？AI知道你要什么吗？？真的知道吗？？真的吗？？

再结合去年，播客《诗梳风》的汉洋和重轻分享了他们创业项目里的一次翻车。他们在做一个保存建筑3D模型的项目，需要给每个建筑模型配介绍文字，而且要求很高：引用级别的规范，每句话都有明确出处，可以追溯到原文——一个人在论文里引用它，应该不会出错。

为此他们搭了一套RAG系统，灌进去几百本书、几百篇论文，横跨多种语言。按理说，材料足够丰富、足够客观了。

然后系统在试写南斯拉夫历史相关的内容时，出了诡异的问题。它有一个没头没脑的预设立场，对历史冲突中的不同各方使用系统性不对等的措辞：描述一方的暴行，用词是”惨绝人寰”；描述另一方同样性质的事件，措辞就变成了”战争的创伤”。

有个细节特别能说明问题。某部南斯拉夫电影的拍摄现场，导演设计了一句台词：”这里死了三千人。”铁托当场纠正他——实际死亡人数是三千六百几十几人，一个精确到个位的数字。AI拿到这份材料，把它诠释成”国家机器对文艺创作的冷酷操控”。但这个例子明明有一个更顺的读法，而且方向完全相反：过了这么多年，铁托记得的是一条条具体的人命，所以数字不能说约数。材料就摆在那里，模型却读出了一个和材料相反、但符合它预设叙事的结论。出现了幻觉。

更能说明问题的是”工人自治”。同一份材料，在一篇文章里被用来论证”工人自治有问题，所以南斯拉夫会完蛋”，在另一篇文章里被用来论证”工人自治是好的，但南斯拉夫政府把它搞坏了，所以南斯拉夫会完蛋”。材料怎么说都行，只要服务于那个隐含判断：这个国家注定失败。

团队先换模型，换了好几个主流大模型，倾向性照旧。又加了一个”政委模块”专门校验立场，结果文章出现了-为”精神分裂”式的输出——同一段里冒出两种相反的判断。最后做溯源检查，查出了整件事最反直觉的部分：系统用的大部分原始材料是塞尔维亚语写的，原作者的立场本身倾向于材料中的某一方——而模型拿着这些材料，输出的叙事立场恰好相反。

也就是说：材料管不住表达。

汉洋后来查到一篇研究RAG幻觉的机制可解释性论文，讲的正是这类现象：有一类幻觉不是检索失败——模型明明找到了正确的文档，照样产出与材料不符的内容。原因是外部检索来的知识，和模型几千亿参数里固有的”参数化知识”打架，两边协调不了。检索环节没有失败，失败发生在模型内部：它自己的认知结构太强了，强到能把原始材料的立场整个扭转过来。也就是说你如果一味的让AI去生成观点，让AI自己搜集材料。你自己不去审核，不去修改，AI生成的观点未必是你的观点。

二、这不是新问题：心理学90年前就发现了同样的机制

这个现象，认知心理学九十多年前就撞上过。

1932年，英国心理学家Bartlett在《Remembering》一书里记录了一个实验。他把一个北美印第安部落的民间故事《鬼魂的战争》拿给英国大学生，让他们默读两遍，然后复述。

复述的结果系统性地走了样。独木舟被记成了普通的船，猎海豹被记成了钓鱼——因为猎海豹不是英国人熟悉的活动。最关键的”鬼魂”情节，要么被整个删掉，要么被改成某个部落的名字。故事结尾，主人公倒地，”嘴里流出黑色的液体”——有人把它记成了灵魂出窍（西方文化里有的想象），有人记成了呕吐，还有人记成了内脏出血。原文里这些都没有。时间隔得越久，偏移越大：几年后回访，有人往故事里加进了图腾、巫师、黑暗森林——奇幻小说里的全套库存。

Bartlett由此提出了”图式”（Schema）这个概念：人在记忆和理解信息时，会把新信息强行嵌入已有的认知结构。 嵌不进去的部分，要么丢弃，要么改造到能嵌进去为止。他有个说法叫 effort after meaning——所有认知过程都是对意义的追逐，一个东西如果不能对我产生意义，我要么记不住它，要么强行改造它。

四十二年后，Loftus和Palmer用一个更简洁的实验验证了同一件事。给被试看同一段车祸录像——录像是纯客观的，所有人看到的一模一样——然后提问，只换问题里的一个动词。问”两车撞毁（smashed）时车速多少”，平均估算是40英里；”相撞（collided）”，39.3；”碰撞（bumped）”，38；”撞击（hit）”，34；”接触（contacted）”，31。一周后回访，追问”录像里有没有碎玻璃”——录像里根本没有碎玻璃，但”smashed”组有16个人说看到了，”hit”组7个人，没被问过车速问题的控制组只有6个人。

记忆从产生的那一刻起就在重构。 不是事后被污染的，是第一现场就已经在重构了。你的记忆每时每刻都在重构。

我认为Loftus的实验及其深刻——因为它说明只换一个词（相当于prompt里的一个措辞）就能让输出偏移25%，而这正是做提示词工程的人每天面对的现实，优化自己的提示词，优化自己的skills，但是偏移的是否你想要的方向？这个有待商榷。别太陷入到AI的狂热当中，他确实能做的事情很多，但是他不能做的事情同样很多。前几周把诺兰的《记忆碎片》去电影院看来，那部电影他不就是说的记忆会重构吗，你自己的记忆其实是为你帮助你更好的继续生活，找个锚点而存在，男主最后发现自己的记忆被利用了，那他也利用自己的记忆去做一些事情。

三、一个危险的假设：先搜集材料，再形成观点

上面的案例和实验，共同指向一个内容行业里普遍存在、却几乎没人检验过的假设：内容生产可以拆成”先搜集材料”和”再加工输出”两道工序。PM先让AI拉20个竞品的功能列表，再”提炼洞察”；内容运营先让AI检索40个数据源，再在结尾加一段”总结与展望”。背后的逻辑都一样：存在一个中性的、不涉及判断的搜集阶段，搜完了，再戴上分析师的帽子开始思考。

这个假设是错的。

错的不是操作顺序，而是前提：不存在纯材料。《诗梳风》里有个说法很透——”没有列车时刻表”。意思是，你拿到的任何一份材料，哪怕看起来像列车时刻表一样纯机械、纯客观，它的格式、它的取舍、它为什么记录这个而不记录那个，都在回应某种已有的问题意识。连真正的列车时刻表都是：为什么去这个地方的车次多、去那个地方的少，本身就写满了判断。材料在被生产出来的第一现场，就已经是讲述了。

而你处理材料的过程同样如此。汉洋讲过自己的体会：他研究”中国的工业原材料从哪来”这个完全陌生的选题，按理说找材料阶段应该不带偏见、几种原材料平均用力。实际上呢？”钢铁供应链安全”这个关键词就是比煤炭更吸引他——因为它勾连到了他脑子里早就有的记忆。最后他收集的材料天然不平均。这不是不严谨，这是认知结构在工作。判断不是搜集完成之后才开始的，你翻开第一份材料、产生第一个念头的时候，它就已经在运转了。

反过来，真把”客观”贯彻到底会发生什么？一位编辑给主播看过一份采访笔记：一个记者为一篇深度报道做了32万字的采访记录，文章却始终写不出来。不是信息不够，是太平均了——每个事都说了一点，每个事都没扎进去。在材料面前一视同仁、不敢有偏好，这不是严谨，是瘫痪。

正面的例子是那期讲唐朝旅馆的节目：可达材料收了一整年，成稿只用四天。不是最后四天效率突然爆发，是那一年里可达一直在反应——这个有意思、那个不对劲、这两件事之间有某种隐秘的关联。到某一刻，碎片化的判断凝结了，四天只是收割。二十多个小时的成片里，可达没有一次提到大纲。

Rick Rubin有句话：Work is finished when you feel it——作品在你感觉它完成的时候完成。可如果你全程不处理材料、忙着”保持客观”，你拿什么去感觉？收集材料是无止境的，不靠判断收束，你只能给自己定一个机械指标，比如”收够一千万字”——然后你得到一千万个汉字，以及一篇永远开始不了的文章。

当我有一个选题的时候，我会沉浸在资料里面，去找到我在意的，我想深挖的那个点。这非常的主观，世界有那么多材料，你想客观？？？做不到的。这个世界就没有真正的客观，每个人都是带着自己的主观想法去看待世界。创作就是得带着自己的主观想法，那些报道，那些文献，如果你不带主观去有偏颇的去吸收你在意的，那创作出来，给观众看，和他们自己去看报道，和文献有什么区别，世界本就不需要我的表达，所有我能表达出自己观点的时候，我应该带着一种确幸。

四、AI自动化了”错误的那一半”

把这些放回当下的AI工具链语境，问题就尖锐了。开头说的那个事实——材料侧的工作已经被大规模自动化——如果内容生产真能拆成两道工序，意味着第一道工序已经完工，剩下的只是润色排版。

但被自动化掉的，恰恰是不能独立存在的那一半。

如果你自己不带着判断走进那堆材料，真空不会保持真空——AI会用它自己的”判断”来填补：那些嵌在几千亿参数里的隐含倾向。你以为你在用一个中性工具处理中性素材，实际上你在让模型的认知图式替代你自己的。第一节那个RAG案例就是明证：团队一开始以为问题出在检索质量或模型选型，但真正的问题是，没有人在材料和输出之间放进自己的判断。

这里还藏着一个更隐蔽的陷阱：材料崇拜。我们默认材料更多、引用更密、卷宗更厚的内容，就天然更有合法性——仿佛一个用一生读完宋代全部材料的人，才有资格谈论宋代。汉洋里对此的反驳很不客气：这种崇拜回避了创作的全部责任。创作恰恰是从一百万种可能的讲法里选出一种，把有限的、带着偏好拎出来的东西串联成理解。只摆材料、不做串联，材料就不再用于建立理解，而是用于建立权威姿态——”我比你读得多，所以我比你高”。AI时代这个陷阱只会更深，因为堆材料的成本已经趋近于零。所以现在的观点、判断才显得尤其的重要。

五、反方向的证据：先写，再让AI写

到这里都是在说”不能怎样”。有意思的是，讲出南斯拉夫翻车案例的同一拨人，恰好也给出了一个”应该怎样”的完整样本——而他们的解法，和直觉完全相反。

重轻他们的项目要给成百上千个建筑模型写介绍。最早的几篇，是团队里的策展人在旅馆床上手写的。写第一篇之前，可达对那座建筑去过十几次，脑子里早就有一个现成的叙事，写作只是确认细节、把事实插进叙事里。后来写到没去过的建筑，他做的也是一个研究者的本职：交叉比对各种来源的可信度，决定用哪个信息、不用哪个，再考虑怎么把它讲成一个有纵深的故事。

当时重轻他们完全没想到，这几篇手写的”小作文”，日后成了整套AI流程里最重要的资产——人类样本。等到要让AI批量写作时，他们手里有了一条基准线：每一篇AI的产出，都拿来跟人写的那几篇比。好，为什么好；不好，差在哪。

他们还做了一个思想实验：假如当年顺序反过来，一上来就让AI生成十篇供大家挑选，会怎样？结论是——选不出共识。你能挑出几篇”都还行”的，但你问每个人行在哪，答案各不相同。恰恰是因为先用了一两周时间人工去写、密集讨论”这个东西到底该包含什么、不包含什么”，团队才碰出了一套对齐的标准：要隽永，要有余味，拒绝户口本式的全记录，文字不抢模型的戏。这套标准后来进了每个人的脑子，跟AI协作时直接说出来就行，而不是让AI猜。

再看重轻他们的prompt是怎么写的。那个用来生成建筑词条的提示词，是策展人把他自己写词条的真实流程逐步翻译出来的：先设定语境（你是受过训练的建筑史学者，要调用领域常识，不要对常识大惊小怪），然后规定两步走——先读材料、写大纲交”编委会”批准，获得反馈后增量补充、消错，最后才成文。这不是什么咒语或魔法，它就是一个有经验的写作者把自己的工作方式说清楚了而已。播客里有句话概括得很准：好的prompt不是技巧的堆砌，它是把你的判断力翻译成机器能执行的语言。

所以汉洋和重轻都是说：AI不是天降的机械神不是佛子，它更像一面镜子——你通过它看清的，是你自己（或你团队里最会写的那个人）到底是怎么创作的。整套流程与其说是为AI设计的，不如说就是一套写作流程：换成几十个训练有素的编辑来跑，照样成立。AI是一个脚手架，动的人是你。

这和第四节是同一枚硬币的两面。AI填补判断真空的方式，是塞进它自己的图式；避免这件事的唯一办法，是你先有自己的图式，并且把它说清楚。AI可以把1放大到100，但0到1那一步——知道自己想要什么、知道好是怎么个好法——没有任何模型能替你完成。你的发心，你的目标，AI没发帮你定。这一步在AI时代不是变得更不重要了，而是变成了全部门槛之所在。

如果把这套做法压缩成一个可以带走的工作法，我把它叫做”人类样本先行“：在让AI批量生产任何内容之前，先由人手写少量样本，并围绕样本讨论清楚”好”的标准是什么；再把这套标准和你自己的真实工作流程翻译成提示词；之后每一批AI产出，都回到人类样本这条基准线上做对比评估。三步里成本最高的是第一步，但它决定了后面所有自动化的上限——这个顺序不能颠倒，因为思想实验已经证明了：先让AI生成再挑选，挑不出共识，只能挑出”都还行”。

写在最后

这篇文章我想说的事就一句话：AI时代真正稀缺的不是材料、不是检索能力、不是引用密度，而是一个人读完那些东西之后说出”我认为”三个字的能力。”我”现在愈加的重要，不然在这个时代，你会陷入到AI的狂热当中，却忽略了自己。

材料的意义永远取决于一个人走进去之后产生了什么、发现了什么。同一堆文档，在不同人手里会长出完全不同的分析——不是因为谁检索错了，而是因为他们理解世界的方式不同不一样。这不是人类的缺陷，这是人之所以能产出有价值内容的唯一原因。

如果你自己没有论点，AI替你读再多材料也没用。它只会把自己的”论点”塞进你的内容里。而AI现阶段就是人类的镜子，如果你无法有自己的判断，那么AI输出的也是一个空中楼阁

唯一的出路不是更多材料、更好的检索、更严格的事实核查流程。唯一的出路是你自己走进那堆材料里去，允许自己产生反应——然后追着那个反应往下走。去做一个舔地图的人，把手弄脏，有些步骤不能省略，我们也不应该省略。

那个反应就是你的宝藏，那个最真实的东西。剩下的一切都是注脚。你的观点，才让别人更读懂你。

参考来源：

https://www.demenzemedicinagenerale.net/images/mens-sana/AutomobileDestruction.pdf

https://archive.org/details/Bartlett1932Remembering

https://www.xiaoyuzhoufm.com/episode/6a202be67444b5722232dd7a

https://www.xiaoyuzhoufm.com/episode/69a16729de29766da9c25ee7

本文由 @Liam的微响原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

Liam的微响

长期跟踪大模型与AI应用赛道。

2篇作品 3267总阅读量

地图导航专题｜智能充电规划

12-083320 浏览

新规来了！探店视频挂链接将视为广告，乱象该停止了

04-265029 浏览

Apple VisionOS设计规范速览

06-274703 浏览

面试「自我介绍」怎么说？把握8大重点，有效提升成功率

10-2516387 浏览

10年职场老油条PM浅聊用户定位

05-197170 浏览

四月里

“人类样本先行”能有效对齐标准，但如果创作者的认知图式本身就有偏见，那是不是也会固化错误观点？这时候AI的“客观”反而可能是一种纠偏。

最近来自广东回复
1. Liam的微响作者回复四月里
  
  其实我觉得，如果你的材料数据是没有错误，不应该存在偏见，你表达的那只是你的角度和观点，你想创作不就是你想表达吗
  
  最近来自湖南回复
老猫猫

如果创作者自己面对陌生领域，没有现成的图式或判断，那“人类样本先行”的第一步该怎么启动？是不是需要先靠AI快速扫一遍材料来辅助形成初步印象？

最近来自广东回复
1. Liam的微响作者回复老猫猫
  
  可以先让AI帮你启动，但别让它直接给你观点，你跟着它一起去深挖，然后让它去深挖一些小细节，观点还是你自己提炼的，就是你根据你自己的经验，再看到这些材料，总结出自己的观点，但是不要想着让他给你生成XX观点，明明好的创作就是回引起别人的共鸣，我现在还是觉得AI直接输出的观点，我无法共鸣，何况观众了。
  
  最近来自湖南回复
咖啡不加糖

支持先写样本的做法。这个对齐过程还能让团队提前暴露认知分歧，避免后期AI产出时互相甩锅。比起让AI猜你要什么，不如一开始就告诉它你的图式。

最近来自广东回复
1. Liam的微响作者回复咖啡不加糖
  
  对的对的
  
  最近来自湖南回复