材料够了,观点呢?

3 评论 169 浏览 0 收藏 23 分钟

当创作者盲目依赖AI搜集素材、生成观点时,实际是在放任模型的预设叙事替代自己的判断。本文通过真实案例与心理学研究,犀利指出内容创作中最危险的假设——‘先搜集材料再形成观点’的割裂逻辑,并给出了‘人类样本先行’的破局之道。

一、先看一个翻车案例:正确的材料,离谱的输出

最近听到听到汉洋、重轻和可达,诗梳风最新一期的播客EP20 用 AI 生产内容的复盘之一:AI 知道你要什么吗?

很有感触。你让AI给你搜集材料,给你生成观点???AI知道你要什么吗??真的知道吗??真的吗??

再结合去年,播客《诗梳风》的汉洋和重轻分享了他们创业项目里的一次翻车。他们在做一个保存建筑3D模型的项目,需要给每个建筑模型配介绍文字,而且要求很高:引用级别的规范,每句话都有明确出处,可以追溯到原文——一个人在论文里引用它,应该不会出错。

为此他们搭了一套RAG系统,灌进去几百本书、几百篇论文,横跨多种语言。按理说,材料足够丰富、足够客观了。

然后系统在试写南斯拉夫历史相关的内容时,出了诡异的问题。它有一个没头没脑的预设立场,对历史冲突中的不同各方使用系统性不对等的措辞:描述一方的暴行,用词是”惨绝人寰”;描述另一方同样性质的事件,措辞就变成了”战争的创伤”。

有个细节特别能说明问题。某部南斯拉夫电影的拍摄现场,导演设计了一句台词:”这里死了三千人。”铁托当场纠正他——实际死亡人数是三千六百几十几人,一个精确到个位的数字。AI拿到这份材料,把它诠释成”国家机器对文艺创作的冷酷操控”。但这个例子明明有一个更顺的读法,而且方向完全相反:过了这么多年,铁托记得的是一条条具体的人命,所以数字不能说约数。材料就摆在那里,模型却读出了一个和材料相反、但符合它预设叙事的结论。出现了幻觉。

更能说明问题的是”工人自治”。同一份材料,在一篇文章里被用来论证”工人自治有问题,所以南斯拉夫会完蛋”,在另一篇文章里被用来论证”工人自治是好的,但南斯拉夫政府把它搞坏了,所以南斯拉夫会完蛋”。材料怎么说都行,只要服务于那个隐含判断:这个国家注定失败。

团队先换模型,换了好几个主流大模型,倾向性照旧。又加了一个”政委模块”专门校验立场,结果文章出现了-为”精神分裂”式的输出——同一段里冒出两种相反的判断。最后做溯源检查,查出了整件事最反直觉的部分:系统用的大部分原始材料是塞尔维亚语写的,原作者的立场本身倾向于材料中的某一方——而模型拿着这些材料,输出的叙事立场恰好相反。

也就是说:材料管不住表达。

汉洋后来查到一篇研究RAG幻觉的机制可解释性论文,讲的正是这类现象:有一类幻觉不是检索失败——模型明明找到了正确的文档,照样产出与材料不符的内容。原因是外部检索来的知识,和模型几千亿参数里固有的”参数化知识”打架,两边协调不了。检索环节没有失败,失败发生在模型内部:它自己的认知结构太强了,强到能把原始材料的立场整个扭转过来。也就是说你如果一味的让AI去生成观点,让AI自己搜集材料。你自己不去审核,不去修改,AI生成的观点未必是你的观点。

二、这不是新问题:心理学90年前就发现了同样的机制

这个现象,认知心理学九十多年前就撞上过。

1932年,英国心理学家Bartlett在《Remembering》一书里记录了一个实验。他把一个北美印第安部落的民间故事《鬼魂的战争》拿给英国大学生,让他们默读两遍,然后复述。

复述的结果系统性地走了样。独木舟被记成了普通的船,猎海豹被记成了钓鱼——因为猎海豹不是英国人熟悉的活动。最关键的”鬼魂”情节,要么被整个删掉,要么被改成某个部落的名字。故事结尾,主人公倒地,”嘴里流出黑色的液体”——有人把它记成了灵魂出窍(西方文化里有的想象),有人记成了呕吐,还有人记成了内脏出血。原文里这些都没有。时间隔得越久,偏移越大:几年后回访,有人往故事里加进了图腾、巫师、黑暗森林——奇幻小说里的全套库存。

Bartlett由此提出了”图式”(Schema)这个概念:人在记忆和理解信息时,会把新信息强行嵌入已有的认知结构。 嵌不进去的部分,要么丢弃,要么改造到能嵌进去为止。他有个说法叫 effort after meaning——所有认知过程都是对意义的追逐,一个东西如果不能对我产生意义,我要么记不住它,要么强行改造它。

四十二年后,Loftus和Palmer用一个更简洁的实验验证了同一件事。给被试看同一段车祸录像——录像是纯客观的,所有人看到的一模一样——然后提问,只换问题里的一个动词。问”两车撞毁(smashed)时车速多少”,平均估算是40英里;”相撞(collided)”,39.3;”碰撞(bumped)”,38;”撞击(hit)”,34;”接触(contacted)”,31。一周后回访,追问”录像里有没有碎玻璃”——录像里根本没有碎玻璃,但”smashed”组有16个人说看到了,”hit”组7个人,没被问过车速问题的控制组只有6个人。

记忆从产生的那一刻起就在重构。 不是事后被污染的,是第一现场就已经在重构了。你的记忆每时每刻都在重构。

我认为Loftus的实验及其深刻——因为它说明只换一个词(相当于prompt里的一个措辞)就能让输出偏移25%,而这正是做提示词工程的人每天面对的现实,优化自己的提示词,优化自己的skills,但是偏移的是否你想要的方向?这个有待商榷。别太陷入到AI的狂热当中,他确实能做的事情很多,但是他不能做的事情同样很多。前几周把诺兰的《记忆碎片》去电影院看来,那部电影他不就是说的记忆会重构吗,你自己的记忆其实是为你帮助你更好的继续生活,找个锚点而存在,男主最后发现自己的记忆被利用了,那他也利用自己的记忆去做一些事情。

三、一个危险的假设:先搜集材料,再形成观点

上面的案例和实验,共同指向一个内容行业里普遍存在、却几乎没人检验过的假设:内容生产可以拆成”先搜集材料”和”再加工输出”两道工序。PM先让AI拉20个竞品的功能列表,再”提炼洞察”;内容运营先让AI检索40个数据源,再在结尾加一段”总结与展望”。背后的逻辑都一样:存在一个中性的、不涉及判断的搜集阶段,搜完了,再戴上分析师的帽子开始思考。

这个假设是错的。

错的不是操作顺序,而是前提:不存在纯材料。《诗梳风》里有个说法很透——”没有列车时刻表”。意思是,你拿到的任何一份材料,哪怕看起来像列车时刻表一样纯机械、纯客观,它的格式、它的取舍、它为什么记录这个而不记录那个,都在回应某种已有的问题意识。连真正的列车时刻表都是:为什么去这个地方的车次多、去那个地方的少,本身就写满了判断。材料在被生产出来的第一现场,就已经是讲述了。

而你处理材料的过程同样如此。汉洋讲过自己的体会:他研究”中国的工业原材料从哪来”这个完全陌生的选题,按理说找材料阶段应该不带偏见、几种原材料平均用力。实际上呢?”钢铁供应链安全”这个关键词就是比煤炭更吸引他——因为它勾连到了他脑子里早就有的记忆。最后他收集的材料天然不平均。这不是不严谨,这是认知结构在工作。判断不是搜集完成之后才开始的,你翻开第一份材料、产生第一个念头的时候,它就已经在运转了。

反过来,真把”客观”贯彻到底会发生什么?一位编辑给主播看过一份采访笔记:一个记者为一篇深度报道做了32万字的采访记录,文章却始终写不出来。不是信息不够,是太平均了——每个事都说了一点,每个事都没扎进去。在材料面前一视同仁、不敢有偏好,这不是严谨,是瘫痪

正面的例子是那期讲唐朝旅馆的节目:可达材料收了一整年,成稿只用四天。不是最后四天效率突然爆发,是那一年里可达一直在反应——这个有意思、那个不对劲、这两件事之间有某种隐秘的关联。到某一刻,碎片化的判断凝结了,四天只是收割。二十多个小时的成片里,可达没有一次提到大纲。

Rick Rubin有句话:Work is finished when you feel it——作品在你感觉它完成的时候完成。可如果你全程不处理材料、忙着”保持客观”,你拿什么去感觉?收集材料是无止境的,不靠判断收束,你只能给自己定一个机械指标,比如”收够一千万字”——然后你得到一千万个汉字,以及一篇永远开始不了的文章。

当我有一个选题的时候,我会沉浸在资料里面,去找到我在意的,我想深挖的那个点。这非常的主观,世界有那么多材料,你想客观???做不到的。这个世界就没有真正的客观,每个人都是带着自己的主观想法去看待世界。创作就是得带着自己的主观想法,那些报道,那些文献,如果你不带主观去有偏颇的去吸收你在意的,那创作出来,给观众看,和他们自己去看报道,和文献有什么区别,世界本就不需要我的表达,所有我能表达出自己观点的时候,我应该带着一种确幸。

四、AI自动化了”错误的那一半”

把这些放回当下的AI工具链语境,问题就尖锐了。开头说的那个事实——材料侧的工作已经被大规模自动化——如果内容生产真能拆成两道工序,意味着第一道工序已经完工,剩下的只是润色排版。

但被自动化掉的,恰恰是不能独立存在的那一半

如果你自己不带着判断走进那堆材料,真空不会保持真空——AI会用它自己的”判断”来填补:那些嵌在几千亿参数里的隐含倾向。你以为你在用一个中性工具处理中性素材,实际上你在让模型的认知图式替代你自己的。第一节那个RAG案例就是明证:团队一开始以为问题出在检索质量或模型选型,但真正的问题是,没有人在材料和输出之间放进自己的判断。

这里还藏着一个更隐蔽的陷阱:材料崇拜。我们默认材料更多、引用更密、卷宗更厚的内容,就天然更有合法性——仿佛一个用一生读完宋代全部材料的人,才有资格谈论宋代。汉洋里对此的反驳很不客气:这种崇拜回避了创作的全部责任。创作恰恰是从一百万种可能的讲法里选出一种,把有限的、带着偏好拎出来的东西串联成理解。只摆材料、不做串联,材料就不再用于建立理解,而是用于建立权威姿态——”我比你读得多,所以我比你高”。AI时代这个陷阱只会更深,因为堆材料的成本已经趋近于零。所以现在的观点、判断才显得尤其的重要。

五、反方向的证据:先写,再让AI写

到这里都是在说”不能怎样”。有意思的是,讲出南斯拉夫翻车案例的同一拨人,恰好也给出了一个”应该怎样”的完整样本——而他们的解法,和直觉完全相反。

重轻他们的项目要给成百上千个建筑模型写介绍。最早的几篇,是团队里的策展人在旅馆床上手写的。写第一篇之前,可达对那座建筑去过十几次,脑子里早就有一个现成的叙事,写作只是确认细节、把事实插进叙事里。后来写到没去过的建筑,他做的也是一个研究者的本职:交叉比对各种来源的可信度,决定用哪个信息、不用哪个,再考虑怎么把它讲成一个有纵深的故事。

当时重轻他们完全没想到,这几篇手写的”小作文”,日后成了整套AI流程里最重要的资产——人类样本。等到要让AI批量写作时,他们手里有了一条基准线:每一篇AI的产出,都拿来跟人写的那几篇比。好,为什么好;不好,差在哪。

他们还做了一个思想实验:假如当年顺序反过来,一上来就让AI生成十篇供大家挑选,会怎样?结论是——选不出共识。你能挑出几篇”都还行”的,但你问每个人行在哪,答案各不相同。恰恰是因为先用了一两周时间人工去写、密集讨论”这个东西到底该包含什么、不包含什么”,团队才碰出了一套对齐的标准:要隽永,要有余味,拒绝户口本式的全记录,文字不抢模型的戏。这套标准后来进了每个人的脑子,跟AI协作时直接说出来就行,而不是让AI猜。

再看重轻他们的prompt是怎么写的。那个用来生成建筑词条的提示词,是策展人把他自己写词条的真实流程逐步翻译出来的:先设定语境(你是受过训练的建筑史学者,要调用领域常识,不要对常识大惊小怪),然后规定两步走——先读材料、写大纲交”编委会”批准,获得反馈后增量补充、消错,最后才成文。这不是什么咒语或魔法,它就是一个有经验的写作者把自己的工作方式说清楚了而已。播客里有句话概括得很准:好的prompt不是技巧的堆砌,它是把你的判断力翻译成机器能执行的语言。

所以汉洋和重轻都是说:AI不是天降的机械神不是佛子,它更像一面镜子——你通过它看清的,是你自己(或你团队里最会写的那个人)到底是怎么创作的。整套流程与其说是为AI设计的,不如说就是一套写作流程:换成几十个训练有素的编辑来跑,照样成立。AI是一个脚手架,动的人是你。

这和第四节是同一枚硬币的两面。AI填补判断真空的方式,是塞进它自己的图式;避免这件事的唯一办法,是你先有自己的图式,并且把它说清楚。AI可以把1放大到100,但0到1那一步——知道自己想要什么、知道好是怎么个好法——没有任何模型能替你完成。你的发心,你的目标,AI没发帮你定。这一步在AI时代不是变得更不重要了,而是变成了全部门槛之所在。

如果把这套做法压缩成一个可以带走的工作法,我把它叫做”人类样本先行“:在让AI批量生产任何内容之前,先由人手写少量样本,并围绕样本讨论清楚”好”的标准是什么;再把这套标准和你自己的真实工作流程翻译成提示词;之后每一批AI产出,都回到人类样本这条基准线上做对比评估。三步里成本最高的是第一步,但它决定了后面所有自动化的上限——这个顺序不能颠倒,因为思想实验已经证明了:先让AI生成再挑选,挑不出共识,只能挑出”都还行”。

写在最后

这篇文章我想说的事就一句话:AI时代真正稀缺的不是材料、不是检索能力、不是引用密度,而是一个人读完那些东西之后说出”我认为”三个字的能力。”我”现在愈加的重要,不然在这个时代,你会陷入到AI的狂热当中,却忽略了 自己。

材料的意义永远取决于一个人走进去之后产生了什么、发现了什么。同一堆文档,在不同人手里会长出完全不同的分析——不是因为谁检索错了,而是因为他们理解世界的方式不同不一样。这不是人类的缺陷,这是人之所以能产出有价值内容的唯一原因。

如果你自己没有论点,AI替你读再多材料也没用。它只会把自己的”论点”塞进你的内容里。而AI现阶段就是人类的镜子,如果你无法有自己的判断,那么AI输出的也是一个空中楼阁

唯一的出路不是更多材料、更好的检索、更严格的事实核查流程。唯一的出路是你自己走进那堆材料里去,允许自己产生反应——然后追着那个反应往下走。去做一个舔地图的人,把手弄脏,有些步骤不能省略,我们也不应该省略。

那个反应就是你的宝藏,那个最真实的东西。剩下的一切都是注脚。你的观点,才让别人更读懂你。

参考来源:

https://www.demenzemedicinagenerale.net/images/mens-sana/AutomobileDestruction.pdf

https://archive.org/details/Bartlett1932Remembering

https://www.xiaoyuzhoufm.com/episode/6a202be67444b5722232dd7a

https://www.xiaoyuzhoufm.com/episode/69a16729de29766da9c25ee7

本文由 @Liam的微响 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. “人类样本先行”能有效对齐标准,但如果创作者的认知图式本身就有偏见,那是不是也会固化错误观点?这时候AI的“客观”反而可能是一种纠偏。

    来自广东 回复
  2. 如果创作者自己面对陌生领域,没有现成的图式或判断,那“人类样本先行”的第一步该怎么启动?是不是需要先靠AI快速扫一遍材料来辅助形成初步印象?

    来自广东 回复
  3. 支持先写样本的做法。这个对齐过程还能让团队提前暴露认知分歧,避免后期AI产出时互相甩锅。比起让AI猜你要什么,不如一开始就告诉它你的图式。

    来自广东 回复