当 AI 开始”吃自己拉的东西”:废料时代,模型还能越练越聪明吗?
当AI批量生成的内容充斥各大平台,我们是否正在见证一场‘信息同质化’的灾难?本文深度剖析了‘AI废料’的四大特征,揭示了模型崩溃背后的学术研究,并提出了四条破解路径。从技术水印到信任源头,从质量信号到AI自评,这场内容生态的保卫战正在重塑产品经理的思考框架。

如果你最近经常刷小红书、知乎、公众号,可能也有同样的感觉:
文章越来越多,但好像越来越没意思了。
打开一篇标题很吸引人的科普文,读两段就发现——这语气、这套路、这”首先……其次……最后”的三段式结构,怎么这么熟悉?再翻几篇,发现都是一个味儿。
不是错觉。是 AI 写的。
更准确地说,是一大批人用 AI 批量生成的内容。一个人一天能写一篇,AI 一小时能产出一百篇。它们被发到各大平台,被搜索引擎收录,被推荐算法分发,最终又变成下一代 AI 训练时的”教材”。
问题来了:当互联网上一半以上的新增内容都是 AI 生成的,下一个版本的 AI,到底是在向人类学习,还是在向自己学习?
这件事,听起来有点像那个段子:一条蛇饿了,开始咬自己的尾巴。
什么叫”AI 废料”?
先把话说清楚——不是所有 AI 生成的东西都叫废料。
一个产品经理用 AI 帮自己润色 PRD,思路是他自己的,AI 只是帮他把句子写得更通顺,这不算废料。一个研究员用 AI 帮自己整理文献综述的初稿,再人工核对修改,这也不算废料。
真正的废料长这样:
- 没有真实信息增量,只是把已有内容换个说法重写一遍
- 没人审校,错了也没人改,AI 一本正经地胡说八道(业内叫”幻觉”)也照发不误
- 标题党和关键词堆砌,目的不是让人看懂,是让算法收录
- 同一个主题用不同 prompt 生成几十篇,洗成”原创”批量铺货
简单说,废料的核心特征不是”AI 写的”,而是”没人对它的质量负责”。
过去做内容农场,至少还得雇一群兼职写手手动洗稿,成本摆在那,量有上限。现在一个人加几个 API key,一晚上能产出过去一个团队一个月的量。生产成本暴跌了几个数量级,但筛选成本几乎没变——这就是问题的根源。
“模型崩溃”:AI 吃自己产出的东西,会怎样?
这不是危言耸听,学术界已经有名字了,叫 Model Collapse(模型崩溃)。
2023 年牛津、剑桥几所大学的研究者做过一个实验:他们让一个语言模型生成一批文本,然后用这批文本去训练下一代模型,再让下一代生成、再训练下下一代……如此反复。
结果是什么?
前几代还看得过去,到了第七、第八代,模型开始胡言乱语,输出大量重复的、毫无意义的句子。
更直观的解释是这样的:把人类写的内容想象成一片森林,里面有高大的树、低矮的灌木、奇奇怪怪的蘑菇——多样性很丰富。AI 学习之后能复刻这片森林的”平均样貌”,但那些罕见的蘑菇、那些奇怪的树枝,它会下意识地省略掉,因为它的本能是”输出最可能的答案”。
如果下一代 AI 只看这个被简化过的森林,它就再也学不到那些蘑菇和奇枝的存在。再下一代、再下一代……几轮之后,森林就变成一片只有几种常见树的工业林场。
这就是模型崩溃:长尾消失,多样性枯萎,AI 输出越来越平庸、越来越同质化。
听起来是不是有点像现在的内容平台?
那 AI 怎么识别哪些内容”能吃”?
这是个好问题,也是当下 AI 公司、平台、研究者都在头疼的问题。目前主要有这么几条思路。
思路一:技术手段——给 AI 内容打”水印”
最理想的方案是:让 AI 生成的每段文字都带一个人眼看不到、但机器能识别的标记。Google 的 SynthID、OpenAI 也在研究类似技术。
听起来很美,但现实是:
- 水印只对”主动配合”的 AI 公司有效,开源模型不打水印你也没办法
- 内容经过翻译、改写、二次编辑,水印基本就没了
- 各家 AI 公司各搞一套,互不通用
所以水印能解决一部分问题,但解决不了大头。
思路二:数据来源筛选——回到”信得过的源头”
如果新内容鱼龙混杂,那就只用旧的、可信的内容怎么样?
很多顶级模型现在确实在这么做——更看重权威出版物、学术论文、专业书籍、有编辑审校的媒体。但这又带来新问题:世界一直在变化,你不能永远只用 2022 年以前的数据训练 AI。否则它就不知道今天发生了什么。
折中的办法是建立”高信任源”白名单——比如医疗内容只采纳医学期刊和正规医院网站,法律内容只采纳官方法规和判例数据库。这个方向各大平台都在做,但覆盖不了所有领域,而且白名单本身也有偏见。
思路三:质量信号——让人和数据说话
这个思路更贴近产品视角:不是判断”这是不是 AI 写的”,而是判断”这内容有没有价值”。
判断价值的信号有很多:
- 有没有原创信息:比如独家的数据、采访、案例
- 有没有人愿意为它停留:阅读时长、收藏率、转发率
- 有没有专业人士背书:作者身份、机构属性、被引用情况
- 能不能经得起事实核查:和已知的可信源是否一致
简单说,与其纠结”是不是 AI 写的”,不如直接看”对人类有没有用”。一篇 AI 辅助但人工把关的深度好文,比一篇人手写但全是车轱辘话的水文,价值高得多。
思路四:让 AI 自己来打分
听起来有点玄学,但确实在用。让一个更强的 AI 去评估一段内容的质量——比如它的逻辑是否自洽、是否有事实错误、是否在重复已知信息。这种方法在大模型训练里叫 RLAIF(AI 反馈强化学习)。
它的好处是规模大、成本低;坏处是裁判员和运动员有时候是同一种生物,容易”近亲繁殖”,把 AI 自己的偏见放大。
产品经理可以从这件事里看到什么?
讲了这么多,最后落到我们最关心的问题:作为做产品的人,这件事跟我们有什么关系?
我觉得至少有三层启发。
第一层:内容生态的护城河,正在从”量”变成”信任”。
过去做内容平台,比的是 SKU 数量、更新频率、覆盖广度。现在 AI 把”量”这一项打到地板价了——任何人都能在一夜之间灌满一个垂类。未来真正稀缺的,是”这个内容你能信”这件事。无论是用户对作者的信任、平台对内容的审核、还是机构背书的可信度,都会变得更值钱。
第二层:好的产品设计,要开始把”人的判断”显式地放进流程。
过去我们追求”自动化、智能化、不需要人介入”,现在反过来——在 AI 大量介入的环节,显式地保留人类把关的位置反而是亮点。比如医疗 AI 助手最后必须由医生确认,法律 AI 答案必须标注律师审核状态,知识社区给真人创作打专属标识。这不是退步,是新的产品语言。
第三层:差异化不在工具,在用工具的人。
未来人人都用 AI,所以”我用了 AI”已经不是优势。优势是:你的提问比别人深,你的判断比别人准,你愿意比别人多花一道人工核校。AI 是放大器——放大聪明人的产出,也放大水货的产出。它本身不解决品味问题。
写在最后
回到开头那个问题:当 AI 开始大量”吃自己拉的东西”,模型还能越练越聪明吗?
老实讲,没人知道终局。可能某一天人类会发明一种神奇的算法把废料和精品自动分开,也可能我们就是会经历一段内容质量下滑的低谷期,然后慢慢恢复平衡。
但有一件事我比较确定:AI 时代的内容生态,最稀缺的不是产能,而是品味和责任感。
机器可以无限生成,但”这一段值得被读”这件事,到现在还得有人来负责。
也许这正是我们这些做产品、做内容、做判断的人,长期来看真正的价值所在。
本文由 @JK硅行者 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




