真正在一线做 RAG 和 CoT 后,我对“大模型能力”的理解彻底变了
RAG与CoT项目的真相远非表面光鲜:从数据清理的残酷现实到标注中的艰难取舍,再到推理逻辑的深度纠偏,每一步都在考验产品人的专业判断。本文揭露大模型项目中最真实的5个体感瞬间,带你直击AI能力如何在实际项目中被打磨成型。

如果说前面讲的是“逻辑”,那这一篇,我想讲讲真实做项目时的体感。
一、第一天就会被打脸的一件事:数据真的很烂
刚进项目时,大多数人都会默认三件事:
- 问题是清楚的
- 材料是有用的
- 回答是“至少能改的”
但你真正打开数据,会看到一堆这样的情况:
- 问题本身逻辑断裂
- 材料和问题完全不相关
- 历史对话前后自相矛盾
你这时才会明白:
RAG 项目的第一步,根本不是“增强”,而是“止损”。
二、标注最累的,不是改答案,而是“决定要不要改”
外行会以为标注很简单:
不行就改,改好就交。
但真正消耗心力的,是下面这些判断:
- 这条是“稍微补一句就行”,还是“越改越歪”?
- 是材料问题,还是模型理解问题?
- 我现在改,是在帮模型,还是在硬撑数据量?
你会慢慢学会一个残酷但重要的判断:“跳过”,本身就是专业能力。
三、CoT 项目里,最常见的不是“不会推理”
而是这种情况:
- think 写了 300 字
- 但真正有用的信息只有 3 行
- 关键判断被绕过去了
如果你不改这种数据,模型学到的不是“思考”,而是“如何用很多话掩盖不确定”。
这也是为什么 CoT 项目里,经常会出现一句评价:
“看起来很努力,但不合格。”
四、质检和复盘,才是真正拉开项目差距的地方
你会发现一个非常明显的现象:同一套规则,不同人做出来的结果天差地别。
差距不在操作,而在理解:
- 为什么这条必须跳?
- 为什么这一步是逻辑错误而不是表达问题?
- 为什么这个 think 必须重写?
所以真正有效的不是“再读一遍规则”,而是反复对齐失败案例。
五、做到最后,你对“大模型能力”的看法一定会变
做完一轮完整的 RAG + CoT 项目后,你会发现自己不再问:
“这个模型聪不聪明?”
而是开始问:
- 它的错误是不是可预测?
- 它会不会在不确定时选择保守?
- 它的判断过程能不能被人类理解?
这时候你会意识到一句很重要的话:
模型能力,不是被“升级”出来的,而是被数据一点点“雕刻”出来的。
实战收尾一句话
RAG 和 CoT 项目,几乎没有爽点。更多的是反复、纠结、推翻、重来。
但正是这些看起来不起眼的判断,决定了模型最后是“看起来很会说”,还是真的值得被放进关键流程里。
共勉!棒棒,你最棒!
本文由 @青蓝色的海 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自unsplash,基于CC0协议
评论
- 目前还没评论,等你发挥!

起点课堂会员权益




