人人都能看懂的预训练、微调、提示词工程和 RAG(我保证)

0 评论 2590 浏览 12 收藏 7 分钟
找到工作只是第一步。我们的核心目标是,通过系统的学习和实战训练,不仅让你成功入职,更能让你具备快速胜任工作的能力,在团队中站稳脚跟。

 

封面图 By 即梦

这篇文章,我们用一个所有人都熟悉的案例,帮大家彻底理解大语言模型的那些”高大上”概念:

  • 预训练
  • 微调
  • 提示词工程
  • RAG(检索增强生成)。

这个案例就是我们每个人都经历过的学习考试过程

看完这篇文章,你会对AI的工作原理有全新的认识,以后使用AI时也会更加得心应手。

Tips:本文由 DeepSeek 基于我的录音稿整理润色,我只做了“微调”。

预训练

每学期开学,老师都会发给我们一堆教材,然后在课堂上讲解知识点。

这个过程中,我们把一学期的知识逐渐内化、理解和吸收——这其实就是大语言模型的预训练过程

这里有个关键区别:死记硬背 vs 真正理解。

死记硬背:你只能记住题目和标准答案,考试遇到原题会做,但题目稍有变化就束手无策

真正理解:你能融会贯通,应对不同的题型和场景——这正是现代大语言模型的核心策略

AI 回答 = 考试

考试时,你看到题目后会:

1. 理解题目要求

2. 调用大脑中相关的知识

3. 经过一系列推理和知识整合

4. 最终一个字一个字地写出答案

这完全就是AI回答问题的过程

当你向AI提问时,它也是:

1. 理解你的问题(提示词)

2. 调用预训练学到的知识

3. 经过内部推理和整合,逐字生成回答

提示词 VS 考试题

有时候,你学的东西太多太杂,面对一个很简单的问题时可能不知道关联哪个知识点。

这时,题目的清晰度就至关重要

如果老师在出题时明确说明:

  • 考查哪一章哪一节的知识点
  • 需要调用哪些具体知识
  • 回答的格式要求

那么不管你的知识多杂乱,只要题目足够清晰,你就能准确调用相关知识作答。

提示词工程的精髓

这就是提示词工程的精髓

你向 AI 提问时:

  • 问题越简单模糊,AI越可能”乱答”(其实是随机调用相关知识)
  • 问题越详细、指向越明确、格式要求越规范,AI回答质量越高

小贴士:AI不是”乱答”,而是它的知识太庞杂,当问题不明确时,它只能随机选择相关知识来回答。

微调 = 做真题

很多人误以为”这个知识AI不会,微调一下就好了”。这是对微调的误解

微调更像是考前老师带你做真题讲解:

你不知道高考会考什么题

但老师会讲解往年真题的正确答案和解题思路

通过这种方式,你学会”如何更好地作答”

微调的本质是教AI更好地作答,而不是教它新的知识。

如果某个知识点AI根本没学过,做再多真题(微调)也没用!

继续预训练 = 复读

要让AI掌握它原本不会的知识点,唯一的方法是继续预训练(相当于学生复读):

  • 准备包含专有知识的语料(如公司内部资料)
  • 这些语料包含对知识的解释和各种关联关系
  • AI通过继续学习这些材料来掌握新知识

同样的道理,如果高考考到一个你完全没学过的概念,即使给你参考书,你短时间内也无法掌握并正确作答。

——这就是RAG(检索增强生成)的局限性。

RAG = 开卷考试

RAG就像开卷考试,它的关键在于如何准备和整理”小抄”

  • 糟糕的做法:直接带整本书进考场
  • 正确的做法:提前整理好知识点和关键词索引,考试时快速定位相关内容

所以做 RAG:

  • 必须对进行精细清洗和拆解,确保片段完整
  • 在确保段落完整的基础上尽量简短,方便抄

目前流行的”个人知识库”产品,只是简单拆分文档(如每2000字一段),这可能导致知识点被切碎,最终AI回答质量低下。

好学生 坏学生

大语言模型就像个”学习成绩很好好学生”,但好学生不一定总能拿高分

因为它没有“好学生”的辨识判断力:

1. 它需要”好题目”(清晰的提示词),否则会随机选取知识点答题

2. 如果开卷考试提供的资料错误或者残缺,它不会纠正修复,而是硬抄

3. 遇到完全没学过的知识,做再多“真题”也无济于事

例如,我问Claude模型”什么是MCP”(Claude官方发布的新功能),它完全胡编乱造!因为:

MCP发布时,模型已经”毕业”(训练完成)

它不懂,但会硬编

总结

人类和大语言模型在知识学习和输出的逻辑上惊人地一致。理解这一点,你就能:

  • 更有效地使用AI工具
  • 合理预期AI的能力边界
  • 针对不同需求选择适当的方法(预训练、微调或RAG)

现在,你对大语言模型的工作原理是不是有了全新的认识?

如果这篇文章帮你理清了思路,评论区帮我刷个 666

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
13364人已学习14篇文章
在项目完结时,我们经常需要进行项目复盘。那么一个好的项目复盘是怎样的?
专题
14551人已学习13篇文章
本专题的文章分析了用户运营策略的案例,为如何做用户运营策略提供了思路。
专题
32394人已学习10篇文章
社交产品是大坑?没get到这些知识点,可能你才是个大坑。
专题
11647人已学习12篇文章
从二维到三维空间的过渡,其交互范式也会随之从2D GUI时代转换到3D UI时代。本专题的文章分享了XR空间交互指南。
专题
88665人已学习12篇文章
世间万物皆有套路,面试更是如此,多拿几个靠谱offer。
专题
20123人已学习13篇文章
本专题的文章分享了跨境支付的行业、发展、支付方式和商业等信息。