万字解读 Avi Chawla《2026 LLM工程师路线图》，8 层能力框架看 AI 应用工程

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

万字解读 Avi Chawla《2026 LLM工程师路线图》，8 层能力框架看 AI 应用工程

叶小钗

2026-05-18

0 评论 1443 浏览 0 收藏

35 分钟

LLM应用工程正在重构AI行业准入门槛。从Prompt Engineering到Agent系统部署，一套覆盖8大支柱的完整能力框架，揭示了从碎片化学习到生产级落地的关键跃迁。本文拆解LLM工程师路线图，为普通人指明高性价比的AI职业切入路径。

最近大家都非常关注一个话题：在 AI 热潮越来越猛的今天，普通人到底该怎么进入 AI 行业？

如果你最近也在焦虑、在内耗，不知道该学什么、不知道该怎么开始，这篇文章应该会对你有帮助。

最近我看到 Avi Chawla 发了一篇文章，叫：《The 2026 LLM Engineering Roadmap》，翻译过来就是：

2026 LLM 工程师路线图

简单介绍：Avi Chawla 可以理解为一个海外 AI/Data Science 领域的内容型技术作者 + 教育产品创业者不是 OpenAI、Anthropic 那种一线模型公司的核心研究员

这里的意思是：他跟我的角色类似，大家可以参考，但不要觉得就完全是这么回事

这篇文章的核心观点很明确：做 LLM 应用，早就不是会写 Prompt 就够了。

真正的生产级 LLM 系统，需要从 Prompt、RAG、上下文工程、微调、Agent、部署、优化、安全评测与可观测性，形成一整套工程能力

他说，严肃的 LLM 开发，大体可以分成 8 个支柱：

Prompt Engineering
RAG Systems
Context Engineering
Fine-tuning
Agents
LLM Deployment
LLM Optimization
Safety, Evals & Observability

这个框架我基本认可（但不完全认可）。

而就我这 3 年，20 多个 AI 项目实践来说，他说的没有大问题，只是有些地方可能有点过时：

国内外 AI 产品生态有点不一样，但大概的学习路线图都类似，比如过去很多人以为，进入 AI 行业就是学模型、学算法、学训练；

后来很多人又以为，进入 AI 行业就是会用 ChatGPT、会写 Prompt、会搭 Coze、会配 Dify。

但现在看下来，这些理解都不完整。

真正的 AI 应用工程，已经是一套完整系统能力，它不是单点技能，而是一条链路，也就是前面 Avi Chawla 所说的：

Prompt → RAG → Context Engineering → Fine-tuning → Agent → Deployment → Optimization → Evals / Observability / Safety

他这套系统解决了一个问题：之前很多同学都在碎片化学习，这会导致很多同学明明好像看了很多 AI 工具，却还是没有进入整个行业。

AI 知识框架

现在很多人都很焦虑，尤其是企业老板和程序员。

关于他们的焦虑，我太懂了：

AI 这东西发展得太快了，很多人已经不确定自己正在做的事情在一年后是否还有意义，而伴随焦虑而来的，就是失眠与节奏混乱。

从去年开始，整个 AI 世界可以用乱花渐欲迷人眼来形容：

今天发布了一个 Manus，明天就要来一个 Lovart；
Cursor 还没被捂热，Claude Code 就变成了 AI 编程事实上的王者了；
前脚还在聊提示词怎么写，后脚大佬就说 RAG 已经过时，并丢出了上下文工程；
正当我们感叹 Coze 居然开源了，Google Nano Banana 又刷爆了朋友圈；
飞书发布会才浓墨重彩地介绍了多维表格，钉钉马上就跟进，强势推出 AI 表格；
OpenEvidence、Harvey 这种垂类 AI 项目估值越来越高；
然后 OpenClaw 爆火，掀起百虾大战，结果没多久 Hermes 又来了…

如果你只是天天看这些热点，那确实很容易慌，因为你会产生一种错觉：

AI 世界的底层逻辑，好像每天都在被重写。

但说实话，很多人的焦虑并不是因为 AI 真有那么可怕，而是因为没有建立自己的判断框架：

你如果没有框架，那就只能被热点推着走：

今天追 Manus，明天追 OpenClaw，后天再追 Hermes；
今天学 Coze，明天学 Dify，后天又觉得自己是不是该 all in AI Coding；

最后折腾了一大圈，时间花了不少，脑子里的东西却还是碎的。于是问题就来了：

普通人如果真的想进入 AI 行业，到底应该怎么学？
什么该学，什么不该学？
什么方向更现实，什么方向只是看起来很热闹？

先说结论：普通人进入 AI 行业，机会主要不在算法岗，而在业务落地

这也是为什么我觉得《2026 LLM 工程师路线图》这篇文章值得拿出来讲。因为它至少帮我们再次确认了一件事：

2026 年的 AI 能力，已经不是会用 AI 工具，而是能理解并参与生产级 LLM 应用工程

Prompt Engineering

Avi 在路线图里的第一层是 Prompt Engineering，他认为：

每个 LLM 旅程都从 Prompt 开始，因为 Prompt 是你能使用的最便宜杠杆

这句话很挺正确的，而且就国内经受过百模大战伤害的人来说，我们会发出反感：

很多人一上来就想做 RAG、做 Agent、做微调、做知识图谱…

其实大量问题最开始应该先问一句：这个问题，能不能先通过更好的 Prompt 解决？

而所谓的提示词工程，并不是随便写几句话让模型回答，而是要把 Prompt 当成一种工程资产来管理。

也就是说，好的 Prompt 至少要做到几件事：

指令清晰，减少歧义；
给出必要的上下文；
用 few-shot examples 固定输出格式；
通过结构化要求稳定输出；
能版本化、能测试、能复现；
不是今天碰巧有效、明天就失效的玄学；

并且他也给出了有效的建议：

正儿八经说，这一点挺中肯的，因为我看到过太多人学 AI，第一步就学偏了。

有的人一上来就去研究一堆暂时根本用不到的底层名词：TF-IDF、BM25、BERT、FastText、LSTM、Viterbi、各种训练细节…

这些东西不是没用，甚至在某些场景里很重要，比如 BM25 到今天仍然是混合检索里的常见组件。

但对于绝大多数想进入 AI 应用行业的人来说，前期不应该把学习重点放在这些底层细节上。

熟悉 AI 第一步真正更应该先掌握的是：关于提示词的工程配置，他往往和很多东西绑定到一起的，比如：

业务规则；
角色设定；
输出格式；
工具调用；
知识库内容；
安全边界；
评测标准；

所以 Prompt Engineering 是进入 AI 应用的第一关，也是重要而简单的一关，是需要学，但企业绝不会愿意付费的部分。

RAG

路线图里的第二层是 RAG Systems。Avi 的说法很直接：当答案需要模型训练数据里没有的信息时，Prompt 就会撞墙。

PS：这里大家可能读起来有点绕，但他确实是这么翻译的…

比如公司文档、客户历史、模型 cutoff 之后的新信息，这时候就需要 RAG。

RAG 的基本逻辑是：

把文档切成 chunks；
用 embedding 模型向量化；
存进向量索引；
用户提问时召回相关片段；
把召回内容拼进 Prompt；
让大模型基于这些内容回答。

这就是很多 AI 知识库产品的底层逻辑。

过去两年，很多企业落地 AI 的第一个场景，就是知识库问答。比如：

企业制度问答；
客服知识库；
销售话术库；
内部培训资料；
产品文档问答；
法律、医疗、金融等垂类资料问答。

这个场景很容易理解：企业有大量文档，人找起来很麻烦，那能不能让 AI 帮我查、帮我答？

RAG 最火的是 2024 年，那时候基模的能力还不行，Agent 生存环境恶劣，所以行业的基础或者基础技术范式在那时候就搞得差不多了。

如果你真的做过 RAG，就会知道：RAG 看起来简单，真正做好很难。

前面所谓上传文档 → 自动切分 → 向量化 → 问答，真实跑起来就全完蛋了。真实项目里，会有很多问题：

文档解析不干净怎么办？
PDF 里的表格、图片、标题结构怎么处理？
chunk 切大了主题混杂，切小了语义不完整怎么办？
用户提问太口语化，召回不到怎么办？
召回结果很多，但真正有用的片段排不到前面怎么办？
模型明明拿到了资料，为什么还是答错？
知识不足时，怎么让模型承认不知道，而不是一本正经胡说八道？

一套稍微像样的 RAG 系统，至少会涉及：文档解析 → 数据清洗 → 文档分块 → 向量化 → 建索引 → 查询改写 → 混合召回 → RRF 融合 → Rerank 重排 → TopK / 阈值过滤 → 上下文拼接 → 回答生成 → 低置信度处理 → 全链路记录

这已经不是工具操作了，而是一套工程系统，这也是为什么很多人会搭 Dify，但并不代表他真的懂 RAG：

比如以下是一段真实反馈：

我们一开始用 dify 搭的智能客服，现在已经爆炸了，然后迁到 hermes，结果问题一大堆，又从 hermes 迁到我们自建的系统，用 dify 兜底，这一切太难了…

Context Engineering

路线图里的第三层是 Context Engineering，这部分是我觉得最重要的，也是最近越来越多人开始重视的方向，他具有承上启下的作用，这东西往上就是提示词工程，往下就是 Harness 驾驭工程了：

Avi 的意思是：Retrieval 只是模型输入的一部分。

模型上下文窗口里还会有对话历史、工具结果、长期记忆、系统提示词、few-shot examples，它们都在争夺同一个 token 空间

所以 Context Engineering 要解决的问题是：

什么应该留下？
什么应该压缩？
什么应该丢掉？
什么应该动态加载？
怎么在成本、注意力和效果之间做平衡？

到这里就把 RAG 缩小到上下文工程的一个模块了，当然后续上下文工程又被 Harness 包了起来，可谓是一报还一报…

上下文工程重要的核心原因是，他是理解高阶 AI 知识库、数字分身、同事 skill、Agent 系统的关键。

很多同学开始使用 RAG 只关注一件事：用户问了什么，我从知识库里召回什么。

但渐渐的就会发现这不够用，高阶系统需要关注的更多：当前任务下，模型应该看到什么？这就不是简单 RAG，而是上下文工程了。

比如一个真实的 AI 客服系统，模型回答问题时，可能需要看到：

用户当前问题；
最近几轮对话历史；
用户所属版本；
用户账号状态；
产品知识库；
历史客服记录；
当前意图分类；
召回的知识片段；
安全边界；
不允许承诺的内容；
低置信度处理策略。

你会发现，知识库只是其中一部分，而真正难的是：

怎么把这些信息组织成当前这一轮模型最应该看的上下文

这也是为什么我一直说，很多所谓的同事.skill产品经理.skill销售冠军.skill，其实很容易被高估，都在瞎扯淡。

你把一个人的文档、话术、经验片段整理进去，不代表你真的蒸馏出了这个人。因为一个人的能力不是静态知识，而是：

知道什么时候该用什么知识；
知道当前上下文里哪些信息重要；
知道哪些内容不能说；
知道什么时候要追问；
知道什么时候要升级给人；
知道任务状态如何变化；
知道不同场景下判断标准不同。

这很难滴，现在多数公司还只是停留在低阶知识库关注的是召回，一旦进入高阶后，关注点就会放到上下文组织了。

再往下，就是具备记忆、工具、状态和行动能力的 Agent Runtime。但这更难，后面会做介绍，总之大家要建立的一层认知：

学AI，不要只学工具配置，要理解信息如何进入模型、如何影响模型、如何被模型使用

微调

路线图里的第四层是 Fine-tuning，Avi 的观点很清楚：

当 Prompt 和 Context 都到达瓶颈时，下一步才是调整模型权重

但，我的观点是不是很有钱的公司，也不想在垂直或者通用领域做基模的公司，就不要考虑微调了，所以在我们的认知体系里面，微调的比例非常轻

Avi提到了 LoRA 和 QLoRA。

简单说，传统全量微调大模型成本很高，而 LoRA / QLoRA 这类方法，可以只训练一小部分低秩矩阵，让普通团队用更低成本完成领域适配。

但他特别强调一句：微调最难的不是训练代码，而是数据。这点跟我们历史的认知是完全一致的，但这东西很难…

很多人以为微调是技术活，但真正决定效果的，往往是数据工程，需要考虑的包括：

样本从哪里来；
数据质量怎么样；
有没有重复；
有没有脏数据；
指令格式是否统一；
输出是否稳定；
是否覆盖真实场景；
有没有高质量人工反馈；
有没有评测集；
有没有防止过拟合。

而且普通人进入 AI 行业，我并不建议一开始就把重点放在微调上。

为什么？

因为绝大多数企业 AI 应用，前期根本不需要微调

它们更需要的是：

把业务场景定义清楚；
把 Prompt 写好；
把知识库搭好；
把 Workflow 跑通；
把工具接进去；
把评测和观测做起来；
把数据闭环建立起来。

微调不是没用，但现阶段来说使用的场景已经变得很小了，如果连RAG都没做好的企业，就千万别去搞什么微调了，因为现阶段重要的微调小模型就是做意图识别。

Agent

路线图里的第五层是 Agents。Avi 对 Agent 的定义还挺工程化的：Agent 扩展了 LLM 循环：模型选择工具、调用工具、读取结果，然后决定下一步，直到任务完成。

其实就是我们常见的理解就是了：你给它一个目标，它自己拆任务、调工具、看结果、修正路径、继续执行。这里的重点是：

从回答系统进入了行动系统

因为系统工作变多了，所以整体的架构就复杂起来了。这里大家要清晰的理解让模型调用工具不难，但让模型稳定的调工具很难；

其次就我们去年做 Agent 的经验，初期难的地方在编排，你要处理：

多轮状态管理；
工具调用失败；
模型选错工具；
中间结果不可信；
无限循环；
step limit；
成本失控；
上下文过长；
权限边界；
安全兜底；
人工介入；
执行轨迹；
失败恢复。

所以你看，Agent 听起来很科幻模型自己就把活干了，其实本后全部是各种工程叠加，整个 Harness 也就是在解决一件事：

如何让模型在真实环境里稳定执行任务

这也是为什么我最近一直在研究 OpenClaw、Hermes、Claude Code、Harness 这些东西。他们需要解决上述的问题，就要回答更多的问题：

系统能不能稳定干活？
出错后能不能恢复？
工具能不能安全调用？
上下文能不能持续管理？
任务能不能有预算、有边界、有记录？
人能不能理解它为什么这么做？

而这就是 Agent 工程。现在很多人看到 Manus、OpenClaw、Hermes，会觉得卧槽好牛。但如果你有工程思维，就会发现它们很多时候还是在解决这些问题：

如何承载 SOP / Workflow；
如何调用工具；
如何组织上下文；
如何拆任务；
如何处理执行状态；
如何进行多步规划；
如何做安全边界；
如何让结果可观测。

所以很多新东西并不是完全新的东西，而是老问题的新解法，你一旦理解到这一层，很多热点看起来就没那么玄了，自然也不存在焦虑了…

LLM Deployment

路线图里的第六层是 LLM Deployment，这里就涉及生产了，很多同学其实是看不到这个的，因为真正上线后，问题才刚开始。

如果你们做的是 demo，自然就不会关注生产后才会产生的问题，比如

并发请求；
负载波动；
响应延迟；
streaming；
batching；
GPU 利用率；
模型路由；
成本追踪；
fallback；
限流；
权限；
线上稳定性。

大家其实不知道我们为一个稳定性要付出多大的代价，比如之前一次 AI 客服造成的伤害：

《3小时，蒸发200万：一个AI客服引发的灾难》

这里其实又会涉及最佳实践问题，因为很多团队会把传统 DevOps 的经验直接套到 LLM 应用上，但实际上 DevOps、MLOps、LLMOps 要解决的问题并不完全一样。

传统软件部署的核心问题通常是：

代码有没有 bug？
服务能不能稳定跑？
接口能不能按预期返回？

但 LLM 应用上线后，你还会遇到很多新问题：

同一个问题，模型为什么今天这么答，明天那么答？
Prompt 改了一点，为什么整体效果退化了？
知识库召回到了内容，为什么模型没用？
用户问题越来越长，成本为什么突然飙升？
某个工具调用失败后，Agent 为什么还继续往下跑？
模型 API 抖动时，系统怎么降级？
多模型之间怎么路由？
哪些请求最贵？
哪些场景最容易失败？

所以，很多企业做 AI 应用，完全不学习，也不想招 AI 专家，最终大概率就是在 AI 项目吃试错成本了。

当然，对于普通人进入 AI 行业来说，不一定一开始就要掌握 vLLM、PagedAttention、LitServe、LiteLLM 这些部署工具。

但你至少要知道：AI 应用不是 demo 跑通就结束了。

真正上线以后，稳定性、延迟、成本、权限、监控、降级，都会变成工程问题

所有产品都会追求一个稳定性，并且原因付出而外 98% 的成本，这个稳定背后就是从 demo 到 production 的区别。

LLM Optimization

路线图里的第七层是 LLM Optimization，这也是生产环境后才会涉及的问题，其实他是不适合初学者的，是已经在从事相关行业的同学需要了解的：

因为，第一张推理账单会让你意识到这项技能的重要性，老板会从初期的 Demo 兴奋醒来，并开始骂娘叫贵…

很多 AI 项目 demo 阶段看起来很美好：效果不错，体验顺滑，老板也满意。

但一旦真实用户量上来，问题马上出现：

token 成本太高；
响应速度太慢；
模型调用太频繁；
上下文太长；
召回内容太多；
Agent 步数太多；
工具调用链太长；
失败重试成本太高。

这时候就必须做优化，常见优化包括：

prompt caching；
上下文压缩；
模型分层调用；
大小模型级联；
RAG 召回控制；
rerank 策略优化；
Agent step limit；
工具调用缓存；
结果缓存；
模型量化；
蒸馏；
pruning；
批处理；
推理引擎优化……

这些东西很多很杂，你不需要一下就全部学会，但是建立一个意识：

优化必须围绕真实业务负载，而不是围绕通用榜单

Avi 也强调：每一种权衡，都应该在真实 workload 上 benchmark，而不是只看通用 eval。

这里举个例子，做 Demo 过程中关注的是模型好不好，那么生产环境关注的就一定是模型合不合适，这个合不合适的背后是成本和效率的各种考虑，在这个场景下才有微调等高阶技术产生的原因，比如

有些任务根本不需要最强模型，分类、路由、格式转换、简单摘要，也许小模型就够了。复杂推理、长文分析、严肃决策，才需要更强模型。

所有的这一切，都需要我们做系统级权衡。这也是普通人进入 AI 行业后，很容易体现价值的地方，权衡的背后是系统性的理解，他包括：这个地方为什么贵？这个链路为什么慢？这个模型是不是用重了？这个上下文是不是太长了？这个任务能不能拆成小模型 + 大模型协同？这个结果能不能缓存？这个 Agent 有没有过度执行？

什么是生产环境的 AI 应用？考虑效率、成本和稳定性的 AI Demo 就是生产级的 AI 应用。