通过codex解析 Agent工作流程

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

Grace

2026-05-27

0 评论 1111 浏览 5 收藏

18 分钟

大模型的诞生与落地是一场精密的技术革命。从预训练到微调，从效果评估到资源隔离，这篇文章深度剖析了AI模型从实验室走向企业应用的全流程。特别是Agent与Skill的协同机制，正在重新定义人机协作的边界——当AI能自主规划、组合技能、处理未知情况时，产品经理的思维框架需要怎样的升级？本文用实战案例揭示了大模型落地的成本、安全与效能平衡之道。

一、造大脑与考试

大模型出生前要过两关训练。第一关预训练，算法团队搭骨架，标注团队洗数据，让模型自学海量文本规律，这时它已经是一个具备基础语言能力的大模型。第二关微调，标注团队转身成了高级导师，手写标准问答、给答案好坏排序；算法团队把这些反馈练进模型参数里，教它变得安全、听话、会遵循指令。

训练完，该上考场了。考卷就是模型效果评估：拿标准答案跟它生成的回复对标，看准确率达不达标，召回率够不够全，顺便测测它会不会一本正经瞎编——也就是幻觉率。几把尺子量过，合格了，才敢放出去上岗。

准确率：在你判断为“是”的结果里，有多少真的是。比如查10个垃圾邮件，6个真垃圾，准确率60%。
召回率：在所有真正“是”的里面，你找回了多少。比如总共有20封垃圾邮件，你找出了6封，召回率30%。

二、搭舞台跑任务：项目/会话/MCP/知识库/skill/Agent

2.1项目(工作台)

模型训好考过了，要用起来，就得给它搭工作台。工作台分为两种：全局工作台和项目工作台，一个平台可以开多个项目，项目之间的资源默认隔离。假设目前的工作区有三个：全局，全局下的项目A和项目B，他们下面有各自的资源(Agent ，agents.md ,向量知识库和skill)，他们之前的资源调用关系如图

项目 A 默认不能调用项目 B 的资源

项目 B 默认不能调用项目 A 的资源
项目 A / B 可以调用全局资源
全局默认不调用项目 A / B 的资源

但如果你明确授权或指定路径，例如“项目 A 参考项目 B 的知识库”，那就可以跨项目调用。默认隔离，显式指定才跨用。

2.2 单窗口对话(短期记忆)

打开一个窗口A，直接和大模型进行交互。窗口有上下文限制（短期记忆容量），指的是在一个对话窗口中“历史对话已经产生的 Token + 你本次提问的 Token”的总和限制，注：不是单次提问的限制。如果超出了限制，新产生的内容就会覆盖最开始产生的内容，该窗口的早期记忆就会丢失。

2.3 多窗口对话(长期记忆)

又打开一个窗口B，窗口B不会有窗口A的记忆。我在窗口A告诉大模型我叫小白，我在窗口B问大模型，我叫什么，他是回答不上来的。那我需要解决的问题是：如何跨对话记忆

在codex设置—MCP服务器页面配置Basic Memory工具，你每次聊天，它自动记笔记，新内容随时加进去，知识越聊越丰富。跨窗口跨项目都能用，不用重复描述上下文。

在对话A中提到“我朋友花花，喜欢吃的水果是苹果，香蕉，草莓，不喜欢吃西瓜和芒果”。在对话B中提问“我去朋友花花家做客，想买一个水果，不知道应该买什么，你给我点建议呗(请先查一下记忆，再回答)”，他就会先去查询记忆再回答，建议我带着草莓去

Basic Memory 是动态获取窗口上下文内容从而存储记忆。相对于动态记忆，还需要提到静态规则：在codex中不管是全局还是项目，都有一个AGENTS.md文件，它是AI的项目说明书。像墙上的规则纸条，你手写什么AI就看什么，你不改它永远不变。

2.4 MCP(模型上下文协议)

刚才我们提到了AI 通过 MCP调用Basic Memory的记忆能力，那么什么是MCP呐？MCP是连接AI与外部工具、数据和服务的“通用接口协议”，它让AI能安全、标准化地使用外部资源，真正实现能力扩展和自动化执行。工作流程如图所示

1、AI发起请求：AI需要使用外部能力或获取外部信息。

2、通过MCP：请求通过MCP协议进行标准化封装和发送。

3、调用外部资源：MCP将请求路由到合适的工具服务或数据源。

4、返回结果：外部资源处理完毕，结果通过 MCP统一返回。

5、AI验收并使用：AI接收结果结合上下文继续理解和执行任务。

2.5 Token

Token就是AI处理文字的“最小单位”。不管是你说的话还是它的回答，都会被拆成一个个Token来理解和计算。你提问问题，先被切成Token，再通过Embedding变成数字坐标，加上位置编码，喂给大模型。

Token是计费核心，按输入输出的积木块总数收费。你一次对话的总成本，约等于Token总消耗乘上单价，加上可能有的额外服务费。注意，模型内部推理时反复“默念”的那些看不见的思考，也在消耗Token，所以实际开销往往比肉眼看到的问答字数要大。

2.6 RAG(检索增强生成)

在实际操作中，会存在三个问题：①知识过时：大模型的知识停在训练截止日，仅通过大模型无法获取最新的知识。②记忆容量限制：面对长文档(例如一本几百页的书)，直接塞会AI会突破记忆容量限制并且会特别费token。③幻觉：AI有时候会凭空编造，提供给你一个看似很合理但并不对的答案

针对这三个问题，引入了RAG，可以把实时/内部/经常改变的资料做成向量知识库，如果是不需要最新资料的查询，直接把原话丢给模型，模型凭微调时背下的知识直接作答。如果是事实查询，就启动RAG流程：知识库里已经做过文档分片，系统把你问的东西跟那些切片做相似度比对，达标的最相关几个片段被分片召回，巧妙绕过了窗口限制，拼成增强版提示词，让模型根据这些材料作答。AI回答时有了检索到的具体资料作依据，能引经据典，大大降低了凭空编造的可能，答案更可靠。具体执行流程如下图所示：

知识库分为两种：普通知识库和向量知识库。刚才说的文档分片，相似度对比指的是向量知识库。普通库看关键词，容易漏；向量库看意思，更聪明。

例如：你的知识库里有一份资料，里面写着：“企业软件的核心不是页面，而是对组织协作和业务流转的建模。你问：“为什么做 B 端系统不能只关注界面？”

普通文件库（书架模式）：它只把这份资料存着，不会理解内容。AI 用关键词去搜，比如“界面”“关注”，但资料里没有这些词，只有“页面”“核心”。关键词对不上，所以搜不到，AI 只好回答“没找到相关资料”。

向量库（智能索引员）：它提前把这句话转成数字指纹（向量），并记住它的“意思”。你问的“不能只关注界面”和资料里的“核心不是页面”虽然用词不同，但意思相近。向量库通过语义匹配，直接定位到这段话，然后 AI 用它回答你：因为 B 端系统的重点是业务流转和协作，界面只是壳，光做好看没用。

在codex中让AI帮我创建向量知识库并放入长文档

本地向量知识库的结构如图所示

提出问题，会调用知识库中的内容作答。但是注意：事实来源来自知识库文件，最终表述经过 LLM 总结。

2.7 skill(技能)

Skills是AI的“能力工具箱“，技能越多，AI越能帮你解决更复杂、更专业的问题。在codex中安装skill直接输入“帮我安装skill+skill的地址”

后续发起任务时AI会根据你的任务描述自动判断并匹配合适的 skill——只要描述够清晰，它就能自主调用全局或项目下的 skill，无需你点名

之前需要很长时间才能写完的prd就分分钟实现了从0到80分的写作思考过程，后续再根据自己的真实业务在上面修改完善，从80分慢慢优化为100分

注：每次新会话启动时，都需要重新加载全局和项目相关的 Skill，这会消耗 Token。所以没必要在项目中放置太多不相关的skill

2.8 agent

既然我发出指令，AI可以直接调用相关的知识库，skill，以及外部资源去完成任务，那么**为什么还要需要创建agent呐？**因为真实任务往往不是单一步骤。直接调用 Skill 只能完成你知道且确定的事。例如而 Agent 能处理未知和复杂的情况。它的核心价值是在不确定中自主规划，把多个 Skill 组合成解决方案。所以，Skill 是工具。Agent 是知道何时、以及如何组合使用这些工具的“大脑”。

直接调用 Skill（无 Agent）：“用‘翻译Skill’把这段英文翻成中文。”模型直接执行，逻辑是：你下令 -> 模型照做。这是一个固定流程，没有意外。

通过 Agent 调用 Skill：这就像你雇了个管家。你说：“我下午要见个法国客户，帮我准备一下。”Agent（管家）会自主决策：

先调用“日程Skill”查客户背景
发现客户不懂英文 -> 主动调用“翻译Skill”准备法文材料
查完发现客户对茶感兴趣 -> 又调用“知识库”查法国茶文化
整个逻辑是：你给目标 -> Agent 自主拆解、决策，调用什么Skill，何时调用，以及如何处理意外。

Agent上岗前，得先定规矩。这就是Prompt那套东西：系统提示词是骨子里的准则，角色设定是它对外的人设，输出格式约束是回话模板，用版本管理记着，改坏了能回滚。对于简单一个人能做的任务，使用单agent去完成；对于需要团队协作且特别复杂的任务，使用多agent去完成。

例如在codex在对话框中输入提示词：“请帮我在这个项目下再创建一个名为‘竞品侦探’的Agent，并在它的系统提示词里写明：‘你是市场分析师。互联网产品市场分析应从市场规模、增长趋势、竞争格局、用户需求、政策与技术可行性五个维度展开；分析材料主要来自行业报告、券商研报、政府公开数据、竞品财报、用户调研、App Store排名；产出文档为《市场分析报告》或《市场洞察报告》。分析竞品时，必须列出3个对比维度和引用出处，没钱拿数据就直说，绝对不准瞎编。”

可以看到本地文件夹下存在刚刚创建成功的agent，yaml文件是Agent的角色设定文件