别再迷信Prompt了,这才是Agent的真正战场
曾经被奉为AI魔法咒语的Prompt Engineering,如今在大模型Agent开发中的权重已大幅下降。本文探讨了Prompt权重下降的原因,以及现代Agent开发的核心挑战和替代方案,帮助从业者适应这一范式转移。

我们曾迷信Prompt Engineering是AI的魔法咒语,但随着大模型智商飙升和应用深入,Agent竞争的主战场早已转移。
大模型Agent的核心还是Prompt吗?
如果这个问题在2023年上半年提出,我会毫不犹豫地告诉你:是的,Prompt就是咒语,就是魔法,谁掌握了Prompt谁就是大法师。那时我们还在为如何让GPT-3.5不”胡说八道”而绞尽脑汁地尝试”Let’s think step by step”。
但在即将进入2026年的今天,如果仍认为Agent的核心竞争力是Prompt,那在AI落地的一线战场上,可能尚未经历真正的实战洗礼。
观点先行:Prompt权重的断崖式下跌:
在2025年的当下,Prompt在Agent开发中的权重,已从原来的90%降至最多30%。 Agent现在的核心是工作流编排、记忆管理、工具生态接口标准化,以及最关键的——自动化评估体系。Prompt现在更多充当前端交互层,是API调用的一个参数而已。
一、为什么Prompt不再占据主导地位?
前两年大家迷信Prompt Engineering,是因为模型本身的逻辑推理能力不足,需要通过精巧的话术引导甚至”哄着”模型工作。然而,当今的DeepSeek V3、Claude 4.5 Sonnet等先进模型,其意图理解能力已大幅提升。即使给出粗糙的Prompt,模型也能大概率领会意图。
真实案例对比:以往需数百字Prompt加少样本示例才能让Agent将混乱的会议纪要整理成JSON格式。现在,只需简单指令”转成标准JSON,字段自行判断”,结果基本可用。
当模型智商提升,Prompt这一”拐杖”的作用自然减弱。但这反而提高了Agent开发的门槛,因为现在要解决的是复杂任务。
以我们的供应链Agent为例,其任务包括:检测库存安全水位、分析历史销量、预测需求、对比供应商、生成补货单并发送审批。这种多步骤流程无法依靠单一Prompt实现,必须依赖流程工程。
技术转向:Agent开发的核心已从Prompt设计转向Flow Engineering。如LangChain团队的LangGraph和吴恩达推崇的Agentic Patterns所示,现代Agent是由大模型驱动的状态机,需要明确定义步骤、成功/失败路径和数据传递逻辑。
在我们的代码库中,逻辑控制代码的规模远超Prompt字符数。我们通过代码约束模型行为,而非依靠自然语言祈祷模型表现良好。
二、当前Agent开发的核心挑战
随着Prompt权重的下降,真正的挑战浮出水面,主要体现在以下三个方面,这些问题在传统Prompt优化中找不到答案:
1. 规划与执行的脱节
大模型擅长制定计划,但长链条执行中容易”迷路”。例如,供应链Agent中,模型规划”先查A数据库,再查B系统”,但当A数据库返回含特殊字符的数据,模型生成查询B系统的SQL时会失败,并陷入死循环。
解决方案:需要大量Guardrails代码校验模型输出的参数合法性,这是传统Prompt工程无法解决的鲁棒性问题。
2. 上下文污染与记忆管理难题
尽管当今模型的上下文窗口可达128K甚至1M,但存在”中间迷失”现象:上下文越长,模型性能越受影响。在Agent运行过程中,历史消息快速积累,如何动态管理上下文成为关键挑战。
我们的实践:引入”总结Agent”在关键节点对对话记录进行摘要,保留关键变量,替换原始对话。这要求精准判断哪些记忆长期有用(存向量数据库),哪些短期相关(放上下文),哪些可丢弃。
3. 评估的黑盒问题
这是大模型落地团队最头疼的问题。传统软件有单元测试(输入A,输出必为B),但Agent的输出具有不确定性:输入A,可能输出B1或B2,语义相同却形式各异。
更棘手的是隐性错误:如供应链Agent决策”补货500件”,而算法计算为520件,结果看似可接受,但若依据错误逻辑(如混淆月度数据),这种隐患难以检测。
行业现状:尚无完美解决方案,我们采用LLM-as-a-Judge方法,以更强模型评估小模型或Agent的执行过程。
三、从Prompt Engineering到DSPy:范式转移
既然Prompt不再是核心,那么什么是更好的替代方案?如果你仍在手动调整Prompt,如将”You are a helpful assistant”改为”You are an expert data scientist”,那么是时候了解DSPy框架了。
DSPy由斯坦福大学开发,其核心理念极为超前:Prompt不应由人工编写,而应由模型自我优化。在这一框架下,你只需定义任务逻辑(Signature)并准备高质量数据集,DSPy便会自动优化Prompt,尝试各种少样本组合,调整指令,直至在测试集上达到最优效果。
这类似于从汇编语言(手写Prompt)升级到C++(使用DSPy),编译器负责生成汇编代码。我们团队已用DSPy Module替代许多手写Prompt模块,效率显著提升。
四、实战案例:保险理赔核查Agent的演进
让我们通过一个保险理赔核查Agent案例,具体理解这种思维转变:
初始阶段(Prompt思维):编写长达3000token的System Prompt,详细规定车险理赔规则。结果上线后,面对模糊照片,Agent幻觉出责任认定书并错误拒赔。原因是过长Prompt导致指令冲突,模型在信息不足时强行脑补。
进阶阶段(Agentic Flow思维):将大Prompt拆解为三个独立Agent:材料初审Agent(检查清晰度)、规则提取Agent(RAG检索条款)、最终裁决Agent(综合判断)。Agent间通过代码逻辑连接,如if 材料初审Agent.result == “不清晰”: return “请重传”。
此案例中,各Agent的Prompt极为简单,核心竞争力在于问题拆解架构和Workflow设计能力。
五、给从业者的务实建议
基于实战经验,为同行提供以下建议:
- 放弃“通才”模型幻想,转向“专才”协同趋势是Multi-Agent System,如微软AutoGen和LangGraph所示。需要掌握的是如何让多个AI协作甚至辩论,而非单一Prompt技巧。
- 掌握结构化输出Agent内部数据流转必须是JSON或Pydantic对象。OpenAI的Structured Outputs和开源模型的Function Calling是接入传统IT系统的桥梁。
- 重视SOP(标准作业程序)的数据转化Agent所需的数据并非传统训练集,而是企业SOP。例如,开发高效HR Agent依赖员工手册和历年案例。将这些SOP转化为Agent可理解的工具或知识库,才是核心竞争力。
- 回归代码工程本质Agent开发不能违背软件工程原则:版本控制、单元测试、日志监控、灰度发布等缺一不可。代码错误会报错,Agent错误则会一本正经地胡说八道,危害更大。
结论:2026年高阶玩家的门票
大模型Agent的核心早已不是Prompt。当下的Prompt如同代码中的变量命名:良好的变量名增强可读性,但仅靠变量名无法构建淘宝或微信这样的系统。
真正的护城河在于系统架构设计、数据流转逻辑、异常处理以及垂直领域的行业知识,这些要素封装于Workflow和工具中。因此,不必过度纠结Prompt的雕琢,而应积极学习LangGraph、DSPy,提升RAG准确率,将业务SOP代码化。这才是应对未来挑战的关键。
Prompt是对话的起点,而智能的工作流与坚实的工程化能力,才是Agent价值持续增长的基石。
本文由 @栗子 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益



