AI给我干哪来了

0 评论 382 浏览 0 收藏 29 分钟

AI 技术正在经历从"言者"到"行动者"的关键跃迁,Agent 能力的崛起让工作流工程成为新战场。本文深度解析 L3 阶段的技术特征、产业信号与工程挑战,揭示为何"会做事"比"更聪明"更能定义未来 AI 产品的竞争壁垒。

技术圈最近流传一张梗图:一个人瘫在折叠椅上,头埋得很低,周围飘满了字——”SaaS is dead””Karpathy””agentic engineering””Single until series B””Claude banned openclaw””Gstack””Peptide stack”。

这张图不是在制造焦虑,是在承认一个现实:整个技术社区的注意力,正在以肉眼可见的速度,挤进 Agent、Coding、Skill、Harness 这几个词里。

而大多数人判断这一轮 AI 走到哪一步,还在盯着模型榜单看——谁又涨了几分,谁超过了谁。这是看错了位置。

榜单上的数字仍在涨,但主战场已经不在榜单上了。真正发生的变化是:强模型开始被装进工作流。它不再只是一个回答问题的大脑,而是被接进工具、文件、浏览器、代码仓库和团队流程,变成一个能持续把任务做完的执行系统。

红杉那句话说得最直白:2023、2024 年的 AI 是”言者”(talkers),哪怕对话再精彩,影响也有限;2026、2027 年的 AI 会是”行动者”(doers)——它会像同事一样,使用频率从一天几次变成全天候,用户则从一个”独立贡献者”,变成”管理一支 Agent 团队”的人。

所以这一轮的竞争点,已经从”谁的模型分高”,悄悄换成了”谁能把模型组织成一个能持续干完活的系统”。看起来是模型竞赛,本质上是工作流工程之争。

这篇文章要回答几个问题:我们到底在哪一步?凭什么说方向已经定了?模型凭什么能从”会说”走到”会做”?以及——这件事对产研意味着什么。

我们站在 L3,关键词是”会做事”

先把位置钉死。OpenAI 那套 L1 到 L5 的路径,是个很干净的坐标系:L1 会聊天,L2 会推理,L3 能行动,L4 辅助创新,L5 能组织生产。

我们现在清楚地站在 L3。

L3 的关键词不是”更会说”,而是”能不能持续做事”。判断我们是不是真到了 L3,有两个证据值得看。

第一个是能力的形状。

AI 的能力边界不是一个均匀扩大的圆,而是一片锯齿状的”jagged frontier”——同一个模型,在某些任务上聪明得吓人,在另一些任务上蠢得离谱。”这 AI 强得不可思议,但偏偏在 X 这件事上犯傻。”这种撕裂感恰恰说明:决定结果的早就不只是模型本身,而是它被放进了什么样的执行环境。

第二个是 METR 的那张曲线——Agent 能独立推进的任务时长。

纵轴从几秒一路标到”10 小时 = 一个工作日”,上面密密麻麻钉着 GPT-2、GPT-4、o3、Opus 4.6。规律是:2019 到 2025,这个时长大约每 7 个月翻一倍;2024 到 2025,缩短到每 4 个月翻一倍。

这是 Agent 的新摩尔定律。它衡量的不是”模型话更多”,而是”长程行动能力”开始进入工程现实。

到这里,问题就变了:如果模型已经会慢思考、能持续行动,那下一步该问的就不是”模型还能涨几分”,而是——这个方向是真的吗,还是又一次叙事过热?

三股独立的力量,在指向同一个答案

判断一个趋势真不真,不要看单点新闻,要看几股本来不相干的力量,是不是在往同一个方向收敛。技术、产业、资本这三条线,现在给的是同一个答案。

技术线:社区的水温在迁移。

2026 年最热的三个词是 Prompt、Context、Harness——Prompt 解决”怎么把话说清楚”,Context 解决”让模型每步看对东西”,Harness 解决”怎么让它稳定地自主跑完”。打开开源榜单,项目名已经变成 Agent、Claude、Code、Skill 这几个关键词的排列组合。这不是概念热,是工具链在迁移:社区重心从”参数里的知识”,移到”窗口里的上下文”,再移到工具生态、协议、编排这些 Harness 层基础设施。

产业线:Coding 是绝对主桌。

a16z 那张”钱往哪流”的图很残忍:把企业 AI 各个场景的年化收入排开,会计、护理、金融分析都在几十到几百 millions,法律 500、客服 400,而 Coding 一根柱子冲到 3000——不是领先,是数量级的外点。更关键的是这事不止在工程师圈里热:明星胡彦斌在小红书发”vibe coding 的都懂这个姿势,修 bug 在路上”,1.1 万赞。”用 AI 做软件”正在变成一种大众表达。而这背后是能跑出来的真实数据——Claude Code 一年内下载涨 70 倍,Codex 七个月涨 7 倍,GitHub 上的 commit 和代码量同步抬升。这不是体感,是产出曲线在动。

资本线:估值锚在被重写。 软件没死,但”按席位收费”的确定性在塌。

2026 年至今,标普 500 各板块里,软件是跌得最狠的那一根,接近 -20%,而能源、原材料都在涨。钱去哪了?去了铲子:Sandisk 一年涨 1226%,Lumentum 989%,存储和光模块成了 AI 资本开支链上最硬的需求。连 Intel 都被重新看见,forward P/E 一度冲到 100 倍——这不是怀旧,是资本在重新计算:如果推理和 Agent 远大于训练,CPU 在算力结构里的位置就要被抬高。Lip-Bu Tan 的说法很直接:”CPU 现在是整个 AI 栈的编排层和关键控制平面。”训练阶段 CPU 和 GPU 大约 1:7,推理降到 1:4,到了 Agent 负载会接近 1:1。

三条本不相干的线,在同一时间收敛到同一句话上:行业的方向,正从”回答问题”整体推向”完成动作”。

(顺带说一句泡沫。把现在和互联网泡沫的曲线叠在一起,会发现真正难判断的不是”有没有泡沫”,而是”我们处在泡沫周期的哪里”。历史上每一轮平台级技术都走同一条路:先建基础设施,再被叙事推过头,泡沫破掉之后,基础设施留下、下一代公司长出来。所以方向对不对,和某个时点贵不贵,是两个问题。)

模型凭什么能从”会说”走到”会做”

方向确定了,接下来要解释机制:模型到底凭什么从 L1 走到 L3?

这得先纠正一个最常见的误解——模型不是一个把答案存进去的知识库。

更准确的比喻是高尔顿钉板。训练不是往里塞答案,而是调整一块”路径地形”:输入像小球从上方落下,参数像场地里的钉子决定每一次偏转,最后落到某个出口,出口就是回答。换句话说,它存的不是答案,是一片决定答案怎么生成的地形。

这个底层认识,能把 L1→L2→L3 一次讲透:

L1 是塑造场地。 预训练把语言结构、事实关联、代码模式压进参数,模型学会”快速落袋”——给个上下文,顺滑地生成相关的下文。它能说得很像人,但动作边界还在文本窗口里。能说,不等于能做。 复杂任务它容易一次性猜个答案,没有外部工具反馈,也没有稳定的行动循环。

L2 是愿意多走几步。 后训练校准出口,推理模型让小球在落袋前先拆解、再尝试、再验证、再修正。L2 的关键不是回答更长,而是推理时愿意花更多计算,用计算换复杂问题上的稳定性。

L3 是接上工具和反馈。 模型不再只是回答窗口里的大脑,而是进入工具、上下文、文件、浏览器、终端和反馈循环——模型只是其中一个核心部件。

这就逼出一个必须刻进脑子的定义:Agent 不是更会聊天的 AI,而是能围绕一个目标持续行动的系统。 最简单的 Agent 也不是”问一句答一句”:它要把目标拆成步骤、调用外部能力、观察结果、再决定下一步——规划、执行、观察,转着圈跑。没有这个反馈循环,就只是一次性生成;有了循环,才有持续行动。

转折:demo 很容易,可靠 Agent 很难

但这里必须泼一盆冷水,否则后面全是幻觉。

做一个能演示的 Agent 很容易,做一个能上生产的 Agent 很难。这中间隔着一座冰山。

水面之上,是大家都在谈的 LLM、RAG、Tool Use。水面之下——也就是真正决定成败的部分——是复杂工作流编排、可观测性、回归测试、PII 检测与加密、权限控制、合规监督、模型迁移与故障转移、审计追溯……一长串。

跑通不等于可规模化。 demo 跑通,证明的只是”模型能动”;Agent 能上线,证明的是”这些水下的东西都被管住了”。

长程任务具体会在四个地方断:目标漂移、工具失败、状态丢失、假完成。其中”假完成”最阴险——模型会用主观的”我觉得做完了”,替代客观的”测试通过了”,兴高采烈地交给你一个没跑通的东西。

工程要做的,就是把这四个失控点显式化。它分成两道工程问题:第一道是让模型每步看对东西(Context),第二道是让它稳定跑完(Harness)。下面分开拆。

第一道工程:Context,让模型每步看对东西

可靠 Agent 的第一道坎,不是”给模型塞更多资料”,而是让它在每一步只看该看的世界。

因为长上下文不是越长越好。窗口超过一定长度(128k、200k 往后),信号会被稀释,模型会”context rot”——注意力涣散、把重要的东西看漏、被中间一大段噪音带偏。所以核心不是更多上下文,而是对的上下文。三招:

  1. 压缩(Compress):先留指针,再浓缩判断。 网页全文、PDF、长日志、工具结果先落盘,窗口里只留 URL、文件路径、ID、状态和最近几步原始结果。摘要是有损的——它把历史改写成结论,十步之后,被丢掉的某个细节可能突然变成关键证据。所以摘要只能当驾驶提示,不能替代原始证据。别等窗口爆了才处理。
  2. 隔离(Isolate):短任务默认隔离,依赖全史才共享。 主 Agent 发一张短任务单,子 Agent 只看任务、做完交回结果。”去代码库找某个 API 的调用点”,它根本不需要知道前面三十轮讨论。多 Agent 不是人多力量大;共享全史适合深度研究、长链路推理,但代价是成本更高、缓存更差、噪音更多,是高成本特例。要通过通信来共享内存,不要通过共享内存来通信。
  3. 卸载(Offload):模型负责决策,环境负责干活。 这条最容易被做反。几百个 MCP 工具全塞给模型,听起来很强,实际会让它选错工具、编造工具、参数乱填。正确做法是把工具放进环境,让转换器、批处理、CLI、grep/cat/less 这些脏活在沙箱里干完,只把摘要、路径、关键结果带回窗口。一句话:别把工具箱贴在挡风玻璃上。 挡风玻璃上要放的是路况和导航,不是整本维修手册。

合起来看,Context Engine 是 Agent 的注意力调度层:用最小的高信号 token,最大化模型做对下一步的概率。

但 Context 只解决”看什么”。模型看对了东西,不等于它能不漂移、不假完成地跑到终点。这是第二道工程要管的事。

第二道工程:Harness,把循环变成可审计的状态机

只靠 prompt 驱动长程任务,会是这样:目标藏在聊天历史里,工具错误变成一段文本飘过去,重试靠模型猜,终止条件靠它自己声明”我完成了”。看起来在行动,实际没有任何可恢复的状态——崩一次,从头再来。

Harness 做的事,是把目标、计划、工具结果、错误、验证证据全部放到外部状态里,每一轮只推进一个可检查的动作。失败不再是对话噪音,而是下一步的决策输入。

有个比喻特别贴:模型是发动机,普通模型是普通马力,推理模型是更大马力、更费油的发动机,而 Harness 是把发动机装进可驾驶系统里的整车——方向盘、导航、底盘、刹车。光有马力,只能原地轰油门;有了整车,才能真的上路、跑完一整段任务。

生产级 Harness 抓六件事:编排循环(想、做、观察、再想)、工具层(注册、参数、权限、沙箱)、状态记忆(记忆是线索,不是真理)、上下文(每步看对东西)、错误处理(错误是路线证据,不是垃圾)、验证循环(测试、截图、评审、Git diff)。

这里藏着对大多数团队最实在的一条行动建议:明天能做的,不是去训模型,而是改造 Infra,让你的项目对 Agent 友好。 具体到一个后端项目:一条命令能启动(mvn spring-boot:run,外部依赖有本地替代)、mvn test 输出结构化让 AI 能读结果、运行态日志是 JSON 可 grep、运维和配置有 CLI/Skill 入口而不是只能点页面、改造通过 Profile 隔离不侵入线上。

为什么这件事紧迫?因为当前的互联网,对 Agent 极不友好。Cloudflare、风控、IP 封禁、登录态、验证码、浏览器脆弱性,会把任何长程任务随时切断;页面一刷新,长列表任务就从头再来。不是 Agent 不努力,是环境根本不是给它跑的。所以面向 Agent 的接口,得提供可授权的 API/CLI、任务状态、审计记录、回滚机制和人工确认点——否则 Harness 只能在脆弱网页上硬扛。

第三层:Skill,会调用工具不等于会做事

Harness 解决”怎么安全地跑起来”。但 Agent 真正变成组织能力,还差一层:把团队踩过的坑,写成可加载、可评审、可更新的 Skill。

这一层的尴尬,有张梗图讲得很到位——”Sell me this pen”那个经典段子,第一格”It’s AI powered”,第二格”It’s MCP-powered”,第三格才是真正时髦的”It’s Skill-powered”。

MCP 把工具接出来,Skill 把”什么时候用、怎么用、出错怎么处理、怎么验收”写下来。会调用工具,不等于会做事。 什么时候用、怎么排错、怎么验收,才是经验。

在知识编码的光谱上,Skill 卡在 Prompt 和 Training 之间的甜点:比 Prompt 稳(可版本化、按任务自动加载),比 Workflow 活(不写死流程),比 Training 轻(改一次不用重训)。

而真正值钱的 Skill,不是公共知识,是本地踩坑。它长什么样?给个真实模板——一个叫 slow-query-triage 的 Skill:

name: slow-query-triage

when: p95 > 1s / DB CPU 高 / 客诉超时

inputs: service, requestId, time window, env

steps:

1. 查 requestId 对应的接口和 SQL

2. 拉 explain plan 和慢查询日志

3. 对比索引、扫描行数、缓存命中率

pitfalls:

– 不要只看单条日志,要看时间窗口

– 读写分离场景先确认库

verify:

– 附 explain、监控截图、回归结果

注意它的结构:触发条件要窄、输入不让模型猜、步骤能被工具执行、写清反例和禁区、验证要靠外部证据而不是自我声明。五件事缺一件,就不是 Skill。它的目标不是”让文档更好看”,而是让 Agent 在真实任务里少问一句、少猜一步、少踩一次已经踩过的坑。

当这些经验能版本化分发,就出现了 Skill 市场。某个云厂商的 Skill 市场里已经有五千多个,alibabacloud-cli-guidance、k8s-ops、慢查询排查……关键不是”多了一个插件商店”,而是 know-how 终于有了版本库:找得到、能评审、会演进。

到这里,三层就齐了:Infra 暴露能力,Harness 控制行动,Skill 沉淀经验,反馈循环验证结果。

最后落回:判断变稀缺,执行变便宜

前面讲的全是能力、架构和 know-how。最后得回答那个最现实的问题:当 Agent 能执行、Skill 能沉淀经验,产研的工作接口会怎么被重写?

最根本的一句话:判断变稀缺,执行变便宜。

过去产品和工程是串行的三个方框:Product → Design → Eng,调研、写 PRD、排期、移交,几个月后再看结果。现在这三个圆开始重叠:下午就能做原型,站会直接 demo,用真实使用反馈决定要不要继续。当原型几乎免费,真正稀缺的就不再是”能不能做出来”,而是判断力——什么不可妥协,什么可以放手。

所以 PM 的活变了:从”控制全流程”变成”控制关键判断”——确定少数不可妥协的点,然后放手其余执行。这里有个反直觉的陷阱:新模型会让你之前精心写的 workaround 变成多余的复杂度。不要围着当前模型的短板堆产品复杂度,下一代模型很可能直接把它废掉,功能要随模型定期重算。

组织接口也在反转。不是”老板也开始用 AI 了”,而是服务对象倒了过来——画成一个倒三角:管理层(CEO)在最尖上定方向,产品和运营在中间为”工程师 + Agents”供上下文、素材、权限、验收标准,工程师带着 Agent 在最上面跑闭环。交付方式从”人把需求分发给人”,变成”人把目标分发给系统”,中间夹一道人工审批。

连”软件”本身的形态都在被动摇。今天让 Agent 去点按钮、填表单(AutoGLM、BrowserUse 这类),本质是”让机器模仿人的手”,是从”人操作软件”到”Agent 操作数据/API”的过渡形态。复杂 UI、审批流、填表,都是中间态。当 Agent 能直接读状态、调 API、改代码、跑测试,软件就得重新暴露机器可用的接口,而不是只优化给人点的界面。为人设计的 UI,是这一轮的过渡层。

软件开发流程已经先变了。a16z 画的那张图里,从需求澄清就有 LLM 参与(Nexoro、Trayer),编码由 Agent loop 完成(Cursor、Devin),PR review 有 Graphite、CodeRabbit,原型有 Lovable,设计有带 AI 的 Figma,最后人来审查证据和取舍。而且 Coding 本身在被拆成角色:不是一个 Agent 写完整个世界,而是 Planner 拆目标、Generator 写变更、Evaluator 用浏览器和测试验收——写代码的和打分的,必须拆开。

还有一张图值得记住:经典的 MVP 演进图,本来是滑板→自行车→摩托→汽车;而”AI 交付”那一行,起步直接是辆缝合怪——能跑,但歪七扭八。这恰恰是现在的真实状态:执行变得极快极脏,所以越往后,瓶颈越不在”做得出来”,而在”验收得了”。

最后一条,送给所有觉得”Agent 写的代码很烂”的人:先别骂模型,先看反馈循环。还有个流传很广的梗图——”Me writing great code”,下一格就是这个人转头去求助 ChatGPT。没有反馈,Agent 就是盲人摸象;把静态类型检查、浏览器验证、自动化测试、失败用例接进同一条循环,错误才会变成下一步的输入,模型才会围绕外部证据迭代,而不是自我感觉良好。

把这一整篇压成一句话:

竞争点已经从“模型有多聪明”,转移到“你能不能把模型组织成一个能持续干完活、且失控点全部显式可控的系统”。

模型决定马力,Prompt 负责控制指令,Context 负责导航和路况,Harness 把这些部件组装成一辆真能上路、跑完任务的车,Skill 让这辆车继承团队开过的每一段路。

落到普通人身上,第一步反而最朴素:别只在免费入口浅尝,先有稳定工具,先进计划模式别急着执行,花十分钟把”你是谁、做什么、在意什么、讨厌什么”讲清楚——先让 AI 认识你。因为对个人来说,上下文是第一笔资产。

真正能规模化的自动化,从来不是更聪明的模型,而是更清楚的边界。

本文由 @诸葛铁铁 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Pexels,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!