这一轮AI落在了哪里

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

诸葛铁铁

2026-05-26

0 评论 613 浏览 0 收藏

29 分钟

AI 技术正在经历从"言者"到"行动者"的关键跃迁，Agent 能力的崛起让工作流工程成为新战场。本文深度解析 L3 阶段的技术特征、产业信号与工程挑战，揭示为何"会做事"比"更聪明"更能定义未来 AI 产品的竞争壁垒。

技术圈最近流传一张梗图：一个人瘫在折叠椅上，头埋得很低，周围飘满了字——”SaaS is dead””Karpathy””agentic engineering””Single until series B””Claude banned openclaw””Gstack””Peptide stack”。

这张图不是在制造焦虑，是在承认一个现实：整个技术社区的注意力，正在以肉眼可见的速度，挤进 Agent、Coding、Skill、Harness 这几个词里。

而大多数人判断这一轮 AI 走到哪一步，还在盯着模型榜单看——谁又涨了几分，谁超过了谁。这是看错了位置。

榜单上的数字仍在涨，但主战场已经不在榜单上了。真正发生的变化是：强模型开始被装进工作流。它不再只是一个回答问题的大脑，而是被接进工具、文件、浏览器、代码仓库和团队流程，变成一个能持续把任务做完的执行系统。

红杉那句话说得最直白：2023、2024 年的 AI 是”言者”(talkers)，哪怕对话再精彩，影响也有限；2026、2027 年的 AI 会是”行动者”(doers)——它会像同事一样，使用频率从一天几次变成全天候，用户则从一个”独立贡献者”，变成”管理一支 Agent 团队”的人。

所以这一轮的竞争点，已经从”谁的模型分高”，悄悄换成了”谁能把模型组织成一个能持续干完活的系统”。看起来是模型竞赛，本质上是工作流工程之争。

这篇文章要回答几个问题：我们到底在哪一步?凭什么说方向已经定了?模型凭什么能从”会说”走到”会做”?以及——这件事对产研意味着什么。

我们站在 L3，关键词是”会做事”

先把位置钉死。OpenAI 那套 L1 到 L5 的路径，是个很干净的坐标系：L1 会聊天，L2 会推理，L3 能行动，L4 辅助创新，L5 能组织生产。

我们现在清楚地站在 L3。

L3 的关键词不是”更会说”，而是”能不能持续做事”。判断我们是不是真到了 L3，有两个证据值得看。

第一个是能力的形状。

AI 的能力边界不是一个均匀扩大的圆，而是一片锯齿状的”jagged frontier”——同一个模型，在某些任务上聪明得吓人，在另一些任务上蠢得离谱。”这 AI 强得不可思议，但偏偏在 X 这件事上犯傻。”这种撕裂感恰恰说明：决定结果的早就不只是模型本身，而是它被放进了什么样的执行环境。

第二个是 METR 的那张曲线——Agent 能独立推进的任务时长。

纵轴从几秒一路标到”10 小时 = 一个工作日”，上面密密麻麻钉着 GPT-2、GPT-4、o3、Opus 4.6。规律是：2019 到 2025，这个时长大约每 7 个月翻一倍;2024 到 2025，缩短到每 4 个月翻一倍。

这是 Agent 的新摩尔定律。它衡量的不是”模型话更多”，而是”长程行动能力”开始进入工程现实。

到这里，问题就变了：如果模型已经会慢思考、能持续行动，那下一步该问的就不是”模型还能涨几分”，而是——这个方向是真的吗，还是又一次叙事过热?

三股独立的力量，在指向同一个答案

判断一个趋势真不真，不要看单点新闻，要看几股本来不相干的力量，是不是在往同一个方向收敛。技术、产业、资本这三条线，现在给的是同一个答案。

技术线：社区的水温在迁移。

2026 年最热的三个词是 Prompt、Context、Harness——Prompt 解决”怎么把话说清楚”，Context 解决”让模型每步看对东西”，Harness 解决”怎么让它稳定地自主跑完”。打开开源榜单，项目名已经变成 Agent、Claude、Code、Skill 这几个关键词的排列组合。这不是概念热，是工具链在迁移：社区重心从”参数里的知识”，移到”窗口里的上下文”，再移到工具生态、协议、编排这些 Harness 层基础设施。

产业线：Coding 是绝对主桌。

a16z 那张”钱往哪流”的图很残忍：把企业 AI 各个场景的年化收入排开，会计、护理、金融分析都在几十到几百 millions，法律 500、客服 400，而 Coding 一根柱子冲到 3000——不是领先，是数量级的外点。更关键的是这事不止在工程师圈里热：明星胡彦斌在小红书发”vibe coding 的都懂这个姿势，修 bug 在路上”，1.1 万赞。”用 AI 做软件”正在变成一种大众表达。而这背后是能跑出来的真实数据——Claude Code 一年内下载涨 70 倍，Codex 七个月涨 7 倍，GitHub 上的 commit 和代码量同步抬升。这不是体感，是产出曲线在动。

资本线：估值锚在被重写。 软件没死，但”按席位收费”的确定性在塌。

2026 年至今，标普 500 各板块里，软件是跌得最狠的那一根，接近 -20%，而能源、原材料都在涨。钱去哪了?去了铲子：Sandisk 一年涨 1226%，Lumentum 989%，存储和光模块成了 AI 资本开支链上最硬的需求。连 Intel 都被重新看见，forward P/E 一度冲到 100 倍——这不是怀旧，是资本在重新计算：如果推理和 Agent 远大于训练，CPU 在算力结构里的位置就要被抬高。Lip-Bu Tan 的说法很直接：”CPU 现在是整个 AI 栈的编排层和关键控制平面。”训练阶段 CPU 和 GPU 大约 1：7，推理降到 1：4，到了 Agent 负载会接近 1：1。

三条本不相干的线，在同一时间收敛到同一句话上：行业的方向，正从”回答问题”整体推向”完成动作”。

(顺带说一句泡沫。把现在和互联网泡沫的曲线叠在一起，会发现真正难判断的不是”有没有泡沫”，而是”我们处在泡沫周期的哪里”。历史上每一轮平台级技术都走同一条路：先建基础设施，再被叙事推过头，泡沫破掉之后，基础设施留下、下一代公司长出来。所以方向对不对，和某个时点贵不贵，是两个问题。)

模型凭什么能从”会说”走到”会做”

方向确定了，接下来要解释机制：模型到底凭什么从 L1 走到 L3?

这得先纠正一个最常见的误解——模型不是一个把答案存进去的知识库。

更准确的比喻是高尔顿钉板。训练不是往里塞答案，而是调整一块”路径地形”：输入像小球从上方落下，参数像场地里的钉子决定每一次偏转，最后落到某个出口，出口就是回答。换句话说，它存的不是答案，是一片决定答案怎么生成的地形。

这个底层认识，能把 L1→L2→L3 一次讲透：

L1 是塑造场地。 预训练把语言结构、事实关联、代码模式压进参数，模型学会”快速落袋”——给个上下文，顺滑地生成相关的下文。它能说得很像人，但动作边界还在文本窗口里。能说，不等于能做。 复杂任务它容易一次性猜个答案，没有外部工具反馈，也没有稳定的行动循环。

L2 是愿意多走几步。 后训练校准出口，推理模型让小球在落袋前先拆解、再尝试、再验证、再修正。L2 的关键不是回答更长，而是推理时愿意花更多计算，用计算换复杂问题上的稳定性。

L3 是接上工具和反馈。 模型不再只是回答窗口里的大脑，而是进入工具、上下文、文件、浏览器、终端和反馈循环——模型只是其中一个核心部件。

这就逼出一个必须刻进脑子的定义：Agent 不是更会聊天的 AI，而是能围绕一个目标持续行动的系统。 最简单的 Agent 也不是”问一句答一句”：它要把目标拆成步骤、调用外部能力、观察结果、再决定下一步——规划、执行、观察，转着圈跑。没有这个反馈循环，就只是一次性生成;有了循环，才有持续行动。

转折：demo 很容易，可靠 Agent 很难

但这里必须泼一盆冷水，否则后面全是幻觉。

做一个能演示的 Agent 很容易，做一个能上生产的 Agent 很难。这中间隔着一座冰山。

水面之上，是大家都在谈的 LLM、RAG、Tool Use。水面之下——也就是真正决定成败的部分——是复杂工作流编排、可观测性、回归测试、PII 检测与加密、权限控制、合规监督、模型迁移与故障转移、审计追溯……一长串。

跑通不等于可规模化。 demo 跑通，证明的只是”模型能动”;Agent 能上线，证明的是”这些水下的东西都被管住了”。

长程任务具体会在四个地方断：目标漂移、工具失败、状态丢失、假完成。其中”假完成”最阴险——模型会用主观的”我觉得做完了”，替代客观的”测试通过了”，兴高采烈地交给你一个没跑通的东西。

工程要做的，就是把这四个失控点显式化。它分成两道工程问题：第一道是让模型每步看对东西(Context)，第二道是让它稳定跑完(Harness)。下面分开拆。

第一道工程：Context，让模型每步看对东西

可靠 Agent 的第一道坎，不是”给模型塞更多资料”，而是让它在每一步只看该看的世界。

因为长上下文不是越长越好。窗口超过一定长度(128k、200k 往后)，信号会被稀释，模型会”context rot”——注意力涣散、把重要的东西看漏、被中间一大段噪音带偏。所以核心不是更多上下文，而是对的上下文。三招：

压缩(Compress)：先留指针，再浓缩判断。 网页全文、PDF、长日志、工具结果先落盘，窗口里只留 URL、文件路径、ID、状态和最近几步原始结果。摘要是有损的——它把历史改写成结论，十步之后，被丢掉的某个细节可能突然变成关键证据。所以摘要只能当驾驶提示，不能替代原始证据。别等窗口爆了才处理。
隔离(Isolate)：短任务默认隔离，依赖全史才共享。 主 Agent 发一张短任务单，子 Agent 只看任务、做完交回结果。”去代码库找某个 API 的调用点”，它根本不需要知道前面三十轮讨论。多 Agent 不是人多力量大;共享全史适合深度研究、长链路推理，但代价是成本更高、缓存更差、噪音更多，是高成本特例。要通过通信来共享内存，不要通过共享内存来通信。
卸载(Offload)：模型负责决策，环境负责干活。 这条最容易被做反。几百个 MCP 工具全塞给模型，听起来很强，实际会让它选错工具、编造工具、参数乱填。正确做法是把工具放进环境，让转换器、批处理、CLI、grep/cat/less 这些脏活在沙箱里干完，只把摘要、路径、关键结果带回窗口。一句话：别把工具箱贴在挡风玻璃上。 挡风玻璃上要放的是路况和导航，不是整本维修手册。

合起来看，Context Engine 是 Agent 的注意力调度层：用最小的高信号 token，最大化模型做对下一步的概率。

但 Context 只解决”看什么”。模型看对了东西，不等于它能不漂移、不假完成地跑到终点。这是第二道工程要管的事。

第二道工程：Harness，把循环变成可审计的状态机

只靠 prompt 驱动长程任务，会是这样：目标藏在聊天历史里，工具错误变成一段文本飘过去，重试靠模型猜，终止条件靠它自己声明”我完成了”。看起来在行动，实际没有任何可恢复的状态——崩一次，从头再来。

Harness 做的事，是把目标、计划、工具结果、错误、验证证据全部放到外部状态里，每一轮只推进一个可检查的动作。失败不再是对话噪音，而是下一步的决策输入。

有个比喻特别贴：模型是发动机，普通模型是普通马力，推理模型是更大马力、更费油的发动机，而 Harness 是把发动机装进可驾驶系统里的整车——方向盘、导航、底盘、刹车。光有马力，只能原地轰油门；有了整车，才能真的上路、跑完一整段任务。

生产级 Harness 抓六件事：编排循环(想、做、观察、再想)、工具层(注册、参数、权限、沙箱)、状态记忆(记忆是线索，不是真理)、上下文(每步看对东西)、错误处理(错误是路线证据，不是垃圾)、验证循环(测试、截图、评审、Git diff)。

这里藏着对大多数团队最实在的一条行动建议：明天能做的，不是去训模型，而是改造 Infra，让你的项目对 Agent 友好。 具体到一个后端项目：一条命令能启动(mvn spring-boot：run，外部依赖有本地替代)、mvn test 输出结构化让 AI 能读结果、运行态日志是 JSON 可 grep、运维和配置有 CLI/Skill 入口而不是只能点页面、改造通过 Profile 隔离不侵入线上。

为什么这件事紧迫?因为当前的互联网，对 Agent 极不友好。Cloudflare、风控、IP 封禁、登录态、验证码、浏览器脆弱性，会把任何长程任务随时切断；页面一刷新，长列表任务就从头再来。不是 Agent 不努力，是环境根本不是给它跑的。所以面向 Agent 的接口，得提供可授权的 API/CLI、任务状态、审计记录、回滚机制和人工确认点——否则 Harness 只能在脆弱网页上硬扛。

第三层：Skill，会调用工具不等于会做事

Harness 解决”怎么安全地跑起来”。但 Agent 真正变成组织能力，还差一层：把团队踩过的坑，写成可加载、可评审、可更新的 Skill。

这一层的尴尬，有张梗图讲得很到位——”Sell me this pen”那个经典段子，第一格”It’s AI powered”，第二格”It’s MCP-powered”，第三格才是真正时髦的”It’s Skill-powered”。

MCP 把工具接出来，Skill 把”什么时候用、怎么用、出错怎么处理、怎么验收”写下来。会调用工具，不等于会做事。 什么时候用、怎么排错、怎么验收，才是经验。

在知识编码的光谱上，Skill 卡在 Prompt 和 Training 之间的甜点：比 Prompt 稳(可版本化、按任务自动加载)，比 Workflow 活(不写死流程)，比 Training 轻(改一次不用重训)。

而真正值钱的 Skill，不是公共知识，是本地踩坑。它长什么样?给个真实模板——一个叫 slow-query-triage 的 Skill：

name： slow-query-triage

when： p95 > 1s / DB CPU 高 / 客诉超时

inputs： service， requestId， time window， env

steps:

1. 查 requestId 对应的接口和 SQL

2. 拉 explain plan 和慢查询日志

3. 对比索引、扫描行数、缓存命中率

pitfalls：

– 不要只看单条日志，要看时间窗口

– 读写分离场景先确认库

verify：

– 附 explain、监控截图、回归结果

注意它的结构：触发条件要窄、输入不让模型猜、步骤能被工具执行、写清反例和禁区、验证要靠外部证据而不是自我声明。五件事缺一件，就不是 Skill。它的目标不是”让文档更好看”，而是让 Agent 在真实任务里少问一句、少猜一步、少踩一次已经踩过的坑。

当这些经验能版本化分发，就出现了 Skill 市场。某个云厂商的 Skill 市场里已经有五千多个，alibabacloud-cli-guidance、k8s-ops、慢查询排查……关键不是”多了一个插件商店”，而是 know-how 终于有了版本库：找得到、能评审、会演进。

到这里，三层就齐了：Infra 暴露能力，Harness 控制行动，Skill 沉淀经验，反馈循环验证结果。

最后落回：判断变稀缺，执行变便宜

前面讲的全是能力、架构和 know-how。最后得回答那个最现实的问题：当 Agent 能执行、Skill 能沉淀经验，产研的工作接口会怎么被重写?

最根本的一句话：判断变稀缺，执行变便宜。

过去产品和工程是串行的三个方框：Product → Design → Eng，调研、写 PRD、排期、移交，几个月后再看结果。现在这三个圆开始重叠：下午就能做原型，站会直接 demo，用真实使用反馈决定要不要继续。当原型几乎免费，真正稀缺的就不再是”能不能做出来”，而是判断力——什么不可妥协，什么可以放手。

所以 PM 的活变了：从”控制全流程”变成”控制关键判断”——确定少数不可妥协的点，然后放手其余执行。这里有个反直觉的陷阱：新模型会让你之前精心写的 workaround 变成多余的复杂度。不要围着当前模型的短板堆产品复杂度，下一代模型很可能直接把它废掉，功能要随模型定期重算。

组织接口也在反转。不是”老板也开始用 AI 了”，而是服务对象倒了过来——画成一个倒三角：管理层(CEO)在最尖上定方向，产品和运营在中间为”工程师 + Agents”供上下文、素材、权限、验收标准，工程师带着 Agent 在最上面跑闭环。交付方式从”人把需求分发给人”，变成”人把目标分发给系统”，中间夹一道人工审批。

连”软件”本身的形态都在被动摇。今天让 Agent 去点按钮、填表单(AutoGLM、BrowserUse 这类)，本质是”让机器模仿人的手”，是从”人操作软件”到”Agent 操作数据/API”的过渡形态。复杂 UI、审批流、填表，都是中间态。当 Agent 能直接读状态、调 API、改代码、跑测试，软件就得重新暴露机器可用的接口，而不是只优化给人点的界面。为人设计的 UI，是这一轮的过渡层。

软件开发流程已经先变了。a16z 画的那张图里，从需求澄清就有 LLM 参与(Nexoro、Trayer)，编码由 Agent loop 完成(Cursor、Devin)，PR review 有 Graphite、CodeRabbit，原型有 Lovable，设计有带 AI 的 Figma，最后人来审查证据和取舍。而且 Coding 本身在被拆成角色：不是一个 Agent 写完整个世界，而是 Planner 拆目标、Generator 写变更、Evaluator 用浏览器和测试验收——写代码的和打分的，必须拆开。

还有一张图值得记住：经典的 MVP 演进图，本来是滑板→自行车→摩托→汽车;而”AI 交付”那一行，起步直接是辆缝合怪——能跑，但歪七扭八。这恰恰是现在的真实状态：执行变得极快极脏，所以越往后，瓶颈越不在”做得出来”，而在”验收得了”。

最后一条，送给所有觉得”Agent 写的代码很烂”的人：先别骂模型，先看反馈循环。还有个流传很广的梗图——”Me writing great code”，下一格就是这个人转头去求助 ChatGPT。没有反馈，Agent 就是盲人摸象;把静态类型检查、浏览器验证、自动化测试、失败用例接进同一条循环，错误才会变成下一步的输入，模型才会围绕外部证据迭代，而不是自我感觉良好。

把这一整篇压成一句话：

竞争点已经从“模型有多聪明”，转移到“你能不能把模型组织成一个能持续干完活、且失控点全部显式可控的系统”。

模型决定马力，Prompt 负责控制指令，Context 负责导航和路况，Harness 把这些部件组装成一辆真能上路、跑完任务的车，Skill 让这辆车继承团队开过的每一段路。

落到普通人身上，第一步反而最朴素：别只在免费入口浅尝，先有稳定工具，先进计划模式别急着执行，花十分钟把”你是谁、做什么、在意什么、讨厌什么”讲清楚——先让 AI 认识你。因为对个人来说，上下文是第一笔资产。

真正能规模化的自动化，从来不是更聪明的模型，而是更清楚的边界。

本文由 @诸葛铁铁原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Pexels，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App