当AI一天写完你估了2周的需求，产品经理该做什么？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

当AI一天写完你估了2周的需求，产品经理该做什么？

2026-04-08

0 评论 292 浏览 0 收藏

18 分钟

当工程师告诉你"AI一天就写完了"，你的第一反应是什么——Loss of control，还是 opportunity？本文基于OpenAI内部实验（3人团队、100万行代码、0行人工编写）和Harness Engineering方法论，拆解AI开发范式的三阶段演进，提出产品经理的四个角色转变和可直接落地的行动清单。核心判断：未来PM的竞争力不是写PRD，而是设计让AI能可靠执行PRD的环境。

一个让我重新审视自己价值的瞬间

周一早会，工程师老张给我看了一个PR——372个文件变更，新增8000多行代码。

我说：”这个需求我估了两周，你们什么时候开始做的？”

老张说：”昨天下午。AI写的，我review了一遍，改了几个边界条件。”

我当时的感受很复杂。一方面，这意味着我们的交付速度可以大幅提升。另一方面，一个不舒服的问题浮上来：如果工程师的工作从“写代码”变成了“review AI的代码”，那产品经理的工作会变成什么？

带着这个问题，我读到了OpenAI在2026年2月披露的一个内部实验——结果比我想的更极端。

二、一个颠覆认知的实验

OpenAI披露了一个内部实验：一个3人工程团队，在5个月内构建了一个100万行代码的产品。其中，0行代码由人工编写。

这不是Demo，不是概念验证。这是一个有真实日活用户的内部产品。所有代码——从业务逻辑、测试、CI配置到内部工具——全部由AI智能体Codex生成。

OpenAI用一句话总结核心理念：

“人类掌舵，智能体执行。”——Ryan Lopopolo, OpenAI

工程师的工作不再是写代码。他们的工作变成了：设计环境、明确意图、构建反馈回路——让AI能够可靠地完成任务。

这套方法论，OpenAI称之为Harness Engineering（驾驭工程）。

对于产品经理来说，理解这个转变比理解任何具体技术都重要。因为它正在重新定义一个根本问题：工程团队能做什么，以及需要多少人。

三、驾驭工程是什么？从提示词到驾驭的三阶段演进

过去四年，AI辅助开发经历了三个阶段：

提示词工程（2022-2023年）的核心问题是”如何问问题”，人扮演的是提问者的角色。
上下文工程（2024-2025年）将焦点转向”给AI看什么资料”，人的角色也随之变为资料整理者。
驾驭工程（2026年至今）阶段，核心问题演变为”如何让AI自主可靠地工作”，人则成为系统设计者。

一句话定义驾驭工程：设计让AI智能体能够自主、可靠、持续完成复杂任务的整体系统。

有一个关键区分必须理解清楚：

上下文工程解决的是”AI知道什么”——给AI投喂正确的信息
驾驭工程解决的是”AI能做什么”以及”做错了怎么办”——设计整个执行环境

类比理解：上下文工程像是给新员工准备入职文档；驾驭工程像是设计整个公司的组织架构、流程制度和绩效考核体系。前者让新人”了解情况”，后者让新人”能持续产出可靠的工作成果”。

四、Harness的四个核心组件

驾驭工程不是一个抽象概念，而是一套具体的工程实践。它包含四个核心组件。

4.1 上下文工程（进阶版）

这是驾驭工程的信息基础，但比传统的上下文工程更进一步。

静态上下文包括：

AGENTS.md：放在代码仓库根目录的文件，告诉AI项目的构建步骤、测试命令、编码规范、架构约束、常见陷阱。每次AI犯错后就更新。
架构文档：模块划分、依赖关系、数据流向
设计决策记录：为什么选择A方案而不是B方案

动态上下文是更大的突破：

AI能读取运行时日志、性能指标、错误追踪
AI能通过浏览器自动化操作产品界面，验证功能是否正常
AI能查询数据库状态，理解实际数据情况

类比理解：传统的上下文工程像是给员工一本公司手册；进阶版像是给员工配了工位电脑、内网权限、监控大屏——他能直接看到系统运行状态，而不只是读文档。

PM视角：你写的PRD、定义的验收标准、记录的产品决策，正在成为AI的直接输入源。它们的结构化程度、清晰程度，直接影响AI的执行质量。存在Slack里、会议纪要里、你脑子里的知识，AI看不到，也就无法利用。

4.2 架构约束（机械化执行）

这是驾驭工程的”护栏”，确保AI不会跑偏。

关键原则是：不靠文档提醒，而是靠工具阻止。

OpenAI团队在代码仓库中强制执行严格的分层架构。每个业务领域有固定的代码层级，依赖方向被严格验证，只允许特定的模块调用关系。

这些约束不是写在Wiki里让人遵守的，而是通过自定义Linter和结构测试机械化执行的。违反规则的代码根本无法提交。

更聪明的是：Linter的错误信息本身就是修复指令。当AI触发一个架构违规，错误提示不只是说”你违反了规则”，而是告诉AI”你应该这样修复”。

类比理解：这像是高速公路的护栏。它不是在路边立个牌子写”请勿偏离车道”，而是物理上让你无法开出去。护栏的存在反而让你能开得更快，因为你知道不会冲下悬崖。

PM视角：产品规范也需要”可执行化”。模糊的规范（”界面要简洁”）对AI没有约束力；明确的规范（”单页信息密度不超过X，主操作按钮必须在首屏”）才能被编码成检查规则。

明天就能做的一件事：翻开你最近写的PRD，找出所有”体验要好””性能要快”之类的模糊描述，把它们改成可量化的验收标准。

4.3 反馈回路（错误编码为规则）

这是驾驭工程的”学习机制”，让系统越来越可靠。

核心原则是：每次AI犯错，不是只修正这一次，而是更新系统，确保这类错误不再发生。

“每当你发现Agent犯了一个错误，你就花时间设计一个解决方案，让Agent永远不会再犯同样的错误。”——Mitchell Hashimoto, Terraform创始人

具体来说：

简单问题：更新AGENTS.md，添加新的指导规则
模式问题：添加新的Linter规则
架构问题：调整约束定义

类比理解：这像是航空业的”事故调查-规则更新”机制。每次事故后，不只是处罚责任人，而是分析根因、更新操作手册、修改飞机设计、调整训练流程。整个行业的安全性因此持续提升。

PM视角：验收标准的复用性变得关键。如果每个需求的验收标准都是一次性的，AI无法积累”什么是好的”的判断力。把验收标准抽象成可复用的检查项，它们就能成为持续生效的质量约束。

明天就能做的一件事：建一个文档叫”AI踩过的坑”，每次AI产出不达标，就记录一条：问题是什么、根因是什么、以后怎么防。

4.4 熵控制（持续垃圾回收）

这是驾驭工程的”维护机制”，对抗系统腐化。

AI生成的代码会积累技术债务，但方式与人类不同。AI会复现代码库中已存在的模式——包括那些不够理想的模式。随着时间推移，小问题会累积成系统性的混乱。

最终方案是：定期运行“清理智能体”，自动扫描过时文档、架构违规、不一致的代码模式，并主动发起修复。

类比理解：这像是城市的垃圾回收系统。你不能指望市民永远不产生垃圾，但你可以建立定期、可靠的清理机制。

PM视角：技术债务的管理逻辑变了。过去主要来自”人赶工期走捷径”，现在还要考虑”AI重复不良模式导致的累积偏移”。需要和工程团队建立新的债务识别和清理节奏。

明天就能做的一件事：和工程leader聊一次，问他”AI生成的代码里，你最常手动修正的问题是什么？”——这些就是你的熵控制优先级。

五、产品经理的四个角色转变

驾驭工程不只是工程团队的事。当开发范式发生根本转变，产品经理的角色定位也必须随之调整。

5.1 从”需求翻译者”到”执行环境设计者”

传统上，产品经理把业务需求翻译成工程师能理解的PRD。在驾驭工程范式下，PRD可能直接被AI读取并执行。这意味着：

需求的结构化程度直接影响AI执行质量
验收标准必须机器可读：“用户体验要好”对AI没有意义；“页面加载小于2秒，关键操作不超过3步”才有效
边界条件要显式定义，AI不会自动脑补

明天就能做的一件事：用”如果…那么…”句式重写你最近一个需求的边界条件，把隐含假设全部显式化。

5.2 从”验收把关者”到”反馈回路设计者”

AI的产出速度远超人工验收速度，逐个检查会成为瓶颈。新的模式是：设计反馈回路，让验收尽可能自动化。

定义可自动验证的质量标准
把验收知识编码成规则，而不是每次手动发现
分层验收：机器验收基础质量，人工验收需要判断力的部分

明天就能做的一件事：列出你上个月验收时发现的所有问题，标记哪些是”规则可检查的”——这些就是你应该自动化的部分。

5.3 从”资源协调者”到”Harness成熟度评估者”

项目效率不再只取决于人头，而是取决于Harness的成熟度。

同样的功能需求：在一个harness成熟的代码库，AI可能一天完成；在一个没有harness的代码库，可能需要先花两周搭建基础设施。

产品经理需要能评估团队的harness覆盖程度，以及harness投资的ROI。

明天就能做的一件事：下次排期时，多问一句”如果我们先花3天完善harness，后面的需求能省多少时间？”

5.4 从”功能定义者”到”可观测性规划者”

可观测性成为AI能否自主工作的前提条件。

如果AI看不到系统运行状态，它就只能盲写代码，无法验证效果。这意味着：监控和日志设计需要在产品规划阶段考虑，而不是上线后再补。

明天就能做的一件事：在你下一个需求文档里，加一个”可观测性要求”小节——AI需要看到什么数据来验证这个功能是否正常工作？

六、一个反直觉的判断

说到这里，我想给出一个可能让你不舒服的判断：

未来PM的核心竞争力，不是“会用AI”，而是“能设计让AI可靠工作的环境”。

这两件事的差距，比很多人以为的大得多。

“会用AI”意味着你能写出好的prompt，能让AI生成还不错的方案、还不错的代码。这是2024年的能力。

“设计让AI可靠工作的环境”意味着：你能定义结构化的需求、可量化的验收标准、可复用的质量规则、分层的验收机制、持续演进的反馈回路。你设计的不是一个需求，而是一个让AI能持续产出高质量工作的系统。

这就是为什么Harness Engineering对PM如此重要——它不是工程师的专属话题，它直接定义了PM的新价值边界。

七、现在可以做的三件事

立即行动：开始结构化记录产品决策

每次做出产品决策后，用简短格式记录：背景、选项、决定、原因。存放在团队知识库中。这是让AI能”学习”你们团队决策风格的基础。

短期规划：评估团队的”AI就绪度”

和工程团队一起回答这些问题：

我们有AGENTS.md或类似的AI指导文件吗？
架构约束是靠文档说明，还是有工具强制执行？
AI能读取运行时的日志和监控数据吗？
验收标准有多少是可以自动化检查的？
当AI犯错时，我们有把教训编码成规则的机制吗？

长期转变：学会设计”反馈回路”

改变思维习惯：

旧思维

AI出错了，修正这次，继续
PRD写完交给开发就行
验收是一次性的事

新思维

AI出错了，这类错误怎么防止？更新规则/工具/文档，确保不再发生
PRD要能被AI直接读取和执行
验收标准要沉淀为可复用的自动化检查

最后

回到开头老张给我看的那个PR。

372个文件，8000行代码，一个下午。

后来我想明白了：让我不安的不是AI写得快，而是我意识到——如果我的PRD不够结构化、边界条件不够清晰、验收标准不够量化，那AI写得再快，返工的成本也会把效率优势吃掉。

AI的执行力已经不是瓶颈了。人类的表达精度，才是。

现在，打开你最近写的一份PRD，问自己三个问题：

如果把这份PRD直接交给AI执行，它能做出来吗？还是会在第一步就开始猜？
你的验收标准，有多少是可以写成自动化检查的？有多少只存在你脑子里？
上一次AI产出不达标，你是只修了这一次，还是更新了规则确保下次不再犯？

如果三个答案都让你犹豫，那说明你已经知道下一步该做什么了。

参考资料

OpenAI – Harness Engineering： Leveraging Codex in an Agent-First World
Anthropic – Effective Harnesses for Long-Running Agents
Martin Fowler – Harness Engineering

本文由 @ZQ 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

无限进步，一起爬山

5篇作品 7409总阅读量

Axure高保真原型：拖动调整行高列宽的表格

07-017336 浏览

宝洁、星巴克和特斯拉，降本套路花落谁家？（重磅分析·下篇）

08-091962 浏览

消费者的购买需求是怎么产生的？

07-118267 浏览

介绍：各类型支付通道

09-153554 浏览

一部爆款短剧的诞生：投流占八九成，暴富靠概率？制片人出海赌未来

12-121803 浏览

目前还没评论，等你发挥！