闭关三个月，我把自己变成了一个“全能Builder”

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

闭关三个月，我把自己变成了一个“全能Builder”

黄钊hanniman

2026-06-12

3 评论 1245 浏览 1 收藏

21 分钟

ExcelMaster v2 的诞生背后，是一场关于AI产品经理角色重塑的深度实验。从零构建30万行生产级代码到自研LLM中转站，从AI驱动的自动化测试到端到端交付业务价值，这位产品经理用3个月时间验证了AI Coding如何将开发效率提升5倍。本文将揭示为什么在Agent时代，产品经理必须亲自下场写代码才能抓住软件工程革命的本质。

AI Agent 时代，PM为什么必须亲自下场做 AI Coding ——写给 AI 产品经理大本营的团员们。

一、我这三个月在干什么

从今年 1 月底到 5 月初，我把自己关起来了。

公司其实有研发，我也请得起更资深的程序员，但我故意一个人干，把我们产品「 ExcelMaster v2」整个从零重写:前端、后端、服务端、Agent、LLM Proxy、官网、CI/CD、自动化测试，全部端到端搞下来。

成果是这样的：

一个装在 Excel 里的 Agent 插件：底层跑 Claude Agent SDK，“所见即所得”地操纵用户本地的 Excel 进程；
海外上万个累计用户，月流水几千美元。不多，但真有人付钱、真有人投诉（建议）、真有人写好评；
整个代码库 30 万行，生产级别；服务端 Docker + 蓝绿部署，能“更新代码时，线上服务不中断”；客户端打包、发版、自动更新、日志记录体系；用户的活跃监控看板、增长漏斗监控和分析等等，全部都有；
自建 LLM 中转站，GPT / Claude / Gemini / Kimi / GLM / DeepSeek 全部对齐到 Anthropic 格式，Prompt 缓存命中率干到 99.4%。

更“野“的是这两个：

Argus Automation：我自己做的 Computer Use MCP 插件（已开源），于 Claude Code 泄露代码改造，适配到 Codex 共用 OpenAI 订阅，Codex 一样能截屏、点屏幕、操作 Excel。目前 Codex 原生还不支持 Windows 的 computer use，但我自己做的这个方案，已经帮我自动化测试软件 2 个月了；
Agent 看护的自动化测试：夜里我睡觉，另一台测试机上的 Codex 帮我跑 100~200 个真实用户的疑难 Excel。它自己定 5 分钟定时器，日志正常就睡，异常就拉起 Argus 截屏、改脚本、杀进程、重启；人不在场，它干 7 个小时

我其实是标准的 AI 产品经理背景，学过十几门计算机的课程（计算机双学位水平），但从未真正做过程序员岗位。

在闭关的 3 个月里，我每天从早上 10 点，干到夜里 12 点，几乎没有一天中断过。甚至中途去西藏旅游，我都在每天去景点的大巴车上（3小时），用笔记本电脑搞 AI Coding 开发。

那种状态，有点像高考刚结束的学生，进网吧、连打三个月游戏，完全停不下来，越搞越亢奋。

二、为什么放着公司的事不管，闭关三个月

很多朋友问我：为什么自己跳下来？

答案只有一句话：如果我不亲自下场，我就跟不上这一波软件工程的革命。

注意，我说的不是“AI 产品经理“这件小事，而是软件工程本身正在被重写。

一个具体数据：ExcelMaster v2 这套东西，以前我招 5 个程序员、3个月做不出来，现在我一个人、3 个月做出来了。以我这种没正经写过代码的背景，起步就是 5 倍生产力。搞完这一波，我的体会是：这三个月，相当于压缩了一个软件工程硕士的训练量，甚至压缩了普通程序员三3、5年的实战经验。

不是我有多强，是 AI 太强。我只是把它用到了PM们很少用到的深度。而这个深度，你不亲自跳进去是看不见的。听别人讲、看 demo 只能体会到朦胧的“挺厉害“。但你真的去做一个有付费用户、上线必须不能崩、改错bug 第二天就有人投诉的产品，你才知道这一代工具的真正边界在哪儿。

所以我没给自己留退路。把研发从这个项目剥离，所有脏活累活，全揽到自己身上。

三、第一个认知：不要做 demo，要照着生产级去做

这是我这三个月，最想跟团员们讲的一句话。

太多产品经理同学，还停留在做 demo、能跑通主流程、截图发朋友圈、放进简历就够了。这没错，但做 demo ，你永远停留在 30%~40% 的认知深度，出不去的。

这件事，YC 总裁 Gary Tan 今年 2 月在他博客上，写过一篇文章叫《Boil the Ocean》。商业里有句老话叫“别想着把大海煮沸“，意思是别贪大、别 scope creep。Gary 说，这句话在 AI 时代该退休了。他给的判断标尺很犀利:

“Our fear of the future is directly proportional to how small our ambitions are.“ (你对未来的恐惧，跟你野心的小，成正比。)

如果你的计划，是继续做你现在做的事，AI 对你就是可怕的。但如果你的计划，是做一个 dramatic 大得多的事，AI 是你听过最好的消息。Gary 给管理者的反问是：“做一个让人乐意付 10 倍价钱的产品，会是什么样？“

产品经理也一样。别再做那种“截图发朋友圈“的 demo 了，直接奔着生产级去做。什么叫生产级？举几个 demo 永远碰不到的坑：

服务端蓝绿部署：你随便改一行代码，如果不是生产级架构，线上服务就会卡一两秒。业余项目不在乎，但有上万用户在用时，这一两秒就是真实事故；
客户端的 COM 冲突：Excel + Python 同时操纵数据，稍不小心就把用户 Windows 卡死。一旦发生，口碑就崩了。所以我专门做了 MCP 工具，把 Python 执行封装起来，可以超时强杀、快速恢复；而不是用 Claude Agent SDK 默认的 Bash，后者出错，可能傻傻地 thinking 三分钟；
原生插件 vs JavaScript 插件：ChatGPT 那个 Excel 插件用 JS，我用 Windows 原生。我的权限远高于它，产品上限就是高于它。这不是 prompt 调得多好，是架构选型的胜利。

所以我经常跟同学们说：就算你只完成 70% 的生产级，也比完美交付一个 30% 的 demo 强一万倍。因为在那 70% 的过程中，你被迫接触到了新时代软件工程该学到的所有东西。

你只有进去过一次，才出得来。

四、第二个认知：PM 的角色已经被重写了

硅谷有个投资人，最近打了一个挺有意思的比方：今天互联网公司里产品、研发、设计这三个角色，就像西部牛仔片经典的三人对峙场面——三个人相互指着对方的头，每个人心里都在想“我可以干掉你们俩”。

我以前的工作就是指挥别人：指挥研发、指挥设计、指挥运营；这三个月我把这个身份切掉了，变成了全能 Builder。

最近有学员找我说：“我刚被分到负责评测平台，研发不配合我，怎么办？” 我没让他去协调，而是演示了我的架构给他看，告诉他，你完全可以端到端自己搞定。他看完跟我说：“老师，我有信心了，我自己上。”

新一代 AI 产品经理长什么样？简单说就是，不是被研发“配合”，而是自己就能 build。如果你只能做需求文档，大概率会被淘汰。但如果你能 build，你的能力放大倍数，会高得吓人，因为你既懂用户、又懂落地。

还有一层我想说。这件事不只关乎个人。

我预判，未来三五年里，每家公司的财务部、HR 部、营销部、销售部，都会出现一群“非程序员背景的 coder”，可能是部门里 5%、10%、20% 的人，他们既懂业务、又懂 AI Coding，在内部做工具，把另外 80% 的人的效率拉起来。

这群人，就是未来每家公司的中流砥柱。大本营的团员们，绝大多数都应该往这个位置去站。

五、用好 AI Coding 的关键：把它当博士生，不要当小学生

讲两个真实案例，一反一正。先说反面。

反面：我有个朋友，把 Codex 用成了 Dify

前段时间一个朋友找我，说“我用最贵的套餐，做量化交易系统，Codex 效果很差，反复调不通，你看看怎么回事”。我让他共享屏幕给我看，看完我当时就笑了：他把一个博士级的 Agent，用成了四个被框死的小学生。

具体怎么用的呢？他把整个量化系统的开发过程，拆成了一个一个工作流阶段。第一步整理数据，你按这段 prompt 做、输出写到这个文件夹；第二步切换到交易模式 Agent，你用另一段 prompt；第三步再切换…… 每个阶段的输入输出，都被他死死定住，然后要求 Codex 严格按这个流程走。

我当时就跟他说，你这是把 Codex 用成了 Dify 啊。

Codex 这种工具的强大之处恰恰在于，它能端到端把你说的所有步骤，一次性搭出一个完整的软件体系。它不需要你帮它传递阶段间的数据，不需要你优化每个子 Agent 的 prompt，更不需要你把整个流程拆成 4 个互相看不见的 Workflow 节点。

你只需要告诉它：“我要做一个完整的量化交易软件，你给我搭架构、按架构落地、写测试，所有记忆放在一个文件夹里。“然后充分放权。如果中途它做错了一些事情（比如编译环境没找对），你在每一个具体的点上，给它反馈，让它自己整理记忆、形成它内部的软件工程理解。这样几轮下来，它自己会形成对你这个项目的专属架构感，比你给它写一堆条条框框管用得多。

这个案例我后来反复跟人讲。因为太多 PM 同学，是带着上一代 Workflow / Dify 的思维，在使用这一代 Agent 工具。拆得越细、控制得越死，反而把这个工具的智能彻底锁死了。

所以，今天的 Codex 和 Cloud Code 不是小学生，是博士生。你的工作不是给它列 SOP，而是给它定大目标、给它放权、在关键节点给它反馈。

正面：我给央企期货员，现场 15 分钟，搭出预测模型

什么叫“给它定大目标、给它放权“？给一个正面对照。

前段时间，我跟一家央企期货公司的研究员开会。她不会建模，我也不会期货，她想要的是一套小麦单产预测系统。我现场就给她演示了：打开 Codex，告诉它“我是央企期货交易员，帮我搭这套系统，先查学术界最新方法，告诉我数据从哪儿抓“，然后就不再插手。Codex 自己搜论文、确定方案(CNN + 气象 + 卫星图像)、爬美国农业部数据、装 PyTorch、写训练代码、开始训练。15 分钟，模型框架跑起来了。研究员看完跟我说：“我们部门，没人能做到这个。”

整个过程我只做了三件事：把客户的业务诉求翻译给 Codex、给它一个端到端的目标、让客户站在业务专家角度 review 它的方案。

两个案例摆在一起，你就明白了：新一代 AI 产品经理的真正力量，不是写 PRD，而是当着客户的面，把客户的核心业务现场自动化 50~70%。

你不是辅助、不是工具人、不是流程对齐者，你是直接交付业务价值的那个人。

六、AI Coding 实战的几个核心心法

把我这三个月用得最爽的几条，直接打包给你们——

1、Codex + Claude Code 双开，各干各的

Codex 干执行，Claude Code 干规划、写作和 AI 架构。
Codex 稳定、刻板、听话，2000 行代码一次写完、不出错；
Claude Code 有灵气，能推测意图、帮你完善规划，但容易偷懒，每次都得多嘱咐“逐行看”。

我的标准工作流是：让 Claude Code 出 Plan，丢给 Codex 让它独立 review、提改进意见，综合两边意见去执行。写文章、调研、改文案、做 AI 模块 prompt ，都让 Claude 来。

2、Codex 协作的核心：先看，不落地

Codex 的大坑，是太想干活，容易缺少大局观和灵活的判断力。
我每次都跟它说：“先别落地。先排查根因，把上下游、原理、日志都看明白，把规律找到，再给我出方案。不要落地。”
它会出分析。我接着说：“再确认一下，有没有什么没想明白的？想明白了先给我出方案，不要落地。”
它会在后续几轮反思里，挖出更多细节。这时候你说“OK，落地”，一次成功率高到吓人。

3、Agent 看护的自动化测试（我个人最自豪的一套）

传统脚本测试，在 AI 时代非常脆弱：产品在快速迭代，脚本永远在追；一旦崩溃就死在那儿。
我做了一套三段式：底层是脚本，中层是 Agent 看护（自定 5 分钟定时器，看日志、改脚本、杀卡死的进程），顶层是 Computer Use 兜底（看不到日志时，自己截屏看一眼屏幕，亲眼确认是什么对话框）。
睡前跟它说：“你必须干满 7 个小时，中途任何问题自己解决，我不管。”，第二天早上，200 个 case 跑完。再让另一个 Agent 上场，告诉它“逐行读这 200 个 case 的日志，告诉我哪里不符合预期”。能扒出几十条我做梦都想不到的细节问题。

4、把“反复 review 架构”做成习惯

很多 PM 担心：“我没架构师背景怎么办？“
老实说，我有一点架构 sense ，是因为做过算法 PM。但这个优势正在被 AI 抹平。你只要经常让 Codex / Claude Code 帮你 review 架构，比如跟它说，“你 review 一下这个 Agent 架构”、“我感觉这个模块总出错，是不是架构有问题？”
让它反复给你客观意见，两三个月做下来，架构 sense 会肉眼可见地涨。

5、让 AI 看 AI

我用 Claude Code 的 Routines，每天定时扫全量用户日志，自己找 bug、自己写日报、推到我的飞书。我早上花 1 分钟看一眼就行。
新时代的产研组织模式就是这样。日志不是给人看的，用户反馈也不是给人看的，都给 AI 看。而且要给它代码权限，让它不仅看出问题、还能给你出修复方案。这才叫真正的 Agentic。

6、开 200 美元的套餐，学会浪费 Token

最后一条，讲个反直觉的。学 AI Coding，必须开最贵的套餐，必须学会浪费 Token。

我观察一个非常明显的现象：开 200 美元套餐的人，学这些东西，比开 20 美元套餐的人，快得多得多。

为什么？因为今天学习 AI Coding 的关键，是要给自己充分的实验机会。在做研发的时候，完全不要考虑省 Token 的问题。你只有“敢于来回冲撞、敢于反复试错”，才能真正验证你和 AI 在解决一个复杂软件工程问题时，边界到底在哪里。

如果你每发一个 prompt ，都在心疼那几分钱，你就永远到不了 Agent 真正强的那个深度。这是一笔投资，不是消费。你买的不是 Token，是你认知边界的扩张速度。

最后

那种“今天不搞完，明天就不踏实“的亢奋感、“上万付费用户在等你修 bug“的紧迫感，这是我刻意给自己设计的处境。我把自己沉浸到最严酷的真实挑战里，让它来打我，我才能真的应对它。

如果你也有一段可自由支配的时间，我建议你给自己安排一段闭关：

不要做 demo，找一个“真的会有几个真实用户的东西”去做；
不要绕开生产级的脏活累活，就奔着上线去做；
不要怕没程序员背景，今天的 AI ，比五年前的高级工程师还强；
做到 70% 就够了，那 70% ，会重写你对整个软件工程的理解；

软件工程的革ming，已经开始了。我们这一代 AI 产品经理，不是要做这场革ming的旁观者，而是要做亲自下场的引领者。

专栏作家

hanniman，微信公众号：hanniman，人人都是产品经理专栏作家，前图灵机器人-人才战略官/AI产品经理，前腾讯产品经理，10年AI经验，13年互联网背景。

本文原创发布于人人都是产品经理，未经许可，不得转载。

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

黄钊hanniman

前腾讯PM，11年AI经验，干货首发公众号hanniman

69篇作品 1053554总阅读量

Axure8教程——动态仪表盘

03-015380 浏览

跑通27个品类后，我总结出7个小红书运营方法论

03-2312463 浏览

人工智能对高科技营销的影响

06-153713 浏览

从0到1，读懂商业应用开发平台

11-245226 浏览

设计中的交互设计

02-1415171 浏览

柠檬不酸

把AI比作高德地图，你只需要告诉它目的地，它自己规划路线并实时调整，而不是每一步都要你指挥。

最近来自广东回复
加菲

如果个人开发者和团队协作的边界在哪里？自己独立完成生产级产品后，如何与原有团队衔接？代码风格和文档习惯不一致，会不会导致后续维护灾难？这可能是很多想尝试的PM需要提前想清楚的问题。而且，一个人维护30万行代码，长期看不可持续。

最近来自广东回复
往事随风

把AI当博士生而不是小学生，这个视角很关键。但前提是PM自己要有足够的业务判断力，能给出清晰的大目标并识别关键反馈点。很多人连自己都不知道要什么，放权只会得到混乱的结果。所以这其实对PM的业务理解要求更高了。另外，200美元套餐的浪费Token建议很实在，但需要公司或预算支持，个人开发者要平衡。

最近来自广东回复