闭关三个月,我把自己变成了一个“全能Builder”
ExcelMaster v2 的诞生背后,是一场关于AI产品经理角色重塑的深度实验。从零构建30万行生产级代码到自研LLM中转站,从AI驱动的自动化测试到端到端交付业务价值,这位产品经理用3个月时间验证了AI Coding如何将开发效率提升5倍。本文将揭示为什么在Agent时代,产品经理必须亲自下场写代码才能抓住软件工程革命的本质。

AI Agent 时代,PM为什么必须亲自下场做 AI Coding ——写给 AI 产品经理大本营的团员们。
一、我这三个月在干什么
从今年 1 月底到 5 月初,我把自己关起来了。
公司其实有研发,我也请得起更资深的程序员,但我故意一个人干,把我们产品「 ExcelMaster v2」 整个从零重写:前端、后端、服务端、Agent、LLM Proxy、官网、CI/CD、自动化测试,全部端到端搞下来。
成果是这样的:
- 一个装在 Excel 里的 Agent 插件:底层跑 Claude Agent SDK,“所见即所得”地操纵用户本地的 Excel 进程;
- 海外上万个累计用户,月流水几千美元。不多,但真有人付钱、真有人投诉(建议)、真有人写好评;
- 整个代码库 30 万行,生产级别;服务端 Docker + 蓝绿部署,能“更新代码时,线上服务不中断”;客户端打包、发版、自动更新、日志记录体系;用户的活跃监控看板、增长漏斗监控和分析等等,全部都有;
- 自建 LLM 中转站,GPT / Claude / Gemini / Kimi / GLM / DeepSeek 全部对齐到 Anthropic 格式,Prompt 缓存命中率干到 99.4%。
更“野“的是这两个:
- Argus Automation:我自己做的 Computer Use MCP 插件(已开源),于 Claude Code 泄露代码改造,适配到 Codex 共用 OpenAI 订阅,Codex 一样能截屏、点屏幕、操作 Excel。目前 Codex 原生还不支持 Windows 的 computer use,但我自己做的这个方案,已经帮我自动化测试软件 2 个月了;
- Agent 看护的自动化测试:夜里我睡觉,另一台测试机上的 Codex 帮我跑 100~200 个真实用户的疑难 Excel。它自己定 5 分钟定时器,日志正常就睡,异常就拉起 Argus 截屏、改脚本、杀进程、重启;人不在场,它干 7 个小时
我其实是标准的 AI 产品经理背景,学过十几门计算机的课程(计算机双学位水平),但从未真正做过程序员岗位。
在闭关的 3 个月里,我每天从早上 10 点,干到夜里 12 点,几乎没有一天中断过。甚至中途去西藏旅游,我都在每天去景点的大巴车上(3小时),用笔记本电脑搞 AI Coding 开发。
那种状态,有点像高考刚结束的学生,进网吧、连打三个月游戏,完全停不下来,越搞越亢奋。
二、为什么放着公司的事不管,闭关三个月
很多朋友问我:为什么自己跳下来?
答案只有一句话:如果我不亲自下场,我就跟不上这一波软件工程的革命。
注意,我说的不是“AI 产品经理“这件小事,而是软件工程本身正在被重写。
一个具体数据:ExcelMaster v2 这套东西,以前我招 5 个程序员、3个月做不出来,现在我一个人、3 个月做出来了。以我这种没正经写过代码的背景,起步就是 5 倍生产力。搞完这一波,我的体会是:这三个月,相当于压缩了一个软件工程硕士的训练量,甚至压缩了普通程序员三3、5年的实战经验。
不是我有多强,是 AI 太强。我只是把它用到了PM们很少用到的深度。而这个深度,你不亲自跳进去是看不见的。听别人讲、看 demo 只能体会到朦胧的“挺厉害“。但你真的去做一个有付费用户、上线必须不能崩、改错bug 第二天就有人投诉的产品,你才知道这一代工具的真正边界在哪儿。
所以我没给自己留退路。把研发从这个项目剥离,所有脏活累活,全揽到自己身上。
三、第一个认知:不要做 demo,要照着生产级去做
这是我这三个月,最想跟团员们讲的一句话。
太多产品经理同学,还停留在做 demo、能跑通主流程、截图发朋友圈、放进简历就够了。这没错,但做 demo ,你永远停留在 30%~40% 的认知深度,出不去的。
这件事 ,YC 总裁 Gary Tan 今年 2 月在他博客上,写过一篇文章叫《Boil the Ocean》。商业里有句老话叫“别想着把大海煮沸“,意思是别贪大、别 scope creep。Gary 说,这句话在 AI 时代该退休了。他给的判断标尺很犀利:
“Our fear of the future is directly proportional to how small our ambitions are.“ (你对未来的恐惧,跟你野心的小,成正比。)
如果你的计划,是继续做你现在做的事,AI 对你就是可怕的。但如果你的计划,是做一个 dramatic 大得多的事,AI 是你听过最好的消息。Gary 给管理者的反问是:“做一个让人乐意付 10 倍价钱的产品,会是什么样?“
产品经理也一样。别再做那种“截图发朋友圈“的 demo 了,直接奔着生产级去做。什么叫生产级?举几个 demo 永远碰不到的坑:
- 服务端蓝绿部署:你随便改一行代码,如果不是生产级架构,线上服务就会卡一两秒。业余项目不在乎,但有上万用户在用时,这一两秒就是真实事故;
- 客户端的 COM 冲突:Excel + Python 同时操纵数据,稍不小心就把用户 Windows 卡死。一旦发生,口碑就崩了。所以我专门做了 MCP 工具,把 Python 执行封装起来,可以超时强杀、快速恢复;而不是用 Claude Agent SDK 默认的 Bash,后者出错,可能傻傻地 thinking 三分钟;
- 原生插件 vs JavaScript 插件:ChatGPT 那个 Excel 插件用 JS,我用 Windows 原生。我的权限远高于它,产品上限就是高于它。这不是 prompt 调得多好,是架构选型的胜利。
所以我经常跟同学们说:就算你只完成 70% 的生产级,也比完美交付一个 30% 的 demo 强一万倍。因为在那 70% 的过程中,你被迫接触到了新时代软件工程该学到的所有东西。
你只有进去过一次,才出得来。
四、第二个认知:PM 的角色已经被重写了
硅谷有个投资人,最近打了一个挺有意思的比方:今天互联网公司里产品、研发、设计这三个角色,就像西部牛仔片经典的三人对峙场面——三个人相互指着对方的头,每个人心里都在想“我可以干掉你们俩”。
我以前的工作就是指挥别人:指挥研发、指挥设计、指挥运营;这三个月我把这个身份切掉了,变成了全能 Builder。
最近有学员找我说:“我刚被分到负责评测平台,研发不配合我,怎么办?” 我没让他去协调,而是演示了我的架构给他看,告诉他,你完全可以端到端自己搞定。他看完跟我说:“老师,我有信心了,我自己上。”
新一代 AI 产品经理长什么样?简单说就是,不是被研发“配合”,而是自己就能 build。如果你只能做需求文档,大概率会被淘汰。但如果你能 build,你的能力放大倍数,会高得吓人,因为你既懂用户、又懂落地。
还有一层我想说。这件事不只关乎个人。
我预判,未来三五年里,每家公司的财务部、HR 部、营销部、销售部,都会出现一群“非程序员背景的 coder”,可能是部门里 5%、10%、20% 的人,他们既懂业务、又懂 AI Coding,在内部做工具,把另外 80% 的人的效率拉起来。
这群人,就是未来每家公司的中流砥柱。大本营的团员们,绝大多数都应该往这个位置去站。
五、用好 AI Coding 的关键:把它当博士生,不要当小学生
讲两个真实案例,一反一正。先说反面。
反面:我有个朋友,把 Codex 用成了 Dify
前段时间一个朋友找我,说“我用最贵的套餐,做量化交易系统,Codex 效果很差,反复调不通,你看看怎么回事”。我让他共享屏幕给我看,看完我当时就笑了:他把一个博士级的 Agent,用成了四个被框死的小学生。
具体怎么用的呢?他把整个量化系统的开发过程,拆成了一个一个工作流阶段。第一步整理数据,你按这段 prompt 做、输出写到这个文件夹;第二步切换到交易模式 Agent,你用另一段 prompt;第三步再切换…… 每个阶段的输入输出,都被他死死定住,然后要求 Codex 严格按这个流程走。
我当时就跟他说,你这是把 Codex 用成了 Dify 啊。
Codex 这种工具的强大之处恰恰在于,它能端到端把你说的所有步骤,一次性搭出一个完整的软件体系。它不需要你帮它传递阶段间的数据,不需要你优化每个子 Agent 的 prompt,更不需要你把整个流程拆成 4 个互相看不见的 Workflow 节点。
你只需要告诉它:“我要做一个完整的量化交易软件,你给我搭架构、按架构落地、写测试,所有记忆放在一个文件夹里。“然后充分放权。如果中途它做错了一些事情(比如编译环境没找对),你在每一个具体的点上,给它反馈,让它自己整理记忆、形成它内部的软件工程理解。这样几轮下来,它自己会形成对你这个项目的专属架构感,比你给它写一堆条条框框管用得多。
这个案例我后来反复跟人讲。因为太多 PM 同学,是带着上一代 Workflow / Dify 的思维,在使用这一代 Agent 工具。拆得越细、控制得越死,反而把这个工具的智能彻底锁死了。
所以,今天的 Codex 和 Cloud Code 不是小学生,是博士生。你的工作不是给它列 SOP,而是给它定大目标、给它放权、在关键节点给它反馈。
正面:我给央企期货员,现场 15 分钟,搭出预测模型
什么叫“给它定大目标、给它放权“?给一个正面对照。
前段时间,我跟一家央企期货公司的研究员开会。她不会建模,我也不会期货,她想要的是一套小麦单产预测系统。我现场就给她演示了:打开 Codex,告诉它“我是央企期货交易员,帮我搭这套系统,先查学术界最新方法,告诉我数据从哪儿抓“,然后就不再插手。Codex 自己搜论文、确定方案(CNN + 气象 + 卫星图像)、爬美国农业部数据、装 PyTorch、写训练代码、开始训练。15 分钟,模型框架跑起来了。研究员看完跟我说:“我们部门,没人能做到这个。”
整个过程我只做了三件事:把客户的业务诉求翻译给 Codex、给它一个端到端的目标、让客户站在业务专家角度 review 它的方案。
两个案例摆在一起,你就明白了:新一代 AI 产品经理的真正力量,不是写 PRD,而是当着客户的面,把客户的核心业务现场自动化 50~70%。
你不是辅助、不是工具人、不是流程对齐者,你是直接交付业务价值的那个人。
六、AI Coding 实战的几个核心心法
把我这三个月用得最爽的几条,直接打包给你们——
1、Codex + Claude Code 双开,各干各的
- Codex 干执行,Claude Code 干规划、写作和 AI 架构。
- Codex 稳定、刻板、听话,2000 行代码一次写完、不出错;
- Claude Code 有灵气,能推测意图、帮你完善规划,但容易偷懒,每次都得多嘱咐“逐行看”。
我的标准工作流是:让 Claude Code 出 Plan,丢给 Codex 让它独立 review、提改进意见,综合两边意见去执行。写文章、调研、改文案、做 AI 模块 prompt ,都让 Claude 来。
2、Codex 协作的核心:先看,不落地
- Codex 的大坑,是太想干活,容易缺少大局观和灵活的判断力。
- 我每次都跟它说:“先别落地。先排查根因,把上下游、原理、日志都看明白,把规律找到,再给我出方案。不要落地。”
- 它会出分析。我接着说:“再确认一下,有没有什么没想明白的?想明白了先给我出方案,不要落地。”
- 它会在后续几轮反思里,挖出更多细节。这时候你说“OK,落地”,一次成功率高到吓人。
3、Agent 看护的自动化测试(我个人最自豪的一套)
- 传统脚本测试,在 AI 时代非常脆弱:产品在快速迭代,脚本永远在追;一旦崩溃就死在那儿。
- 我做了一套三段式:底层是脚本,中层是 Agent 看护(自定 5 分钟定时器,看日志、改脚本、杀卡死的进程),顶层是 Computer Use 兜底(看不到日志时,自己截屏看一眼屏幕,亲眼确认是什么对话框)。
- 睡前跟它说:“你必须干满 7 个小时,中途任何问题自己解决,我不管。”,第二天早上 ,200 个 case 跑完。再让另一个 Agent 上场,告诉它“逐行读这 200 个 case 的日志,告诉我哪里不符合预期”。能扒出几十条我做梦都想不到的细节问题。
4、把“反复 review 架构”做成习惯
- 很多 PM 担心:“我没架构师背景怎么办?“
- 老实说,我有一点架构 sense ,是因为做过算法 PM。但这个优势正在被 AI 抹平。你只要经常让 Codex / Claude Code 帮你 review 架构,比如跟它说,“你 review 一下这个 Agent 架构”、“我感觉这个模块总出错,是不是架构有问题?”
- 让它反复给你客观意见,两三个月做下来,架构 sense 会肉眼可见地涨。
5、让 AI 看 AI
- 我用 Claude Code 的 Routines,每天定时扫全量用户日志,自己找 bug、自己写日报、推到我的飞书。我早上花 1 分钟看一眼就行。
- 新时代的产研组织模式就是这样。日志不是给人看的,用户反馈也不是给人看的,都给 AI 看。而且要给它代码权限,让它不仅看出问题、还能给你出修复方案。这才叫真正的 Agentic。
6、开 200 美元的套餐,学会浪费 Token
最后一条,讲个反直觉的。学 AI Coding,必须开最贵的套餐,必须学会浪费 Token。
我观察一个非常明显的现象:开 200 美元套餐的人,学这些东西,比开 20 美元套餐的人,快得多得多。
为什么?因为今天学习 AI Coding 的关键,是要给自己充分的实验机会。在做研发的时候,完全不要考虑省 Token 的问题。你只有“敢于来回冲撞、敢于反复试错”,才能真正验证你和 AI 在解决一个复杂软件工程问题时,边界到底在哪里。
如果你每发一个 prompt ,都在心疼那几分钱,你就永远到不了 Agent 真正强的那个深度。这是一笔投资,不是消费。你买的不是 Token,是你认知边界的扩张速度。
最后
那种“今天不搞完,明天就不踏实“的亢奋感、“上万付费用户在等你修 bug“的紧迫感,这是我刻意给自己设计的处境。我把自己沉浸到最严酷的真实挑战里,让它来打我,我才能真的应对它。
如果你也有一段可自由支配的时间,我建议你给自己安排一段闭关:
- 不要做 demo,找一个“真的会有几个真实用户的东西”去做;
- 不要绕开生产级的脏活累活,就奔着上线去做;
- 不要怕没程序员背景,今天的 AI ,比五年前的高级工程师还强;
- 做到 70% 就够了,那 70% ,会重写你对整个软件工程的理解;
软件工程的革ming,已经开始了。我们这一代 AI 产品经理,不是要做这场革ming的旁观者,而是要做亲自下场的引领者。
专栏作家
hanniman,微信公众号:hanniman,人人都是产品经理专栏作家,前图灵机器人-人才战略官/AI产品经理,前腾讯产品经理,10年AI经验,13年互联网背景。
本文原创发布于人人都是产品经理,未经许可,不得转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

起点课堂会员权益





把AI比作高德地图,你只需要告诉它目的地,它自己规划路线并实时调整,而不是每一步都要你指挥。
如果个人开发者和团队协作的边界在哪里?自己独立完成生产级产品后,如何与原有团队衔接?代码风格和文档习惯不一致,会不会导致后续维护灾难?这可能是很多想尝试的PM需要提前想清楚的问题。而且,一个人维护30万行代码,长期看不可持续。
把AI当博士生而不是小学生,这个视角很关键。但前提是PM自己要有足够的业务判断力,能给出清晰的大目标并识别关键反馈点。很多人连自己都不知道要什么,放权只会得到混乱的结果。所以这其实对PM的业务理解要求更高了。另外,200美元套餐的浪费Token建议很实在,但需要公司或预算支持,个人开发者要平衡。