AI 能写百万行代码以后，软件工程的瓶颈变成了什么？ | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

AI 能写百万行代码以后，软件工程的瓶颈变成了什么？

张艾拉

2026-03-10

0 评论 1241 浏览 3 收藏

9 分钟

当AI能以百万行代码量级轰炸项目时，软件工程的游戏规则正在被重写。Cursor团队的GPT-5.2多智能体实验暴露了比代码生成更致命的瓶颈：任务拆解、责任归属与协同机制正成为新战场。这场持续数周的工程马拉松不仅揭示了Agent协作的7个反直觉陷阱，更预示着未来工程师的核心价值将从编码转向系统设计。

前几天，Cursor 的CEO Michael Truell 在社交媒体上提到：他们让一套由 GPT-5.2 驱动的系统连续跑了一周，产出数百万行代码、数千个文件的浏览器相关代码库。

这听起来像产品发布，但更准确地说，它是一场工程实验：Cursor 团队想验证的不是 AI 会不会写代码，而是当 AI 可以同时并发、持续运行数周以后，大型软件项目的瓶颈到底在哪里。

Cursor 在自己的播客里也发布了相关内容，详述了他们如何在一个项目上同时运行数百个并发 Agent，观察它们如何写出超过百万行代码、如何在长时间运行里保持推进。

01 具体怎么做到的？

关键不在模型，而在组织。

如果你把这件事理解成模型变强了，所以能写更多代码，那会错过最关键的部分。

Cursor 博客里讲得非常工程化：他们真正遇到的麻烦不是写不出来，而是多 Agent 协作时的协调成本，这也恰恰是现实软件团队最熟悉、也最难优化的那部分。

一开始他们走的是“扁平自治”的直觉方案：所有 agent 地位平等，共享一个文件来认领任务、更新状态。为了防止抢同一个任务，他们加了锁。

结果很快翻车：agent 会持锁太久甚至忘了释放；系统吞吐量会从 20个agent退化成 2-3个agent 的有效速度；更糟的是系统脆弱，agent 失败时可能带着锁一起挂，甚至出现不拿锁就写入协调文件的混乱情况。

之后，他们改用“乐观并发控制”，让读取自由、写入冲突就失败。

这确实更健壮，但更深层的问题仍然存在：没有层级结构时，agent 会变得非常规避风险，它们会回避困难任务，去做“小而安全”的修改；没人承担端到端责任，于是看起来很忙，实际在空转。

真正让系统开始像团队一样工作的，是他们把扁平结构拆成了一条职责清晰的流水线：

规划者：持续探索代码库、拆任务，还可以派生子规划者，让规划本身也能并行、递归展开；
执行者：只负责把领到的任务做完、提交变更，不需要关心全局，也不与其他执行者协调；
评审：每个周期结束判断是否继续，然后下一轮从干净的初始状态重新开始，用这种方式对抗长期运行的漂移和视野变窄。

这一段是原文的核心方法论：它基本解决了协同问题，能把系统扩展到非常大的项目，同时避免单个 agent 越跑越钻牛角尖。

更有意思的是他们的经验总结：很多改进来自减法而不是加法。

例如他们曾设计过集成者专门做质量控制和冲突解决，后来发现它制造的瓶颈多于解决的问题：执行者本身就能处理不少冲突。

以及一个非常务实、但经常被忽视的结论：在长时间任务里，系统行为很大程度取决于提示词怎么写，框架和模型重要，但提示词更重要。

同时，多智能体协同仍然很难，系统还需要定期从头重启来对抗漂移。

02 这说明了什么？软件工程的瓶颈正在“迁移”

如果把这次实验拆开看，它其实在把一个旧问题换个问法：未来软件工程的瓶颈，可能从写代码的“人力”转移到“如何组织大量自动化执行体”。

过去的瓶颈是：工程师数量、团队协作成本、代码评审节奏。

这次 Cursor 的实验，把新瓶颈至少推到了四个位置：

第一，任务拆分与责任归属，比写代码更稀缺。

扁平结构下 agent 倾向做安全小改动，本质上就是没人对最终结果负责。

你会发现，这和现实团队里没人愿意背锅的大需求一模一样。Cursor 最终用规划者/执行者/评审的结构，把责任重新压实。

第二，协调机制与吞吐量，决定了并发到底是乘法还是内耗。

锁把系统拖慢、让并发退化；乐观并发更健壮但仍然会空转。

换句话说，当你有上百个 agent 时，工程效率不再取决于一个人写得多快，而取决于组织系统有没有把冲突和等待压到最低。

第三，长期运行的漂移是常态，复位机制是必需品。

在长任务里，agent 会偏航、会视野变窄，所以他们明确写到仍需要定期从头重启，并用评审把迭代切成周期来对抗漂移。

第四，验收与可验证性，会成为比产出代码更关键的成本中心。

百万行代码的价值，不在于写出来，而在于能不能稳定跑、能不能被复现、能不能被维护。

这也是外界讨论最集中的点：这到底算不算做出了浏览器？

03 你可能关心：这个浏览器真的能跑起来吗？

先说结论：它能跑，但更多是“能动起来”，离“能用起来”还差一大截。

原因很简单，大家讨论的“能不能跑”其实不是一件事。

第一层是“有没有实物”，有。Cursor 把代码放出来了，说明这不是口嗨。

第二层是“能不能当产品用”，暂时不行。这类原型离稳定性、兼容性、性能、安全性都很远，还谈不上日常可用。

第三层才是你真正关心的：能不能打开网页。更接近“能渲染一些简单页面”，但覆盖范围有限、问题也不少，所以它更像一次工程实验，而不是一个可替代 Chrome 的浏览器发布。

其实 Cursor 这件事最值得看的，不是浏览器做没做出来，而是它把一个趋势摆到了台面上：

当 AI 可以很便宜地写出海量代码后，软件工程的关键不再是“写”，而是怎么组织、怎么验收、怎么让系统持续朝着正确方向推进。

最后我想说的是，今天的 AI 还做不到把复杂系统做成产品，但它已经能把复杂系统推到一个可运行的原型。

接下来真正决定分水岭的，不是代码量，而是谁能把长期协作、质量控制、可复现交付这套工程体系也一起自动化，那才是 AI 把软件生产方式改写的开始。

以上，祝你今天开心。

作者：张艾拉公众号：Fun AI Everyday

本文由 @张艾拉原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Pexels，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

张艾拉

公众号「 Fun AI Everyday」& AI 出海App「爱卜」

130篇作品 198163总阅读量

5000万会员，会员贡献占比超50%，超3000家门店的德克士如何运营私域？

08-153210 浏览

5000万会员，会员贡献占比超50%，超3000家门店的德克士如何运营私域？

身为 ChatGPT 概念股，知乎却想做下一个晋江？

03-142865 浏览

身为 ChatGPT 概念股，知乎却想做下一个晋江？

从《天道》的角度来谈谈SWOT分析

03-0813304 浏览

从《天道》的角度来谈谈SWOT分析

线上演唱会，凉了

05-114241 浏览

线上演唱会，凉了

“重启天涯”再重启，初代互联网人被直播上了一课

06-212544 浏览

“重启天涯”再重启，初代互联网人被直播上了一课

评论

目前还没评论，等你发挥！