奇点,是正在发生的事

0 评论 93 浏览 0 收藏 14 分钟

软件工程与大模型的奇点正在同时到来。从Vibe Coding到Spec Coding的演进,AI不仅让非技术背景者轻松开发应用,更在Karpathy的autoresearch项目中展现了自我进化的恐怖潜力——AI发现了人类开发者数月未能察觉的代码Bug,并以11%的效率提升刷新记录。当创造门槛坍塌遇上递归式AI进化,我们正站在一个经验体系全面失效的技术拐点。

从25年下半年开始,几乎每周都有一些新模型发布、新AI产品、新的开源项目,多到试不完、看不过来。

很多人在讲奇点。马斯克年初发了一条「We have entered the Singularity」,Sam Altman说 OpenAI 已经知道怎么构建AGI了。抛开宏大叙事,我也想用自己的观察,看了的一些开源项目、以及自己的实践,来聊一聊:软件工程的奇点,和大模型进化的奇点。

00. 先解释两个词

奇点,原本是数学和物理里的概念,指某个值趋向无穷大的临界点。用在技术领域,意思是变化速度快到人类来不及适应的拐点。不是突然某天世界变了,是变化在加速,加速到某个点之后你回头看,发现之前的经验全部失效了。

递归,编程里的基本概念:一个函数调用自己。AI语境下的递归是:AI用来改进AI。以前是人研究怎么让模型更好,现在AI开始自己研究怎么让自己更好。这个循环一旦转起来,改进速度就不再受人类研究者数量的限制了。

01. 创造门槛坍塌

先说一个我最直观的感受:身边越来越多低技术背景的人,开始自己做产品了。有人上架了自己的小程序,有人开源了自己的项目,有人从零做了个App,以前这些事得找开发团队,现在一个人对着AI就能干。虽然大多人并没有赚到钱,但创造的门槛实实在在的降低了。

MIT Technology Review 把「生成式编码」列为2026年十大突破技术,原话是:几乎没有编程知识的人,也能用提示词构建出像样的应用、游戏和网站。

数据上看得更清楚。Cursor,AI代码编辑器,17个月做到10亿美元年化收入,今年3月突破20亿。这些工具的增长速度本身就在说明一件事:大量的人涌进来了,大量以前不会写代码的人开始创造软件了。

我们自己也是。

月见App的占星后端服务,是我们产品经理写的(占星师背景)。过去完全没有写代码的经验,现在这个服务每天支撑数十万次调用,稳定运行。

我自己最近在参考 OpenClaw 的架构在重新开发一个新的 Agent,顺手还开发了iOS小组件、一个内部用的AI漫画创作工具。经常是主线任务交给AI跑着,开个新终端顺手干别的。包括服务器、CDN、OSS这些部署运维的事,过去得找专人,现在借助AI我自己也能轻松搞定。

这些项目涉及完全不同的技术栈、不同的专业知识。前端、后端、iOS、运维,过去每一个方向都是有门槛的。

现在门槛变得非常低。

02. 软件工程的奇点已经到了

2025年初,Karpathy 提出了 Vibe Coding:凭感觉写代码,你说个大概,AI帮你生成。年底 Collins 词典把它选为年度词汇,这个概念已经破圈了。

Vibe Coding 只是起点。到2025年下半年,一套更严肃的方法论成熟了,叫 Spec Coding。Thoughtworks、Red Hat 这些老牌工程咨询公司已经把它列为关键工程实践,arXiv 上有专门的论文。

模型能力提升、方法论成熟,叠加出来的结果就是2025年Q4开始的项目大爆发。

GitHub的数据很直观:2025年每秒有一个新开发者加入,全年新增3600万开发者,commit总量近10亿次,同比增长25%。

Stack Overflow 2025年调查,84%的开发者在使用或计划使用AI编程工具,51%每天都在用。

Satya Nadella 确认微软代码仓库中 20%-30% 的代码由AI编写,Sundar Pichai 确认 Google 超过 30% 的新代码由AI生成。

不是某一个工具变强了,是整个创造软件的基础设施变了。

我觉得软件工程的奇点,已经到了。

03. 大模型进化的加速

软件工程的奇点让我兴奋,但还有一件更酷的事。

三周前,Karpathy 开源了一个项目叫 autoresearch。Karpathy 是 OpenAI 创始成员,特斯拉自动驾驶前负责人,深度学习领域最有影响力的研究者和教育者之一。

这个项目18天拿了5.5万 Star、7600多 Fork。这个增速本身就说明,做AI研究的人看到它,知道它意味着什么。

autoresearch 做的事说起来很简单:给AI一个小型语言模型的训练环境,让它自己跑实验。AI改训练代码,跑5分钟,看结果有没有变好,好就保留,不好就回滚,继续改。你睡一觉起来看日志,100个实验跑完了。

整个项目只有三个核心文件。一个数据准备脚本,固定不动,AI不能碰。一个训练代码,630行,AI唯一能改的文件。一个Markdown指令文件,人写的,告诉AI研究方向和规则。

有意思的是那个指令文件里有一条关键规则,大意是:开始实验之后不要停下来问我要不要继续。我可能在睡觉,你就一直跑,直到我手动停你。

04. AI发现了人类没发现的东西

Karpathy 自己已经手动优化这个模型好几个月了。让AI agent跑了两天,700多个实验之后,AI找到了20个有效的改进。

这20个改进全部可以叠加,并且全部能迁移到更大的模型上。叠加之后,训练效率提升了约11%,直接刷新了 Karpathy 之前手动提交的所有最佳记录。

AI找到了什么?不是简单地调参数。

AI发现了注意力机制实现里的一个真实Bug。一个 Karpathy 手动调了几个月都没发现的Bug。AI还找到了一些极窄的参数甜蜜点,比如某个缩放因子在0.68有效,0.66和0.67都不行。这种精度,需要几百次暴力遍历才能覆盖,人手动调参不可能找到。

这就不是传统的超参数搜索了。传统做法需要人先画好搜索范围:学习率在多少到多少之间、层数从几到几。autoresearch 里的AI可以任意修改代码,改架构、换算法、删组件。搜索空间是开放的,而AI读得懂代码,能形成有根据的假设再去验证。

据说有人把这个方法扩展到16块GPU并行,8小时跑了910个实验。还有人拿去优化自己的模板引擎,93次自动提交后渲染速度提升了53%。

Karpathy 在 README 里说了一句话:

你不再像传统研究者那样去改 Python 文件了。你通过写 Markdown 来编程「研究方向」本身。

人的角色变了。从「做实验的人」变成「定义研究方向的人」。AI负责去跑、去试、去发现。

这就是递归。AI改进AI,循环开始转了。

05. 我自己的一个尝试

看到 autoresearch 之后我就在想,这个模式能不能用在我自己的项目上。

我最近在开发一个新的Agent。过去迭代的流程是:人工测评发现问题,改代码,再测评,再改。一天能跑几轮,全看我自己的时间和精力。(毕竟创业团队,主要测评人员就是我自己)

现在我用 Claude Code 搭了一套自动化的评测和迭代工作流。

具体是这样的:我开发了6个独立的AI,模拟6种不同类型的真实用户。每个AI都有自己的人设、背景故事、记忆,跟我正在开发的 Agent 进行20轮深度对话。对话结束后,一个专家AI负责评测这些对话的质量。最终把模拟用户的反馈和专家的评测结果交给 Claude Code,它根据这些结果自己去修改代码,然后开始下一轮。

整套流程自动循环。一跑就是十几个小时,不需要我盯着。

本质上和 autoresearch 是同一个模式:人定义「什么是好」,AI负责找到「怎么变好」。

当然,现在评估环节还不够精细。怎么准确定义「好的对话」,怎么让评估AI的判断真正可靠,这是最难的部分。但方向很清楚:评估做得越好,AI自主迭代的效果就越好。

这个循环一旦足够成熟,改进速度就不再取决于我一天能评测多少轮了。

06. 焦虑与美妙

这个时代是令人兴奋的。AI把很多门槛抹平了,能做的事突然变得非常多。每天都觉得时间不够用,不是因为忙,是因为想做的太多了。

这个时代,也是令人焦虑的。因为变化太快,快到你刚建立的工作方式,三个月后可能就过时了。我过去花了一年多时间,精心打磨了基于多模型workflow架构的 Agent,现在明显已经过时了。我前脚刚接入了一套记忆系统,就看到 mem9 和 supermemory 两个更好的开源方案出来了,根本玩不过来。autoresearch 这种东西出来之后,AI改进AI的速度只会越来越快,快到什么程度,没人知道。

没人能知道,「跟上时代」的终点在哪。

关于如何应对,其实并没有标准答案,我的答案是保持创造,享受过程,享受变化。

参考资料

  • GitHub Octoverse 2025 Report(https://github.blog/news-insights/octoverse/)[1]
  • MIT Technology Review,「10 Breakthrough Technologies 2026: Generative Coding」
  • Stack Overflow Developer Survey 2025(https://survey.stackoverflow.co/2025/)[2]
  • CNBC, Satya Nadella confirms 20-30% of Microsoft code written by AI(2025.04)
  • Alphabet Q1 2025 Earnings Call, Sundar Pichai confirms 30%+ of new Google code is AI-generated
  • TechCrunch, Cursor surpasses $2B in annualized revenue(2026.03)
  • SaaStr, Cursor hit $1B ARR in 17 months(2025.11)
  • Karpathy, autoresearch(https://github.com/karpathy/autoresearch)[3]
  • SkyPilot Blog, Scaling Karpathy’s Autoresearch to 16 GPUs
  • mem9(https://github.com/mem9-ai/mem9)[4]
  • supermemory(https://github.com/supermemoryai/supermemory)[5]

References

[1]https://github.blog/news-insights/octoverse/

[2]https://survey.stackoverflow.co/2025/

[3]https://github.com/karpathy/autoresearch

[4]https://github.com/mem9-ai/mem9

[5]https://github.com/supermemoryai/supermemory

作者:常超,月见万物 Founder&CEO ,公众号:常超

本文由 @常超 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Pexels,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!