AI 编码神器 Cursor 团队内部对谈!未来的 AI 究竟怎么思考?
Cursor 团队在万字圆桌中揭示了 AI 编程背后的深度思考与进化逻辑。从强化学习的训练困境到真实世界的奖励机制,从智能体的工具设计到长上下文的硬件级优化,本文深度拆解了 AI 如何通过复杂的互动与反馈机制实现代码能力的突破。更揭示了 GRPO 算法如何颠覆传统 PRM 模式,以及未来 AI 编程在基础设施与数据稀缺挑战下的发展方向。

最近看了一期 AI 编程神器Cursor背后的核心团队进行的一次万字圆桌长谈,信息量极其庞大。
圆桌讨论中提到了很多诸如强化学习、注意力机制、过程奖励这些概念,今天我们一起来拆解这次讨论到底告诉了我们什么信息,看看 AI 究竟是如何思考和进化的。
讨论中涉及到的专业词汇会为大家做标记,方便大家更好地理解。
话题一、为什么训练写代码的 AI 比训练做数学题或写文章的 AI 更难?
- 强化学习(RL, Reinforcement Learning):一种让 AI 在试错中学习的方法,做得好给奖励,做错扣分
- 动作空间(Action Space):AI 在解决问题时可以采取的所有可能动作的总和
数学题的最终答案一般很短,AI 可以通过纯粹的逻辑推理一步步推导出正确答案。但在编程中,代码本身就是答案,且 AI 的动作空间极其庞大 。
为了写出能运行的代码,AI 不能只停留在纸上谈兵,它必须像人类一样进行“多步工具调用”——生成代码、调用工具测试、获取反馈,然后反复迭代 。这种高度复杂的互动,让代码大模型的训练难度呈指数级上升。
话题二、真实世界的奖励机制 (Reward) 与反馈信号
- 奖励机制(Reward):训练 AI 时的评分系统
- SWE-Bench:业界常用的权威 AI 编程能力测试集
- Pass@K 与 Pass@1:衡量 AI 准确率的指标,Pass@1 是指第一次就答对的概率,Pass@K 是指给 AI 多次(K次)尝试机会,只要其中一次对了就算成功的概率
过去,大家习惯用跑通测试用例(如 SWE-Bench)来给 AI 打分。但测试只有“通过(1)”或“失败(0)”,信号极其稀疏。
Cursor 团队指出,单纯为了测试去优化,会导致模型学会“作弊”,写出能过测试但人类根本没法用的代码
那些看似人性化的反馈,比如 OpenAI 曾发现,用“点赞/踩”来训练模型,会导致 AI 变得阿谀奉承,因为这会让模型迎合特定用户的偏好,甚至受到恶意点击的干扰
团队认为更好的隐性反馈信号包括“用户是否保留了代码”、“用户是否切换了模型”,以及最核心的“用户是否从 Cursor 流失 (就是用户觉得cursor生成的东西不好导致不用这个软件了)”
此外,让 AI 在后台高温度(高随机性)尝试多次,利用 Pass@K 远高于 Pass@1 的特性,自己筛选出能跑通的最优解,也是极佳的真实训练信号。
话题三、智能体 (Agent) 的工具设计
- 智能体(Agent):能够自主思考、调用工具解决复杂任务的 AI
- Linter 错误:代码静态检查工具报出的语法或规范错误
- PR(Pull Request):程序员修改代码后提交合并的历史记录
AI 编程助手不仅仅是补全代码,它们需要像人类工程师一样使用工具。
像O3 这样的模型倾向于使用极简的终端工具(如 grep、sed),因为不需要复杂的环境 。
但 Cursor 团队认为应该提供更高质量的工具,例如 Linter(代码检查),Cursor 通过预装语言服务器知道了这一信息
团队还提出了一个绝妙的构想——把 AI 当作一个“永远处于入职第三天”的高级工程师。
除了搜索代码,还要给它一个工具去阅读公司过往的 PR 历史,让它理解同事们到底在做什么、为什么要这么改,从而完美融入团队的代码风格
话题四、长上下文 (Long Context) 与硬件级注意力优化
- 长上下文(Long Context):AI 一次性能够接收和处理的文本长度
- KV Cache(键值缓存):AI 在处理长文本时,把已经看过的部分存起来的“短期记忆”,避免重复计算
- NSA(原生稀疏注意力):DeepSeek 提出的一种极具扩展性的注意力机制
写代码需要极长的上下文,如何低成本地在多个提示词之间复用缓存的上下文(KV Cache)是技术竞争的核心
当面对庞大的专业代码库时,如何在超长文本中高效找重点?用以下几种方法:
- DeepSeek 的 NSA 机制:它不把算力浪费在逐字阅读上,而是分为三步:回顾最近的 4000 个 token(滑动窗口)、每隔一段距离存一个总结块、最后只挑出最相关的 Top-K 块进行仔细阅读
- 乌贼注意力(Squid Attention):团队提出了一种文档级别的注意力机制。把 AI 想象成一只乌贼,每条触手独立阅读并记住一份文档。当你想换一份参考资料时,只需要换一条触手即可,完全不需要重新消耗算力去阅读
- 硬件级优化:借助最新的 GB 200 NVL 72 架构,通过张量并行技术和 Grace CPU 的统一内存,可以把庞大的记忆(KV)卸载到 CPU 上,只有用到时才加载进 GPU,实现了几乎“免费”的超长上下文处理
话题五、记忆机制(Memory)的训练困境,教 AI 记笔记为何这么难?
教 AI “检索”以前的记忆很简单,只要当下有用就给奖励。但教它“存储”记忆却极其困难。
因为现在记下的一句话,可能要在未来的某次无关对话中才发挥作用,系统很难在当下为这个动作打分。
团队目前的解法是,抛弃复杂的模型训练,直接用 500 个真实任务作为基准,靠一套人工设定的规则(启发式方法)来教 AI 何时该记、何时该忘。
话题六:算法演进,为什么抛弃 PRM 转向 GRPO?
- PRM(过程奖励模型):AI 每走一步,模型就给这一步打分评估
- GRPO(组相对策略优化):放弃给中间步骤打分,让 AI 批量尝试多种可能,最后按最终结果的优劣进行排序和优化
这也许是目前 AI 界最大的路线反思。过去大家喜欢用 PRM 像老师批改作业一样,给 AI 的中间步骤打分。但事实证明,模型在给中间步骤打分时极不准确,AI 稍微被优化大约 200 步左右就会失效(奖励作弊)
相比之下,DeepSeek R1 带火的 GRPO 算法则更加简单粗暴且有效。它丢弃了占用显存的价值模型(Value Function),直接让 AI 暴力推演多次,通过最终结果来计算平均价值。
虽然这极其消耗计算资源,但基于真实的最终结果,AI 可以被连续优化 10,000 步而不崩溃,在数学和代码等具有明确结果的领域效果更好
话题七、基础设施建设与 AI 编程的未来
未来,为了容纳这套庞大的 RL 训练体系,我们需要极其复杂的底层基础设施,甚至要让推理服务器和反向传播计算巧妙地重叠运行。
未来的智能体可能会消耗海量的输出 Token(如 O3 会不断检索构建上下文)。但理想的未来是,模型能在后台复用过去的思考沉淀,提问时能迅速作答。
随着高质量人类代码数据的枯竭,最好的数据比算力更加稀缺。因此,看起来极度消耗算力的强化学习方法(如大规模采样、GRPO),将成为未来的主流方向
看完这些,你会发现 AI 的进化早已不仅仅是算法的堆砌,更是对真实世界反馈的深刻理解,以及算力与效率的极致压榨。
本文由 @芊羽 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自作者提供
- 目前还没评论,等你发挥!

起点课堂会员权益




