Idea is Cheap,铲子才值钱——从天授框架到 OpenAI RLHF Infra 的基建哲学
在AI领域,好点子从来不是稀缺资源,真正的竞争力在于将想法快速落地的能力。OpenAI研究员翁家翌用两周时间从零打造强化学习框架「天授」,又在OpenAI重构大模型后训练基础设施,其核心逻辑始终如一:造出能让团队迭代效率倍增的「铲子」。本文深度剖析了这种工程思维如何成为AI竞赛中的隐秘武器,以及为何顶级团队正在重新定义人才评估标准。

AI 圈有个公开的秘密:好点子从来不稀缺。你去参加任何一场学术会议,随便拉个人聊半小时,兜里都能揣走三五个”有潜力”的 idea。OpenAI 内部更是如此——翁家翌说过一句很直白的话:好主意很廉价,找人讨论就能有。
那什么才贵?答案是:把 idea 跑通的速度。更准确地说,是单位时间内能完成多少次有效迭代。
这话听着像正确的废话,但真正把它当信仰去执行的人极少。翁家翌算一个。从本科时两周撸出强化学习框架”天授”,到在 OpenAI 从零搭建大模型后训练的 RL 基础设施,他干的事情本质上只有一件:造铲子。
第一把铲子:两周写出天授
故事的起点很朴素——本科做强化学习实验,要用 RLlib。用过的人都知道那是个什么体验:几十万行代码,抽象层套抽象层,你想改个 reward shaping 的逻辑,得先花三天搞清楚它的调度器是怎么跑的。
翁家翌的反应不是忍,是推倒重来。
两周时间,一个人,写出了天授的第一版。设计哲学极其简单:保持一致性(Consistency),把 API 做到科研人员不用翻文档就能上手。没有花哨的功能堆砌,就是让你能最快速度地把想法变成可运行的实验。
这件事背后有个他很早就想明白的判断:强化学习领域的瓶颈,根本不在算法不够新。大量论文在单一环境里疯狂调参、防止模型崩溃,本质上是在用战术上的勤奋掩盖战略上的懒惰——没人愿意停下来把基础设施做对。
天授在 GitHub 上拿到了几千个 Star,成了他后来进 OpenAI 的重要敲门砖。面试官 John Schulman 看中的不是他发了几篇论文,而是他写代码的能力和开源履历。这件事本身就很说明问题:在顶级 AI Lab 的筛选标准里,”能不能造好铲子”的权重,比很多人想象的高得多。
第二把铲子:OpenAI 的后训练 RL Infra
2022 年翁家翌加入 OpenAI 的时候,ChatGPT 还没立项,”后训练”这个概念在内部都没有清晰的边界。他接手的任务是搭建大模型后训练的强化学习基础设施——听起来和做天授差不多,都是造铲子,但这把铲子的工程难度完全是另一个量级。
核心差异在哪?传统强化学习(比如打 Atari、控制机器人)的环境很复杂,模型很小。你的计算瓶颈在环境仿真,模型训练反而很快。大模型 RL 恰好反过来:环境简单得离谱——就是一个 prompt,几微秒的事——但模型的推理和训练极度昂贵,动辄几百张卡跑几个小时。
这意味着整个系统工程的优化方向要彻底翻转。小模型时代你优化环境并行度,大模型时代你要优化的是 GPU 利用率、梯度通信、checkpoint 管理、以及如何在几百张卡的集群上做到训练和推理的高效调度。以前管用的那套架构,搬过来直接就是灾难。
翁家翌在这件事上的态度和做天授时一脉相承:不凑合,该重写就重写。他提过一个观点——管代码需要高度的一致性,管公司也一样,技术债务积累到一定程度就必须果断推倒。哪怕是成熟的 Infra,该清理就清理,不能因为”能跑”就不动。
铲子哲学的底层逻辑
为什么要如此执着于造铲子?
因为在 OpenAI 这种级别的团队里,研究员都不差。大家智商在线、idea 管够,真正拉开差距的是迭代效率。你的 Infra 每让一次实验从 8 小时缩短到 2 小时,整个团队一周就能多跑十几组实验。这个乘数效应累积下来,就是碾压级的优势。
翁家翌认同一个判断:教一个 researcher 做好 engineering,比教一个 engineer 做好 research 难得多。这话的潜台词是——好的工程能力在 AI 研究中被严重低估了。大多数团队花 80% 的精力在想 idea 和写论文上,只花 20% 在基建上。但实际上,基建质量决定了你那 80% 的精力能产生多少真实产出。
这也是为什么他在选 Offer 时放弃了 Google——不想当螺丝钉,想去一个能从零开始造铲子的地方。
给 ML Infra 团队的启示
如果你正在组建或优化一支 ML Infra 团队,翁家翌的经历至少能提供三个参考:
第一,招人要看造过什么,而不是发过什么。 GitHub 履历比论文列表更能预测一个人在 Infra 岗位上的产出。
第二,不要害怕推倒重写。 技术债务的利息是隐性的——它不会让你的实验报错,但会让每次迭代慢 30%。几个月下来,你和竞争对手的差距就是几十次有效实验。
第三,Infra 团队的 KPI 不应该是”搭了什么系统”,而是”研究员的单位时间迭代次数提升了多少”。 铲子好不好用,挖矿的人最清楚。
AI 这波浪潮里,淘金的人挤满了河滩。但真正闷声赚钱的,永远是卖铲子的。
本文由 @Mark-AIPM 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




