8 个月建起的 AGI 实验室:蚂蚁集团旗下的 Inclusion AI
从DeepSeek时刻到快速崛起,Inclusion AI团队在短短八个月内成功打造了三代先进模型。他们不仅注重模型的性能提升,更重视构建长期的技术能力和开源生态。深入了解这个团队的创新之路,探寻AI未来的无限可能。

最近看了一个对Inclusion AI团队的访谈播客,很多人并不了解这支团队,所以有了这篇文章,简单介绍下。
值得一提的是,这个团队从决定做到真正发布高质量模型,只用了八个月。
这篇文章的内容主要来自播客。
01 实验室成立的初衷:“DeepSeek 时刻”是一条真正的起跑线
Inclusion AI团队把他们的起点,明确指向了一个时间点:2025年2月。
几乎所有团队成员都承认,真正促使中国大模型行业集体加速的事件,是DeepSeek 的出现。
团队负责人用“航海时代”打比方非常生动:
2024 年的全球 AI 世界,就像 14 世纪的欧洲,第一批船队试探着驶入未知的海域。
当 DeepSeek 这艘中国船成功返航时,国内的工程师深刻的意识到,这场航行不再是别人的故事。
Inclusion AI 就是在这个节点上,被蚂蚁集团正式拉到台前。
不是一个项目,而是一个实验室。
不是小范围试水,而是集团 CTO 牵头的重点方向。
不是“看看能不能做”,而是“必须把这件事做好”。

02 Inclusion AI 的定位,不是“做一个模型”,而是“建一个长期能力”
蚂蚁集团的业务横跨支付、保险、医疗、技术服务,未来所有业务都会依赖 AI。
所以 Inclusion AI 做的,不是配合业务的工具模型,而是构建整个集团未来十年的底层能力:
- 自研基础语言模型
- 多模态能力
- 推理与强化学习能力
- 自己的缩放定律(Scaling Law)
- 完整的训练与系统优化能力
- 自主可控的开源生态
换句话说,他们不是在训练一个模型,而是在训练“写模型的能力”。
03 8 个月升级三代模型:不是堆资源,而是体系化生产
访谈把他们的模型体系讲得很清晰。八个月内,他们完成了:
- Ling:基础语言模型(从 1.0 → 1.5 → 2.0)
- Ming:多模态模型
- Ring:强化学习与推理方向
- Diffusion Language Model:探索长序列与低成本生成
这个节奏看起来几乎不可能。但团队负责人表示:他们不是在“赶进度”,而是按计划在“造体系”。
模型不是孤立制作,而是串联的:
Ling → 打基础 Ming → 视觉能力升级 Ring → 推理能力拔高 Diffusion LM → 探索新的训练范式
这和现在很多公司“一窝蜂堆大模型,堆完再想用途”非常不同。
Inclusion AI 是在按“模型家族”建设,而不是用一个模型撑全局。

04 Inclusion AI 实验室的技术成熟度
1. 他们有自己的 scaling law,而不是复刻别人
他们确实参考了 OpenAI、DeepSeek 的 scaling law,但又做了自己的体系:
- 大模型关键超参与 MOE 结构并不强耦合
- 激活比例对模型效果影响极大
- 在不同架构下保持训练稳定性
简单来说,他们不是“用别人提供的配方做饭”,而是“自己已经能写配方”。
2. FP8 训练的问题,他们不是绕过去,而是解决它
他们直接说:
- 直接用别人的 FP8 方案,性能不提高,甚至更慢
- 最大瓶颈是 quantize/dequantize(量化/去量化)
- 于是他们重新改写了 MoE 层,把 gating 和量化操作融合,才真正提速
这是典型的系统工程能力:问题来了不是换路线,而是把问题拆开、测量、解决。
3. 训练不是一次性拉满,而是有“能力节奏”的爬升
从小规模 → 中规模 → 数百亿 → 数千亿参数,按阶梯推进,每一阶段验证:
稳定性、训练流量、系统瓶颈、内部工具链、数据处理方式等。
最后,未来竞争的关键不再是谁模型更大,而是谁能更快训练、更稳迭代、更强工程能力、更清晰方向、更持久投入。
以上,祝你今天开心。
作者:张艾拉 公众号:Fun AI Everyday
本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自作者提供
- 目前还没评论,等你发挥!

起点课堂会员权益




