8 个月建起的 AGI 实验室:蚂蚁集团旗下的 Inclusion AI

0 评论 1238 浏览 0 收藏 6 分钟

从DeepSeek时刻到快速崛起,Inclusion AI团队在短短八个月内成功打造了三代先进模型。他们不仅注重模型的性能提升,更重视构建长期的技术能力和开源生态。深入了解这个团队的创新之路,探寻AI未来的无限可能。

最近看了一个对Inclusion AI团队的访谈播客,很多人并不了解这支团队,所以有了这篇文章,简单介绍下。

值得一提的是,这个团队从决定做到真正发布高质量模型,只用了八个月

这篇文章的内容主要来自播客。

01 实验室成立的初衷:“DeepSeek 时刻”是一条真正的起跑线

Inclusion AI团队把他们的起点,明确指向了一个时间点:2025年2月。

几乎所有团队成员都承认,真正促使中国大模型行业集体加速的事件,是DeepSeek 的出现

团队负责人用“航海时代”打比方非常生动:

2024 年的全球 AI 世界,就像 14 世纪的欧洲,第一批船队试探着驶入未知的海域。

当 DeepSeek 这艘中国船成功返航时,国内的工程师深刻的意识到,这场航行不再是别人的故事。

Inclusion AI 就是在这个节点上,被蚂蚁集团正式拉到台前。

不是一个项目,而是一个实验室。

不是小范围试水,而是集团 CTO 牵头的重点方向。

不是“看看能不能做”,而是“必须把这件事做好”。

02 Inclusion AI 的定位,不是“做一个模型”,而是“建一个长期能力”

蚂蚁集团的业务横跨支付、保险、医疗、技术服务,未来所有业务都会依赖 AI。

所以 Inclusion AI 做的,不是配合业务的工具模型,而是构建整个集团未来十年的底层能力:

  • 自研基础语言模型
  • 多模态能力
  • 推理与强化学习能力
  • 自己的缩放定律(Scaling Law)
  • 完整的训练与系统优化能力
  • 自主可控的开源生态

换句话说,他们不是在训练一个模型,而是在训练“写模型的能力”。

03 8 个月升级三代模型:不是堆资源,而是体系化生产

访谈把他们的模型体系讲得很清晰。八个月内,他们完成了:

  • Ling:基础语言模型(从 1.0 → 1.5 → 2.0)
  • Ming:多模态模型
  • Ring:强化学习与推理方向
  • Diffusion Language Model:探索长序列与低成本生成

这个节奏看起来几乎不可能。但团队负责人表示:他们不是在“赶进度”,而是按计划在“造体系”。

模型不是孤立制作,而是串联的:

Ling → 打基础 Ming → 视觉能力升级 Ring → 推理能力拔高 Diffusion LM → 探索新的训练范式

这和现在很多公司“一窝蜂堆大模型,堆完再想用途”非常不同。

Inclusion AI 是在按“模型家族”建设,而不是用一个模型撑全局。

04 Inclusion AI 实验室的技术成熟度

1. 他们有自己的 scaling law,而不是复刻别人

他们确实参考了 OpenAI、DeepSeek 的 scaling law,但又做了自己的体系:

  • 大模型关键超参与 MOE 结构并不强耦合
  • 激活比例对模型效果影响极大
  • 在不同架构下保持训练稳定性

简单来说,他们不是“用别人提供的配方做饭”,而是“自己已经能写配方”。

2. FP8 训练的问题,他们不是绕过去,而是解决它

他们直接说:

  • 直接用别人的 FP8 方案,性能不提高,甚至更慢
  • 最大瓶颈是 quantize/dequantize(量化/去量化)
  • 于是他们重新改写了 MoE 层,把 gating 和量化操作融合,才真正提速

这是典型的系统工程能力:问题来了不是换路线,而是把问题拆开、测量、解决。

3. 训练不是一次性拉满,而是有“能力节奏”的爬升

从小规模 → 中规模 → 数百亿 → 数千亿参数,按阶梯推进,每一阶段验证:

稳定性、训练流量、系统瓶颈、内部工具链、数据处理方式等。

最后,未来竞争的关键不再是谁模型更大,而是谁能更快训练、更稳迭代、更强工程能力、更清晰方向、更持久投入。

以上,祝你今天开心。

作者:张艾拉 公众号:Fun AI Everyday

本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!