从算力、推理、成本看 AI 接下来的几年

0 评论 327 浏览 0 收藏 10 分钟

本文探讨了AI发展的三个关键观点:缩放定律依然有效但受到成本和产品形态的约束;推理能力的提升为大模型带来了真正的增长飞轮;成本、算力和电力成为决定AI胜负的关键因素。

起因是看了一位海外的科技投资人写的长文,总结了他对当下和未来的一些判断,因为原文太硬核,我抽出了几个观点,用更好懂的方式和大家聊聊:

  1. 缩放定律还活着,AI 没有「撞天花板」,只是换了一个加速方式;
  2. 推理能力改变了大模型的商业逻辑,让 AI 终于拥有了真正的「增长飞轮」;
  3. 成本、算力和电力,第一次真正变成了决定 AI 输赢的底层变量。

一、缩放定律没死,只是效果被遮住了

先解释一个最近大家经常听到的概念:缩放定律(Scaling Law)

简单说就是:在一定范围内,你给模型更多的算力、更大的模型规模、更好的数据,性能大概率会持续提升,而且提升和投入之间有相对稳定的关系。

过去几年,GPT 系列、Gemini 系列、Claude 系列,本质上都在用这个定律吃红利。

但过去一年有个现象:很多人觉得模型迭代没以前惊艳了。

比如:GPT-5 没有碾压上一代;各家新模型体验差不多,甚至有时候不如以前稳定。

于是就开始有人问:是不是缩放定律已经到头了?

那位投资人的观点是:不是定律失效,而是产品目标变了。

以 GPT-5 为例(他是从一线投资视角给的判断):

  • 它并不是尽可能堆料、追求最强性能的模型;
  • 而是刻意往便宜推理去设计,更像一个更小的模型 + 智能路由的组合;
  • 目标是:在成本可接受的前提下,给尽可能多的用户提供足够好的体验。

也就是说,产品团队踩了一脚刹车,不是引擎没办法再加速。

另一方面,像 Gemini 新一代模型在更大规模、更协调的算力集群上训练之后,性能还是有明显抬升,这说明:

在基础研究和预训练层面,缩放定律依然在发挥作用,只是现在多了一条「成本和产品形态」这条约束线。

对做产品、做投资的人来说,更重要的不是争论「有没有奇点」,而是承认一个现实:

  • 短期看,模型体验的提升确实不会像 2022 年那样一夜之间翻倍;
  • 长期看,只要算力和数据还能往上堆,AI 这条曲线还没到拐点。

一句话总结就是:

体验变平缓,不等于技术停滞;AI 现在更像是在从「炫技阶段」进入「算账阶段」。

二、推理能力,第一次给了大模型一个真正的增长飞轮

第二个被严重低估的点是:推理能力(reasoning)改变了大模型的商业逻辑。

以前的大模型,本质上更像一个高级自动补全:

你给它一个问题、一个提示,它在训练好的概率分布上,选出最可能接下来的那一串字。

这种模式下,提升模型主要靠两件事:一是多花钱预训练;二是不断在互联网上捞更多数据。

问题是,这种只靠预训练的缩放方式,飞轮很弱

  • 模型用得多 ≠ 模型变得更好;
  • 用户给你的数据,很多也只是一次性的对话记录,很难真正沉淀到产品里。

而现在的推理模型发生了什么变化?

  1. 它们开始具备了多步思考、拆解任务的能力;
  2. 它们可以在解决问题的过程中,自己生成链式推理过程、工具调用轨迹、错误修正记录;
  3. 这些过程本身,就可以被拿来再次训练模型,变成更高质量的「自己教自己」的数据。

这意味着什么?意味着我们终于有了一个闭环

模型推理 → 产生结构化的高质量数据 → 喂回模型 → 模型推理更好 → 吸引更多用户 → 产生更多数据……

这其实就是互联网行业最熟悉的那个飞轮:

「用户 → 数据 → 产品变好 → 更多用户」,只是这次发生在 AI 模型层。

这也是那位投资人强调的一点:

在只有预训练、没有推理的时候,AI 缺的就是这个飞轮;有了推理之后,前沿模型的护城河,开始变成「数据 + 使用频率 + 闭环设计」。

三、第一次,成本决定了谁赢:Token和电力

过去二十年,大部分科技巨头的成功,都不是靠最低成本取胜:

iPhone 从来不是最便宜的手机;某些 GPU 也不是最便宜的算力芯片。

但在这一轮 AI 里,那个投资人的感受是:

这是他职业生涯里第一次,成本如此关键。

原因很简单:

  • 大模型的产品在很大程度上就是 Token,也就是模型吐出的字、代码、回答;
  • 每产生一个 Token,背后都要烧电、烧显卡、烧网络;
  • 对云厂商和大模型公司来说,谁能以更低的成本,稳定地产生大量 Token,谁就拥有更厚的基础设施护城河。

这里有两个关键信号:

1. 比显卡数量更重要的,是显卡之间能不能好好协同。

很多人喜欢问:某家公司有多少 GPU?但在真正做大规模训练的人眼里,更重要的是:

  • 这些 GPU 是怎么连在一起的?
  • 一个集群里有多少是可以互相快速通信、像一个整体一样工作的卡?
  • 通信成本和失败率有多高?

所以,你看到他用的词不是「多少卡」,而是「coherent FLOPs」:大致可以理解为「真正能协同起来干活的有效算力」,而不是裸算力。

这就是为什么一些公司在同样的卡数下,能训练出更好的模型、用更低的成本提供推理服务,它们在网络拓扑、软件栈、机房电力和散热设计上,做了别人看不到的重投入。

2. 当电力成为瓶颈时,游戏规则只剩一句话:每一瓦能产出多少 Token

另一个被低估的变量是:电力。

拉起一个大型 AI 数据中心,不只是买一堆机柜那么简单:

  • 你要有足够的变电、配电能力;
  • 要满足当地对能耗、碳排、用电稳定性的各种要求;
  • 很多地方现在已经开始对大型 AI 项目的用电做严格审批。

那位投资人的观点反而是:这是个好事。

一是因为电力瓶颈会自然减缓 AI 基础设施的过度扩张,避免一哄而上、然后一地鸡毛;

二是让整个周期变得更平滑、更长,而不是短期暴涨暴跌。

在电力受限的世界里,决策公式会变得非常简单粗暴:每 1 瓦电,我能产出多少有效 Token?

如果某个 GPU 贵一点,但每瓦电产出的 Token 多很多,它反而是更好的选择;

反之,即便某些方案在购置成本上便宜一点,但电力效率太差,长期 ROI 反而更低。

这对创业者同样有启示:

做应用层产品时,不要只看API 调用单价,还要关心在你的任务上,这个模型需要多少 Token 才能完成。

最后,站在一个更长的时间轴上看 AI。真正值得思考的,不是会不会是泡沫,而是:

  1. 在你的行业里,有没有哪一块高频、可结构化、值得自动化的决策,还没有被 AI 接管?
  2. 你能不能设计出一个越用越聪明的闭环,而不是一个用完就算的工具?
  3. 在一个算力、电力不再廉价的世界里,你做的每一个AI功能,真的值得那几度电吗?

以上,祝你今天开心。

作者:张艾拉 公众号:Fun AI Everyday

本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!