从算力、推理、成本看 AI 接下来的几年
本文探讨了AI发展的三个关键观点:缩放定律依然有效但受到成本和产品形态的约束;推理能力的提升为大模型带来了真正的增长飞轮;成本、算力和电力成为决定AI胜负的关键因素。

起因是看了一位海外的科技投资人写的长文,总结了他对当下和未来的一些判断,因为原文太硬核,我抽出了几个观点,用更好懂的方式和大家聊聊:
- 缩放定律还活着,AI 没有「撞天花板」,只是换了一个加速方式;
- 推理能力改变了大模型的商业逻辑,让 AI 终于拥有了真正的「增长飞轮」;
- 成本、算力和电力,第一次真正变成了决定 AI 输赢的底层变量。
一、缩放定律没死,只是效果被遮住了
先解释一个最近大家经常听到的概念:缩放定律(Scaling Law)。
简单说就是:在一定范围内,你给模型更多的算力、更大的模型规模、更好的数据,性能大概率会持续提升,而且提升和投入之间有相对稳定的关系。
过去几年,GPT 系列、Gemini 系列、Claude 系列,本质上都在用这个定律吃红利。
但过去一年有个现象:很多人觉得模型迭代没以前惊艳了。
比如:GPT-5 没有碾压上一代;各家新模型体验差不多,甚至有时候不如以前稳定。
于是就开始有人问:是不是缩放定律已经到头了?
那位投资人的观点是:不是定律失效,而是产品目标变了。
以 GPT-5 为例(他是从一线投资视角给的判断):
- 它并不是尽可能堆料、追求最强性能的模型;
- 而是刻意往便宜推理去设计,更像一个更小的模型 + 智能路由的组合;
- 目标是:在成本可接受的前提下,给尽可能多的用户提供足够好的体验。
也就是说,产品团队踩了一脚刹车,不是引擎没办法再加速。
另一方面,像 Gemini 新一代模型在更大规模、更协调的算力集群上训练之后,性能还是有明显抬升,这说明:
在基础研究和预训练层面,缩放定律依然在发挥作用,只是现在多了一条「成本和产品形态」这条约束线。
对做产品、做投资的人来说,更重要的不是争论「有没有奇点」,而是承认一个现实:
- 短期看,模型体验的提升确实不会像 2022 年那样一夜之间翻倍;
- 长期看,只要算力和数据还能往上堆,AI 这条曲线还没到拐点。
一句话总结就是:
体验变平缓,不等于技术停滞;AI 现在更像是在从「炫技阶段」进入「算账阶段」。
二、推理能力,第一次给了大模型一个真正的增长飞轮
第二个被严重低估的点是:推理能力(reasoning)改变了大模型的商业逻辑。
以前的大模型,本质上更像一个高级自动补全:
你给它一个问题、一个提示,它在训练好的概率分布上,选出最可能接下来的那一串字。
这种模式下,提升模型主要靠两件事:一是多花钱预训练;二是不断在互联网上捞更多数据。
问题是,这种只靠预训练的缩放方式,飞轮很弱:
- 模型用得多 ≠ 模型变得更好;
- 用户给你的数据,很多也只是一次性的对话记录,很难真正沉淀到产品里。
而现在的推理模型发生了什么变化?
- 它们开始具备了多步思考、拆解任务的能力;
- 它们可以在解决问题的过程中,自己生成链式推理过程、工具调用轨迹、错误修正记录;
- 这些过程本身,就可以被拿来再次训练模型,变成更高质量的「自己教自己」的数据。
这意味着什么?意味着我们终于有了一个闭环:
模型推理 → 产生结构化的高质量数据 → 喂回模型 → 模型推理更好 → 吸引更多用户 → 产生更多数据……
这其实就是互联网行业最熟悉的那个飞轮:
「用户 → 数据 → 产品变好 → 更多用户」,只是这次发生在 AI 模型层。
这也是那位投资人强调的一点:
在只有预训练、没有推理的时候,AI 缺的就是这个飞轮;有了推理之后,前沿模型的护城河,开始变成「数据 + 使用频率 + 闭环设计」。
三、第一次,成本决定了谁赢:Token和电力
过去二十年,大部分科技巨头的成功,都不是靠最低成本取胜:
iPhone 从来不是最便宜的手机;某些 GPU 也不是最便宜的算力芯片。
但在这一轮 AI 里,那个投资人的感受是:
这是他职业生涯里第一次,成本如此关键。
原因很简单:
- 大模型的产品在很大程度上就是 Token,也就是模型吐出的字、代码、回答;
- 每产生一个 Token,背后都要烧电、烧显卡、烧网络;
- 对云厂商和大模型公司来说,谁能以更低的成本,稳定地产生大量 Token,谁就拥有更厚的基础设施护城河。
这里有两个关键信号:
1. 比显卡数量更重要的,是显卡之间能不能好好协同。
很多人喜欢问:某家公司有多少 GPU?但在真正做大规模训练的人眼里,更重要的是:
- 这些 GPU 是怎么连在一起的?
- 一个集群里有多少是可以互相快速通信、像一个整体一样工作的卡?
- 通信成本和失败率有多高?
所以,你看到他用的词不是「多少卡」,而是「coherent FLOPs」:大致可以理解为「真正能协同起来干活的有效算力」,而不是裸算力。
这就是为什么一些公司在同样的卡数下,能训练出更好的模型、用更低的成本提供推理服务,它们在网络拓扑、软件栈、机房电力和散热设计上,做了别人看不到的重投入。
2. 当电力成为瓶颈时,游戏规则只剩一句话:每一瓦能产出多少 Token
另一个被低估的变量是:电力。
拉起一个大型 AI 数据中心,不只是买一堆机柜那么简单:
- 你要有足够的变电、配电能力;
- 要满足当地对能耗、碳排、用电稳定性的各种要求;
- 很多地方现在已经开始对大型 AI 项目的用电做严格审批。
那位投资人的观点反而是:这是个好事。
一是因为电力瓶颈会自然减缓 AI 基础设施的过度扩张,避免一哄而上、然后一地鸡毛;
二是让整个周期变得更平滑、更长,而不是短期暴涨暴跌。
在电力受限的世界里,决策公式会变得非常简单粗暴:每 1 瓦电,我能产出多少有效 Token?
如果某个 GPU 贵一点,但每瓦电产出的 Token 多很多,它反而是更好的选择;
反之,即便某些方案在购置成本上便宜一点,但电力效率太差,长期 ROI 反而更低。
这对创业者同样有启示:
做应用层产品时,不要只看API 调用单价,还要关心在你的任务上,这个模型需要多少 Token 才能完成。
最后,站在一个更长的时间轴上看 AI。真正值得思考的,不是会不会是泡沫,而是:
- 在你的行业里,有没有哪一块高频、可结构化、值得自动化的决策,还没有被 AI 接管?
- 你能不能设计出一个越用越聪明的闭环,而不是一个用完就算的工具?
- 在一个算力、电力不再廉价的世界里,你做的每一个AI功能,真的值得那几度电吗?
以上,祝你今天开心。
作者:张艾拉 公众号:Fun AI Everyday
本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自作者提供
- 目前还没评论,等你发挥!

起点课堂会员权益




