从算力、推理、成本看 AI 接下来的几年

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从算力、推理、成本看 AI 接下来的几年

张艾拉

2025-12-04

0 评论 503 浏览 1 收藏

10 分钟

本文探讨了AI发展的三个关键观点：缩放定律依然有效但受到成本和产品形态的约束；推理能力的提升为大模型带来了真正的增长飞轮；成本、算力和电力成为决定AI胜负的关键因素。

起因是看了一位海外的科技投资人写的长文，总结了他对当下和未来的一些判断，因为原文太硬核，我抽出了几个观点，用更好懂的方式和大家聊聊：

缩放定律还活着，AI 没有「撞天花板」，只是换了一个加速方式；
推理能力改变了大模型的商业逻辑，让 AI 终于拥有了真正的「增长飞轮」；
成本、算力和电力，第一次真正变成了决定 AI 输赢的底层变量。

一、缩放定律没死，只是效果被遮住了

先解释一个最近大家经常听到的概念：缩放定律（Scaling Law）。

简单说就是：在一定范围内，你给模型更多的算力、更大的模型规模、更好的数据，性能大概率会持续提升，而且提升和投入之间有相对稳定的关系。

过去几年，GPT 系列、Gemini 系列、Claude 系列，本质上都在用这个定律吃红利。

但过去一年有个现象：很多人觉得模型迭代没以前惊艳了。

比如：GPT-5 没有碾压上一代；各家新模型体验差不多，甚至有时候不如以前稳定。

于是就开始有人问：是不是缩放定律已经到头了？

那位投资人的观点是：不是定律失效，而是产品目标变了。

以 GPT-5 为例（他是从一线投资视角给的判断）：

它并不是尽可能堆料、追求最强性能的模型；
而是刻意往便宜推理去设计，更像一个更小的模型 + 智能路由的组合；
目标是：在成本可接受的前提下，给尽可能多的用户提供足够好的体验。

也就是说，产品团队踩了一脚刹车，不是引擎没办法再加速。

另一方面，像 Gemini 新一代模型在更大规模、更协调的算力集群上训练之后，性能还是有明显抬升，这说明：

在基础研究和预训练层面，缩放定律依然在发挥作用，只是现在多了一条「成本和产品形态」这条约束线。

对做产品、做投资的人来说，更重要的不是争论「有没有奇点」，而是承认一个现实：

短期看，模型体验的提升确实不会像 2022 年那样一夜之间翻倍；
长期看，只要算力和数据还能往上堆，AI 这条曲线还没到拐点。

一句话总结就是：

体验变平缓，不等于技术停滞；AI 现在更像是在从「炫技阶段」进入「算账阶段」。

二、推理能力，第一次给了大模型一个真正的增长飞轮

第二个被严重低估的点是：推理能力（reasoning）改变了大模型的商业逻辑。

以前的大模型，本质上更像一个高级自动补全：

你给它一个问题、一个提示，它在训练好的概率分布上，选出最可能接下来的那一串字。

这种模式下，提升模型主要靠两件事：一是多花钱预训练；二是不断在互联网上捞更多数据。

问题是，这种只靠预训练的缩放方式，飞轮很弱：

模型用得多 ≠ 模型变得更好；
用户给你的数据，很多也只是一次性的对话记录，很难真正沉淀到产品里。

而现在的推理模型发生了什么变化？

它们开始具备了多步思考、拆解任务的能力；
它们可以在解决问题的过程中，自己生成链式推理过程、工具调用轨迹、错误修正记录；
这些过程本身，就可以被拿来再次训练模型，变成更高质量的「自己教自己」的数据。

这意味着什么？意味着我们终于有了一个闭环：

模型推理 → 产生结构化的高质量数据 → 喂回模型 → 模型推理更好 → 吸引更多用户 → 产生更多数据……

这其实就是互联网行业最熟悉的那个飞轮：

「用户 → 数据 → 产品变好 → 更多用户」，只是这次发生在 AI 模型层。

这也是那位投资人强调的一点：

在只有预训练、没有推理的时候，AI 缺的就是这个飞轮；有了推理之后，前沿模型的护城河，开始变成「数据 + 使用频率 + 闭环设计」。

三、第一次，成本决定了谁赢：Token和电力

过去二十年，大部分科技巨头的成功，都不是靠最低成本取胜：

iPhone 从来不是最便宜的手机；某些 GPU 也不是最便宜的算力芯片。

但在这一轮 AI 里，那个投资人的感受是：

这是他职业生涯里第一次，成本如此关键。

原因很简单：

大模型的产品在很大程度上就是 Token，也就是模型吐出的字、代码、回答；
每产生一个 Token，背后都要烧电、烧显卡、烧网络；
对云厂商和大模型公司来说，谁能以更低的成本，稳定地产生大量 Token，谁就拥有更厚的基础设施护城河。

这里有两个关键信号：

1. 比显卡数量更重要的，是显卡之间能不能好好协同。

很多人喜欢问：某家公司有多少 GPU？但在真正做大规模训练的人眼里，更重要的是：

这些 GPU 是怎么连在一起的？
一个集群里有多少是可以互相快速通信、像一个整体一样工作的卡？
通信成本和失败率有多高？

所以，你看到他用的词不是「多少卡」，而是「coherent FLOPs」：大致可以理解为「真正能协同起来干活的有效算力」，而不是裸算力。

这就是为什么一些公司在同样的卡数下，能训练出更好的模型、用更低的成本提供推理服务，它们在网络拓扑、软件栈、机房电力和散热设计上，做了别人看不到的重投入。

2. 当电力成为瓶颈时，游戏规则只剩一句话：每一瓦能产出多少 Token

另一个被低估的变量是：电力。

拉起一个大型 AI 数据中心，不只是买一堆机柜那么简单：

你要有足够的变电、配电能力；
要满足当地对能耗、碳排、用电稳定性的各种要求；
很多地方现在已经开始对大型 AI 项目的用电做严格审批。

那位投资人的观点反而是：这是个好事。

一是因为电力瓶颈会自然减缓 AI 基础设施的过度扩张，避免一哄而上、然后一地鸡毛；

二是让整个周期变得更平滑、更长，而不是短期暴涨暴跌。

在电力受限的世界里，决策公式会变得非常简单粗暴：每 1 瓦电，我能产出多少有效 Token？

如果某个 GPU 贵一点，但每瓦电产出的 Token 多很多，它反而是更好的选择；

反之，即便某些方案在购置成本上便宜一点，但电力效率太差，长期 ROI 反而更低。

这对创业者同样有启示：

做应用层产品时，不要只看API 调用单价，还要关心在你的任务上，这个模型需要多少 Token 才能完成。

最后，站在一个更长的时间轴上看 AI。真正值得思考的，不是会不会是泡沫，而是：

在你的行业里，有没有哪一块高频、可结构化、值得自动化的决策，还没有被 AI 接管？
你能不能设计出一个越用越聪明的闭环，而不是一个用完就算的工具？
在一个算力、电力不再廉价的世界里，你做的每一个AI功能，真的值得那几度电吗？

以上，祝你今天开心。

作者：张艾拉公众号：Fun AI Everyday

本文由 @张艾拉原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

张艾拉

公众号「 Fun AI Everyday」& AI 出海App「爱卜」

96篇作品 135490总阅读量

Axure高保真教程：通过文本框维护下拉列表选项

05-255110 浏览

从“练习生”到公园“摆摊”，年轻人开启职业探索的新风潮

04-243689 浏览

谁拿走了飞猪携程们的长假？

09-214400 浏览

光速美国：AI基础设施层的未来在哪

08-302505 浏览

生活中的设计（一）

10-263089 浏览

目前还没评论，等你发挥！