一文讲透AI的三大核心要素之一:算力
算力作为AI发展的三大支柱之一,远不止简单的硬件堆砌。本文深度解析AI算力的本质——从FLOPS到TOPS的单位差异,到内存带宽与芯片互联构成的『数据生命线』,揭示大模型训练背后那些被忽视的算力三角关系。你将理解为什么标称算力只是冰山一角,以及如何评估真实的AI算力效能。

算力、算法和数据是推动人工智能发展的三大核心要素,尤其是算力,更是经常被提到,但是算力到底是什么?
不是显卡,也不是芯片。
那么什么是算力?
广义上来说,算力是指用来计算的设备在单位时间内处理信息的能力。
在AI领域中,算力这个这个概念被进一步聚焦为执行特定类型的计算任务的速度和效率,主要是指大规模的线性代数运算。
AI算力不仅仅是单个芯片的理论峰值性能,更是一个涵盖了硬件架构、软件堆栈、数据传输和算法效率的综合系统能力的体现,是支撑大模型训练、推理、计算机视觉、语音识别等所有 AI 场景的核心基础设施。
AI 算力的核心围绕大模型、深度学习来展开,所有的设计都服务于用更低的精度、更高的并行度,来完成海量的 AI 特型运算。
注意:精度是 AI 算力的前提,没有精度标注的算力没有任何的实际意义。
算力单位-FLOPS
什么是FLOPS?
FLOPS(Floating Point Operations Per Second),也叫每秒浮点运算次数,是AI算力最核心、最通用的一个单位 。
神经网络的权重、激活值、梯度等核心数据本质上都是包含小数儿的实数,都得通过浮点数进行精确表示和计算。
什么是浮点运算?
浮点运算(Floating-Point Arithmetic)是计算机中用于处理非整数(含小数、极大 / 极小值整数) 的数值计算方式,核心是通过 “科学计数法” 的这种思路,用有限的二进制位数表示范围更广的数值,来解决整数运算没有办法处理的小数或极端数值的问题。
简单来说,就是把一个数拆成两部分存储和计算:
尾数(Mantissa):类似科学计数法里的 “有效数字”,决定数值的精度,比如 1.234×10³ 中的 “1.234;
指数(Exponent):类似科学计数法里的 “10 的幂次”,决定数值的范围,比如 1.234×10³ 中的 “3”。
FLOPS单位层级
AI算力
AI 算力侧重张量 / 矩阵运算,需要结合着精度(FP32/FP16/FP8/INT4)来区分。
同样的一款 AI 芯片,精度越低,算力越高,因为可以通过牺牲少量的精度,来换取更高的运算速度。
算力单位-TOPS
TOPS这个单位,主要是适配边缘 AI 设备,比如摄像头、无人机、车载 AI 模块、物联网终端,意思是每秒万亿次操作。
TOPS:包含整数运算 和 浮点运算,适合用来表示边缘设备的轻量 AI 任务,比如图像识别、语音唤醒,不需要需高精度浮点,一般的常用量级是1-100 TOPS。
FLOPS:只计算的是浮点运算,适配云端 / 服务器的复杂 AI 任务。
注意:TOPS 与 TFLOPS不可直接换算,场景不同没有对比意义。
AI 算力的两大核心应用场景
AI 算力的需求完全由场景决定,主要是分为模型训练和模型推理两大环节。
模型训练就是「造模型」,需要集群化的超高 AI 算力。
通过海量的数据调整模型的万亿级权重参数,本质其实是反复的做矩阵乘法和梯度下降,需要持续的超高算力和运算稳定性,单次训练就可能消耗数千亿亿次 FP8/BF16 浮点运算。
常见的算力载体有NVIDIA A100/H100、华为昇腾 910B、谷歌 TPU v5等这些。
模型推理其实就是使用模型,用训练好的模型对新输入的信息做预测,比如聊天机器人回复、图像识别、语音转文字。
模型推理需要高并发的处理能力(高吞吐)和快速的响应速度(低延迟),对设备的算力要求低于训练,但对算力利用率的要求更高;
内存带宽 & 芯片互联:AI 算力的数据流生命线
在 AI 算力体系中,标称算力(比如 H100 FP8 2EFLOPS)只是芯片的一个理论运算能力,内存带宽和芯片互联才是支撑这份能力能不能落地的两大核心数据流基础设施。
AI 训练任务是典型的数据密集型运算,大模型训练 和 推理都需要海量权重数据、特征数据在硬件中高速流转,如果把 AI 芯片的运算单元比作是上千名流水线工人,那么内存带宽就是工厂的原料输送管道,芯片互联就是多个工厂之间的高速货运专线。
管道太细,工人再多也会停工待料;专线不通,多个工厂只能自己生产自己的,没有办法协同完成大订单。
二者的核心作用是解决「数据传输速度跟不上运算单元处理速度」的问题,这在很大程度上决定了 AI 算力的实际利用率,目前行业内大模型训练的算力利用率 在60%-80%,瓶颈几乎都来自内存带宽或者芯片互联。
内存带宽:单颗 AI 芯片的内部数据大动脉
内存带宽是指AI 芯片的运算单元(CUDA 核心 / 张量核心)跟芯片内置内存之间,单位时间内可以传输的数据量,主要是用来衡量单个芯片内部的数据存取速度,而不是内存的存储容量。
可以理解容量是 “仓库的大小”,带宽是 “仓库到车间的输送速度”。
通用的单位是:GB/s(千兆字节 / 秒),AI 高端芯片用TB/s(太字节 / 秒)来表示,1TB/s=1024GB/s。
AI 芯片的核心是数千 / 数万个轻量级并行运算单元,这些单元的运算速度极快,可以达到每秒万亿次的级别,但是每一次运算都需要从内存中读取数据,运算完成后再将结果写回内存。
如果内存带宽不足,运算单元就会出现“停工待料”的情况,运算单元处理完一批数据之后,得等待内存传输下一批数据,这个时候芯片的标称算力再高,实际也只能发挥一部分能力, 这就是所谓的“内存墙”,是 AI 算力利用率的一个核心单芯片瓶颈。
现在普通计算机 / 服务器用的是DDR4/DDR5 内存,带宽大约是 50-100GB/s,但 AI 芯片必须用专用的高带宽内存 HBM(High Bandwidth Memory),核心原因是 DDR 的带宽根本不能匹配 AI 运算单元的处理速度,而 HBM 通过3D 堆叠技术,带宽实现了指数级的一个提升,这也是当前 AI 芯片的标配。
AI 芯片的算力越高,搭配的 HBM 带宽就得越高,算力和带宽是成正相关的关系,主要是为了让运算单元始终有数据可以处理,将芯片算力的利用率最大化。
内存带宽的实操关注要点:
在 选择AI 芯片硬件的时候,不能只看标称算力是多少,必须同步的看内存带宽,关注算力和带宽的匹配比。
如果一个AI 芯片标称是FP8 1EFLOPS,但内存带宽仅 500GB/s,那么带宽肯定严重不足,实际算力利用率大概率低于 30%。
高端 AI 芯片的算力 – 带宽匹配比,目前已经做到1EFLOPS 算力对应 1.5-2TB/s 带宽(H100 2EFLOPS 对应 3.35TB/s),可以说是行业最优水平。
芯片互联:AI 算力集群的外部数据高速路网
芯片互联是指很多颗 AI 芯片之间、多台 AI 服务器之间,甚至是整个算力集群之间的高速数据传输通道和技术体系。
核心是用来衡量算力集群的跨芯片 / 跨服务器的数据同步速度,解决单颗芯片算力不足,需要多芯片协同运算的问题。
AI 场景下的核心作用:让算力集群变成一个统一的超级芯片
大模型的参数量是远远超过单颗 AI 芯片的内存容量和运算能力的,比如 GPT-4 的参数量超 过了1 万亿,单颗 H100 芯片的的 HBM3 内存才 80GB,根本不能容纳整个模型的权重,更没办法单独完成模型训练。
所以就需要将大模型的参数拆分到数千颗 AI 芯片里面,每颗芯片负责一部分参数的运算,但模型的矩阵乘法、梯度下降是一个连续的运算过程,某颗芯片的运算结果会成为另一颗芯片的输入数据,这就要求芯片之间的数传必须做到高速、低时延、无卡顿。
如果互联带宽不足,数据传输太慢,芯片之间的数据传输就会排队,集群的运算速度会被最慢的互联通道给限制住。
如果互联时延过高的话,芯片之间的参数同步不及时,就会出现偏差,直接导致模型训练失败。
目前,全球 AI 算力集群的互联技术主要由英伟达和华为主导,都是专门儿为 AI 集群设计的闭源 或者是开源技术,不同于普通的网络技术,AI算力集群的互联技术能做到算力感知,能根据 AI 运算的数据传输需求动态调整带宽,可以最大化算力集群利用率。
算力三角:运算单元 – 内存带宽 – 芯片互联
AI 算力的实际发挥由运算单元(标称算力)、内存带宽、芯片互联组成的算力三角决定,三者必须要相互匹配,缺一不可:
如果运算单元强,内存带宽弱:那么单颗芯片的算力利用率就会很低,集群再大也没有什么意义;
如果内存带宽强,芯片互联弱:单颗芯片的算力能发挥,但是集群之间不能协同,整体算力是单颗芯片的简单叠加,而不是倍数提升;
如果三者均匹配的话:集群的算力能实现近似线性提升,比如 100 颗芯片的集群,实际算力能达到单颗的 80-90 倍,这才是大模型训练的理想状态。
作者:向上的小霍,现任某厂AI产品经理,公众号:向上的小霍。
本文由 @向上的小霍 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自 Pexels,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!

起点课堂会员权益




