一文讲透AI的三大核心要素之一：算力

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

一文讲透AI的三大核心要素之一：算力

向上的小霍

2026-01-28

0 评论 875 浏览 1 收藏

13 分钟

算力作为AI发展的三大支柱之一，远不止简单的硬件堆砌。本文深度解析AI算力的本质——从FLOPS到TOPS的单位差异，到内存带宽与芯片互联构成的『数据生命线』，揭示大模型训练背后那些被忽视的算力三角关系。你将理解为什么标称算力只是冰山一角，以及如何评估真实的AI算力效能。

算力、算法和数据是推动人工智能发展的三大核心要素，尤其是算力，更是经常被提到，但是算力到底是什么？

不是显卡，也不是芯片。

那么什么是算力？

广义上来说，算力是指用来计算的设备在单位时间内处理信息的能力。

在AI领域中，算力这个这个概念被进一步聚焦为执行特定类型的计算任务的速度和效率，主要是指大规模的线性代数运算。

AI算力不仅仅是单个芯片的理论峰值性能，更是一个涵盖了硬件架构、软件堆栈、数据传输和算法效率的综合系统能力的体现，是支撑大模型训练、推理、计算机视觉、语音识别等所有 AI 场景的核心基础设施。

AI 算力的核心围绕大模型、深度学习来展开，所有的设计都服务于用更低的精度、更高的并行度，来完成海量的 AI 特型运算。

注意：精度是 AI 算力的前提，没有精度标注的算力没有任何的实际意义。

算力单位-FLOPS

什么是FLOPS？

FLOPS（Floating Point Operations Per Second），也叫每秒浮点运算次数，是AI算力最核心、最通用的一个单位。

神经网络的权重、激活值、梯度等核心数据本质上都是包含小数儿的实数，都得通过浮点数进行精确表示和计算。

什么是浮点运算？

浮点运算（Floating-Point Arithmetic）是计算机中用于处理非整数（含小数、极大 / 极小值整数）的数值计算方式，核心是通过 “科学计数法” 的这种思路，用有限的二进制位数表示范围更广的数值，来解决整数运算没有办法处理的小数或极端数值的问题。

简单来说，就是把一个数拆成两部分存储和计算：

尾数（Mantissa）：类似科学计数法里的 “有效数字”，决定数值的精度，比如 1.234×10³ 中的 “1.234；

指数（Exponent）：类似科学计数法里的 “10 的幂次”，决定数值的范围，比如 1.234×10³ 中的 “3”。

FLOPS单位层级

AI算力

AI 算力侧重张量 / 矩阵运算，需要结合着精度（FP32/FP16/FP8/INT4）来区分。

同样的一款 AI 芯片，精度越低，算力越高，因为可以通过牺牲少量的精度，来换取更高的运算速度。

算力单位-TOPS

TOPS这个单位，主要是适配边缘 AI 设备，比如摄像头、无人机、车载 AI 模块、物联网终端，意思是每秒万亿次操作。

TOPS：包含整数运算和浮点运算，适合用来表示边缘设备的轻量 AI 任务，比如图像识别、语音唤醒，不需要需高精度浮点，一般的常用量级是1-100 TOPS。

FLOPS：只计算的是浮点运算，适配云端 / 服务器的复杂 AI 任务。

注意：TOPS 与 TFLOPS不可直接换算，场景不同没有对比意义。

AI 算力的两大核心应用场景

AI 算力的需求完全由场景决定，主要是分为模型训练和模型推理两大环节。

模型训练就是「造模型」，需要集群化的超高 AI 算力。

通过海量的数据调整模型的万亿级权重参数，本质其实是反复的做矩阵乘法和梯度下降，需要持续的超高算力和运算稳定性，单次训练就可能消耗数千亿亿次 FP8/BF16 浮点运算。

常见的算力载体有NVIDIA A100/H100、华为昇腾 910B、谷歌 TPU v5等这些。

模型推理其实就是使用模型，用训练好的模型对新输入的信息做预测，比如聊天机器人回复、图像识别、语音转文字。

模型推理需要高并发的处理能力（高吞吐）和快速的响应速度（低延迟），对设备的算力要求低于训练，但对算力利用率的要求更高；

内存带宽 & 芯片互联：AI 算力的数据流生命线

在 AI 算力体系中，标称算力（比如 H100 FP8 2EFLOPS）只是芯片的一个理论运算能力，内存带宽和芯片互联才是支撑这份能力能不能落地的两大核心数据流基础设施。

AI 训练任务是典型的数据密集型运算，大模型训练和推理都需要海量权重数据、特征数据在硬件中高速流转，如果把 AI 芯片的运算单元比作是上千名流水线工人，那么内存带宽就是工厂的原料输送管道，芯片互联就是多个工厂之间的高速货运专线。

管道太细，工人再多也会停工待料；专线不通，多个工厂只能自己生产自己的，没有办法协同完成大订单。

二者的核心作用是解决「数据传输速度跟不上运算单元处理速度」的问题，这在很大程度上决定了 AI 算力的实际利用率，目前行业内大模型训练的算力利用率在60%-80%，瓶颈几乎都来自内存带宽或者芯片互联。

内存带宽：单颗 AI 芯片的内部数据大动脉

内存带宽是指AI 芯片的运算单元（CUDA 核心 / 张量核心）跟芯片内置内存之间，单位时间内可以传输的数据量，主要是用来衡量单个芯片内部的数据存取速度，而不是内存的存储容量。

可以理解容量是 “仓库的大小”，带宽是 “仓库到车间的输送速度”。

通用的单位是：GB/s（千兆字节 / 秒），AI 高端芯片用TB/s（太字节 / 秒）来表示，1TB/s=1024GB/s。

AI 芯片的核心是数千 / 数万个轻量级并行运算单元，这些单元的运算速度极快，可以达到每秒万亿次的级别，但是每一次运算都需要从内存中读取数据，运算完成后再将结果写回内存。

如果内存带宽不足，运算单元就会出现“停工待料”的情况，运算单元处理完一批数据之后，得等待内存传输下一批数据，这个时候芯片的标称算力再高，实际也只能发挥一部分能力，这就是所谓的“内存墙”，是 AI 算力利用率的一个核心单芯片瓶颈。

现在普通计算机 / 服务器用的是DDR4/DDR5 内存，带宽大约是 50-100GB/s，但 AI 芯片必须用专用的高带宽内存 HBM（High Bandwidth Memory），核心原因是 DDR 的带宽根本不能匹配 AI 运算单元的处理速度，而 HBM 通过3D 堆叠技术，带宽实现了指数级的一个提升，这也是当前 AI 芯片的标配。

AI 芯片的算力越高，搭配的 HBM 带宽就得越高，算力和带宽是成正相关的关系，主要是为了让运算单元始终有数据可以处理，将芯片算力的利用率最大化。