如何设计大规模 AI 系统（上）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

TCC翻译情报局

2025-12-24

0 评论 47 浏览 0 收藏

24 分钟

构建大规模 AI 系统需层层递进：先选对 CPU、GPU、TPU 等计算硬件，搭好分布式架构并优化网络通信，再匹配适配的存储方案；在此基础上，还需掌握优化器选择、正则化、并行训练等高级技术，才能实现模型高效训练与部署。

训练一个机器学习模型，或许在基准数据集上达到最先进的准确率，这是一回事。但将该模型进行部署，让它为数百万用户提供服务、处理数 TB 的数据，并能每周 7 天、每天 24 小时可靠运行，则是截然不同的挑战。

从一开始，机器学习模型的训练和部署的每个环节、每个阶段都需要精心规划和合适的工具。

从早期开发到全面部署构建并运行一个 AI 系统，在这个过程中…

强大的软件开发技能变得至关重要，而这正是许多 AI 工程师所欠缺的。

在本博客中，我们将探讨构建一个能够创建大语言模型（LLMs）、多模态模型及各种其他 AI 产品的大规模 AI 系统所需的每个开发阶段。各开发阶段如何相互关联，以及它们各自的职责。

第一阶段：AI 的系统与硬件

构建大规模 AI 系统的第一步，是选择合适的硬件。这会影响模型的运行速度、成本投入以及能耗情况。

在本部分，我们将探讨市面上不同的硬件系统，以及如何提升其成本效益和能源效率。AI 计算硬件

广泛应用于训练或其他 AI 任务的三种最常见硬件类型如下：

AI 硬件可用性

中央处理器（CPUs）：它们擅长处理多种不同任务，但核心数量相对较少，因此在深度学习或需要大量并行处理的大型 AI 任务中，速度可能较慢。
图形处理器（GPUs）：最初是为处理视频和图形而设计的，如今却成了 AI 领域的宠儿。因为它们的核心数量比 CPU 多得多，这意味着它们可以同时处理大量任务，非常适合训练和运行 AI 模型。
张量处理器（TPUs）：这是谷歌专门为深度学习打造的特殊芯片。它们速度极快、效率超高且能耗较低，非常适合大型复杂的 AI 任务。

但最近，由于对 AI 的需求不断增长，一些新型硬件也相继问世。

现场可编程门阵列（FPGAs）就是一个很好的例子。这些芯片很特别，因为它们可以重新编程以适配不同的 AI 任务。这使你能够根据模型需求灵活微调性能，这在快速变化的 AI 项目中非常有用。
还有专用集成电路（ASICs）。它们不像 CPU 甚至 FPGAs 那样具有通用性。相反，它们专为一件事而设计：尽可能快速高效地运行 AI 模型。由于它们是为诸如驱动神经网络这类特定任务而打造的，所以能耗低且运行速度极快。

在选择硬件时，我们通常会认为不管是数据预处理、微调还是大语言模型（LLM）推理，直接选用 GPU 就一定能提升性能，但这种做法并不总是正确的。

然而，性能在很大程度上取决于…

模型架构 + 基础设施选择

从 AI 架构角度来看，模型量化是一种有效的技术，像 Together AI、Nebius AI 等许多现代开源模型 API 提供商都已在使用。这意味着在计算时减少 AI 模型所采用的细节程度，比如使用更小的数据位宽（例如，用 8 位替代 32 位）。
从基础设施角度而言，云服务和虚拟化常常是最佳解决方案。你无需购买昂贵的硬件，而是可以从亚马逊云服务（AWS）、谷歌云（Google Cloud）或微软云（Azure）等供应商处租用高性能机器。这样一来，你能够依据项目需求灵活地进行资源扩展或缩减，既节省成本又避免浪费

看看谷歌提供的对比图表，它展示了不同模型架构在各类 GPU 上的性能表现。

谷歌在 MLPerf 3.1 基准测试（主要用于衡量系统处理输入的速度）上进行了此项测试。

对于高难度的 AI 任务，配备强大 H100 GPU 的 A3 虚拟机比旧款 A2 虚拟机快得多，速度快 1.7 到 3.9 倍。
如果想在保证一定 AI 性能的同时节省成本，使用 L4 GPU 的 G2 虚拟机是个不错的选择。
测试表明，与类似云服务相比，L4 GPU 每花费一美元可实现高达 1.8 倍的性能提升。

像 Bending Spoons 这样的公司已经在使用 G2 虚拟机，高效地为用户带来新的 AI 功能。

AI 分布式系统

一旦根据需求选定了优化的硬件和模型架构，我们就进入下一阶段，即规划 AI 的分布式系统。

分布式系统的主要原理是…

将一个大任务拆分成多个小部分，让多台计算机同时处理这些小任务。

在 AI 领域，通过分担工作负载，这能够加快数据处理和模型训练速度。

因此，要创建分布式系统，我们需要考虑一些重要因素。我们先从概念上了解，然后再梳理其流程。

在将分布式逻辑应用到 AI 系统中时，我们需要考虑诸多因素。下面来看一下具体流程：

首先，要明确规模。我们处理的数据量是数百、数千还是数百万？尽早了解这一点，有助于我们合理规划系统，确保其能顺利扩展。
接下来，选择合适的工具。根据项目的规模和类型，我们需要合理搭配处理能力、内存和通信方式。云平台能让这一管理过程变得轻松许多。
然后，要确保各部分协同工作。系统的不同部分可能需要并行运行，或者在不同机器上运行。我们的目标是避免出现运行缓慢的情况，保持系统平稳运行。
之后，要保持灵活性。我们应实现资源调整自动化，而非手动操作。像 Kubernetes 这样的工具可以帮助系统根据负载变化自动调整。
我们还需要监控性能。密切关注系统有助于我们尽早发现问题，无论是数据分布不均，还是网络瓶颈。
最后，要确保一切保持同步。随着系统规模的扩大，保证数据和模型在所有部分的一致性至关重要。

网络优化

在确定 AI 系统的分布式架构后，你需要确保所有组件都能正确连接。

各组件之间必须能够顺畅、无故障地相互通信。

若分布式组件无法有效通信，训练代码或生产代码就可能出现问题。

下面来看看如何确保通信顺畅，不出现故障：

我们来详细分析一下：

首先，排查潜在的速度瓶颈。延迟、容量限制或数据丢失会严重影响性能，因此尽早识别这些风险很重要。
接着，减少延迟。为提高速度，我们可采用更快的连接方式、将机器放置得更近，甚至将部分处理任务转移到边缘端。
随后，提升带宽。网络路径狭窄会导致拥堵。我们通过压缩数据、对重要信息进行优先级排序或升级网络来解决这一问题。
之后，选择合适的通信方式。某些协议在处理大量负载方面表现更优。选对协议能确保系统快速高效运行。
我们还要为未来的扩展做好规划。随着系统规模扩大，网络也必须跟上节奏。关键在于采用可按需扩展的灵活架构。
最后，监控网络状况。定期检查有助于我们尽早发现问题。监控工具能在问题导致速度下降前发出警报。

AI 存储解决方案

在确定了用于训练或推理的硬件以及背后的分布式逻辑后，接下来你需要存储来保存训练好的模型，以及用户与 AI 模型交互产生的数据。

我们存储数据的方式不仅要适用于当下，还得能应对未来更多的数据。

我们有三种类型的数据存储系统：

对象存储最适合大数据。在这种存储方式下，你可以不断添加文件，无需担心数据结构。当数据来自多个源头，之后需要整合时，对象存储就非常适用。
文件系统更适合规模较小、结构规整的场景。它就像是你电脑里的文件夹，有助于保持数据规整，在数据量有限且结构良好的情况下最为理想。

而第三种是数据库，当数据具有结构时，数据库很有用。以下是选择合适类型数据库的方法：

关系型数据库（SQL）非常适合规整且相互关联的数据。当数据存在明确的关系，比如用户、订单和产品之间的关系时，就使用关系型数据库。在对准确性和一致性要求较高的复杂任务中，它们表现出色。
非关系型数据库（NoSQL）适用于灵活多变的数据。如果数据无法规整地放入表格，或者增长迅速，像 MongoDB 或 Cassandra 这样的 NoSQL 数据库能提供所需的灵活性和可扩展性。

不过，工具并非唯一重要的因素，如何使用它们同样关键：