黄仁勋:AI Infra 将建设十年,Agent 才刚刚开始进入生产系统

0 评论 154 浏览 0 收藏 14 分钟

NVIDIA与戴尔的战略合作正在重新定义AI基础设施产业格局。从生成式AI到Agentic AI的转变,不仅推动GPU与CPU需求激增,更催生了包含长期记忆系统、安全容器在内的全栈解决方案。本文深度剖析黄仁勋提出的'数字员工'愿景如何引发算力产业链重构,以及中美技术博弈下的供应链挑战。

上周,黄仁勋作为美国科技企业代表之一随行抵达北京。同行名单里,包括 Elon Musk、Tim Cook 等美国科技公司负责人,而黄仁勋则几乎成为其中最特殊的存在。

就在访华前几天,美国刚刚批准 H200 向部分中国科技公司销售,但真正的订单与落地仍然复杂。

中国希望发展本土 AI 基础设施,美国则希望继续保持 AI 技术领先,NVIDIA 则站在整个全球 AI 产业链最中间的位置。

回到美国,黄仁勋便与戴尔 CEO Michael Dell 在拉斯维加斯参加了一场对话,讨论全球企业正在如何进入 AI 基础设施建设周期,AI 正在从“生成内容”,走向“完成工作”。

在黄仁勋看来,未来的 AI 已经不只是“生成内容”,而是“完成工作”。数十亿个 Agent 会像数字员工一样 7×24 小时运行,持续调用工具、访问系统并执行任务,而这背后需要的是远超今天规模的 GPU、CPU、HBM 内存、网络、电力以及 AI 工厂。

Agent 开始进入企业生产系统

戴尔上个季度新增了 1000 家 AI 服务器客户,总数达到 5000 家。相比客户数量本身,更重要的变化是,企业部署 AI 的方式已经发生明显切换。

礼来已经部署了 1000 块 GPU,三星则开始将 AI 应用于现实世界中的物理系统。大型企业开始把 AI 深度嵌入研发、制造、运营与实际业务流程。AI 也开始从屏幕里的工具,进入现实产业本身。

“真正巨大的机会,还在企业市场。” 在 Michael Dell 看来,这轮 AI 浪潮远没有结束。越来越多企业开始意识到,AI 带来的是可能达到 10 倍、20 倍甚至 100 倍的工作流重构。很多公司已经开始重新思考整个组织流程,而不是简单增加一个 AI 功能模块。

这种变化,也正在重新定义整个 AI 基础设施产业。

AI 基础设施最初主要由超大规模云厂商驱动,大量 GPU 被部署在云数据中心里,服务模型训练与互联网推理需求。但现在,越来越多企业开始倾向于本地化部署 AI 系统,因为真正有价值的数据、内部知识、安全信息以及业务流程,大量都掌握在企业自己的环境中。

对于消费互联网场景而言,AI 可以运行在云端;但对于制药、制造业、工业、医疗以及金融行业来说,智能必须在“上下文发生的地方”生成和执行。因为行动发生在哪里,数据在哪里,Agent 就必须运行在哪里。

这也是 Agentic AI 与生成式 AI 最大的区别。ChatGPT 开启了生成式 AI 时代,让大模型具备了生成内容的能力,但企业真正需要的是能够持续完成工作的 AI 系统。

“生成内容很重要,但完成生产性工作才真正有价值。”

在黄仁勋的定义里,大语言模型更像“大脑”,但只有大脑并不足以形成真正的 Agent。模型需要被接入工具系统、企业数据、长期记忆以及网络环境,才能真正完成任务。黄仁勋把这一层称为 Harness,本质上就是给大模型套上一套“缰绳”,让它具备调用现实世界资源的能力。

整个架构也因此开始变化。GPU 继续承担推理与“大脑”角色,而 CPU 则开始承担 Agent Runtime 本身的运行任务。NVIDIA 推出的 Vera CPU,就是专门围绕 Agentic AI 设计,用于支持 Agent 的运行、工具调用与内存访问。

与此同时,长期记忆系统、AI Data Platform、扩展网络以及受治理的安全容器系统,也开始成为新的基础设施组成部分。戴尔与 NVIDIA 正在尝试把这些能力整合成完整企业解决方案,而不再只是单独销售服务器或 GPU。

过去,超大规模云厂商负责将 NVIDIA 的技术转化成云服务;现在,戴尔正在尝试将这些能力进一步转化成企业能够直接部署的 AI 系统。未来大量传统企业、中型市场以及工业客户会直接采购包含 Agent、大模型、长期记忆、网络以及 Runtime 的整体方案。

“戴尔未来为企业所做的事情,本质上就是云厂商过去为云计算所做的事情。”

数十亿 Agent 将重写算力需求

Michael Dell 提到,现在越来越多企业开始在内部部署 Agent Framework,而一旦 Agent 真正进入工作流,CPU 的消耗会迅速增加。因为 GPU 更像“大脑”,负责推理与生成;真正负责运行 Agent、调用工具、访问系统、执行任务的,其实是大量 CPU 系统。

这种变化,本质上意味着 AI 的运行模式已经开始改变。过去,人类只是偶尔使用工具;未来,将是 Agent 高频、持续、自动化地调用工具。它们会不断访问数据库、搜索系统、长期记忆以及企业内部软件,并持续执行任务。

“未来会有数百亿个 Agent,它们会 7×24 小时工作。” 黄仁勋认为,今天很多人仍然低估了 Agentic AI 对基础设施的真实消耗。每一个 Agent 都需要自己的计算资源、存储资源以及网络资源,就像今天每个知识工作者都会拥有一台电脑和一部分数据中心资源一样。

而当“数字工人”数量从数亿扩展到数十亿时,整个算力产业的需求结构都会被彻底改变。大量 CPU 会与 GPU 相连接,由 GPU 提供推理与“大脑”能力,而 CPU 则负责 Agent Runtime、任务调度、工具调用以及工作流执行。Agent 数量越多,CPU 消耗就越大。

当前,内存与先进制程开始成为整个产业链最大的瓶颈之一。Michael Dell 直言,目前最明显的问题就是内存供给仍然紧张,先进制程半导体也依然供不应求。虽然整个半导体供应链都在扩产,但需求增长速度仍然快于供给爬坡速度。

黄仁勋则进一步解释,现在 NVIDIA 在提供一整套集成系统,因此整个供应链必须提前数年同步规划。从 CoWoS 封装、HBM 内存,到 Grace Blackwell、CPU、硅光网络以及各种先进封装技术,所有组件都必须彼此匹配。

这意味着,AI 基础设施需要整个系统级供应链协同。HBM 必须与 GPU 节奏同步,CoWoS 需要与 HBM 匹配,硅光网络也需要提前准备。任何一个环节无法扩产,都会成为整个 AI 系统的瓶颈。

传统教科书里,内存一直是典型周期行业,繁荣与衰退反复循环。但黄仁勋认为,这轮 AI 周期的底层逻辑已经不同。过去,内存需求主要来自 PC、手机或传统服务器,而现在,AI 正在创造一种全新的长期需求。

过去几年,NVIDIA 已经开始提前向供应链传递未来需求预期,包括美光与 SK 海力士等核心内存厂商。几年前讨论的路线图,如今正在逐渐变成现实。整个 AI 基础设施建设,也因此越来越像一次长期工业化扩张。

上游需要建设晶圆厂、封装厂、HBM 产能以及硅光网络;下游则需要同步建设数据中心、电力系统、土地以及 AI 工厂,Agentic AI 会是一种新的生产系统。

而这一切背后,需要的是远超今天规模的计算、内存、存储与网络系统。即便 NVIDIA、戴尔以及整个供应链已经提前几年开始准备,这种需求增长仍然很难准确预测。因为从 2023 年去预测 2027 年的 AI 基础设施需求,本身就是一件极其困难的事情。

AI Infra 建设才刚刚开始

过去两年,美国持续收紧先进 AI 芯片出口限制,中国则不断推动本土 AI 产业链建设。在这种背景下,H200 能否销售、销售给哪些客户,以及未来市场是否会进一步开放,已经逐渐演变成全球 AI 产业链重新分工的一部分。

黄仁勋提到,目前 H200 已经获得许可,可以向中国销售。但关键的问题是未来中国会在多大程度上继续开放 AI 基础设施市场。

在他的观察里,中国对于 AI 的需求同样惊人,尤其是 Agentic AI 的发展速度非常快。越来越多企业开始意识到 AI 是下一代生产系统,因此对于 GPU、数据中心以及本地 AI 基础设施的需求正在迅速扩大。

与此同时,中国也在推进本土 AI 产业链,包括芯片、服务器、数据中心以及模型生态建设。全球 AI 产业正在进入一种更复杂的状态:一边是本土化与供应链自主化,另一边则是全球 AI 基础设施需求仍然高度依赖 NVIDIA。

过去几年,台积电已经成为整个 AI 基础设施扩张中最关键的制造节点。从先进制程到 CoWoS 封装,再到 AI GPU 的量产能力,台湾供应链实际上支撑着全球 AI 基础设施扩张速度。

黄仁勋认为,台湾仍然会继续是全球技术制造中心之一,而美国也正在推进制造业回流,建设更多晶圆厂、封装厂以及 AI 工厂。但即便如此,全球供应链仍然需要高度协同。

先进 GPU 需要先进封装,先进封装需要 HBM 内存,HBM 又需要与数据中心、电力系统以及网络能力同步扩张。

另一个变化也开始出现:AI 正在重新定义 PC。过去几年,市场更多讨论的是 AI 数据中心、超级计算机与 GPU 集群。

Michael Dell 认为,PC 仍然是知识工作者最核心的生产力设备,只是它正在进入 AI 化阶段。越来越多客户开始希望 PC 本身能够运行小型模型与本地模型,完成混合 AI 任务。

AI PC 背后其实也是一次新的硬件升级周期。更强的 CPU、更大的内存、更高带宽以及本地模型运行能力,都会推动企业与个人重新升级终端设备。

今天整个行业甚至还没有真正进入 AI 建设的主体阶段。Agentic AI 只是第一步,未来数字 Agent 还会进一步变成 Physical AI,也就是物理世界中的机器人、自动化制造系统以及现实世界里的智能设备。

“我们将建设十年,甚至更久。”

本文由人人都是产品经理作者【江天 Tim】,微信公众号:【有新Newin】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!