AI硬件元年:为什么90%的传统硬件思维都要被推倒重来?

0 评论 571 浏览 1 收藏 9 分钟

AI硬件的落地远比想象中复杂。从云端算力的私有化部署革命,到边缘推理如何通过NPU芯片实现毫秒级响应,再到终端AI的角色定位,本文将用最直白的语言拆解26年硬件元年的底层逻辑。通过三个关键维度的深度剖析,带你穿透技术迷雾看清AI硬件落地的真实路径。

今天终于开始去挖掘一直想研究的AI硬件,心血来潮让Gemini生成了一份《AI硬件行业报告》然后第一个标题就研究了将近40分钟,还没算内容……应该很多人是和我一样的,都知道26年是硬件元年,但却无从下手,基于此我打算做一个AI硬件系类,从基础依赖到最终落地产品进行深度解析,本文将从云端算力、边缘推理、终端AI三个角度初步讲解AI硬件落地的基本依赖。

一、AI硬件落地的核心

AI落地的核心主要依靠三点:云端算力、边缘推理和终端AI,听上去都是很高大上的,包括我也是,对这个三个名词都有很大的误解,所以我会用最简单的话来讲清我的初期思维、探寻中的问题,最后拨云见日后的大白话总结

1. 云端算力

这个名词就不用过多解释了,但是我问AI云端算力的主要作用是什么?

他回答“角色定位: 云端负责**“重体力活”**——深度学习、模型训练、以及处理极其复杂的逻辑请求。它是所有终端AI能够保持“聪明”的根源。”

这时候我的第一个疑惑点就来了:目前我理解的现状很多公司除了一些头部厂商,除了谷歌、火山、字节等企业,其他公司不都是掉API去使用AI的能力吗?

结合AI的回答现在我回答一下我之前的困惑。调用API在24年的环境中是成立的,那个时候AI的自主研发成本是非常高的,但是25年deep seek开源横空出世以后,国内模型大爆发,更多高端企业愿意对开源模型微调私有化部署,面对算力的问题云端肯定是首选,而且云端算力正在通过硬件级的隔离技术,确保“数据可用不可见”,这解决了很多企业不敢上云的最后一道心理防线。

其实我当时还是有个时间上的困惑,调用API和云端不同样需要时间,没办法做到及时的吗?Gemini用了一个很生动的例子:调用API就像是一群人在马路上上一起挤,而私有化就是你的专属道路,只有你一个人。

所以无论是从专项、隐私和时间上云端算力都是硬件落地的一个保障。

2. 边缘推理

这个是我问的最多的一个环节,从是什么→什么功能→落地用什么→落地硬件细节层层剖析 首先边缘推理是什么?我看见这个的第一反应是利用模型在不同的能力边界对事情进行推理,但实际是大NO特NO!

因为一个通用模型的内存是非常大的,我们的硬件是没办法完全承载的,所以就进行“模型压缩”,将模型选择性剔除,只保留核心功能,把模型从100GB砍到2GB,平衡“算力消耗”与“智力表现”,能够部署在硬件上。

那么问题来了为什么要部署到硬件上?这和边缘推理有什么关联呢?可能已经有朋友猜到了,这个”边缘“指的就是模型的边缘能力,也就是核心MVP功能,它部署到硬件上最大的优点就是能在离线状态下进行AI处理。

打个比方,在山区、偏远地方等没有网的地方,现在的手机就是块板砖,但是如果提前缓存视频或者下载单机游戏,那么手机人类最大伟大的发明之一。而且上面也说了因为距离,云端是无法规避延迟这个问题,在无人驾驶领域几百毫秒可能会造成很大的问题,更何况云端返回呢?边缘推理就完美解决了这个问题,边缘推理不是为了“砍功能”,而是为了实现“低延迟、高隐私、断网可用”的闭环。在自动驾驶或工业制造中,延迟从数百毫秒降至几十毫秒,往往就是安全与事故的分界线。

现在知道了什么是边缘推理、他有什么用,但它是如何落地的呢?这就不得不提到和算力相关的CPU了,边缘推理的核心载体是他的孪生兄弟NPU。NPU和CPU的核心区别在于CPU是什么都要管,而NPU只负责它承载的MVP专项功能(比如说:人脸解锁、语音唤醒和拍照补光等)

目前的NPU的落地情况是将多个专项功能聚集到一个NPU芯片上,在这个NPU上有多个“虚拟通道”,在处理任务的时候“微控制器”会针对不同优先级分配算力,完成任务。可能有点抽象,用一个形象的例子,NPU就是一个大型的生产车间,每个专项都是不同的业务流程,其中有X(算力)个全能员工,微控制器就会根据优先级去分配这些员工负责什么流程。当任务比较多比较重的时候,NPU本地缓存不足以支撑大规模张量运算的时,员工不够用了就要向外借员工,需要频繁与内存(DRAM)交换数据,这会导致“访存延迟”,宏观表现就是硬件卡顿

综合下来边缘推理就是一个功能存储库,能够本地去执行已有的专项功能,但是执行的速度首先于硬件(NPU)的内存空间。2026年的硬件趋势是“大内存”(例如手机起步12GB/16GB),因为NPU算力再强,如果搬运数据的“带宽”不够(路太窄),员工还是会干等着没活干。

3. 终端AI

终端AI实际上负责的就是输入/输出和执行,当下发任务后终端AI负责将信息传到NPU和云端上,NPU和云端进行内容信息处理,最后返回终端AI输出完成整套闭环

所以整体总结下来大家应该对AI硬件的依赖有所了解了,我用一个更形象的比方让大家更清晰一点。终端AI相当于手和脚,负责接受和执行工作;云端算力相当于人的“大脑”能够深度思考任务,但是会有点延迟;边缘推理(NPU)相当于人的脊椎,是整个身体的关键部分,有初级的神经系统,能够撑起整个身体的站立!当用户问“明天天气”时,终端AI直接通过边缘推理秒回;当用户问“帮我写一份详细的商业计划书”时,终端AI会自动判断算力不足,将其通过加密通道“外包”给云端大脑。,就像一个精明的经理,小事自己随口定(边缘),大事写报告请示董事长(云端)。

本文由 @cheninx 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!