从“级联系统”到“原始多模态”，大模型的架构演进与商业仓储

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从“级联系统”到“原始多模态”，大模型的架构演进与商业仓储

葡萄学AI

2026-05-27

0 评论 1261 浏览 1 收藏

7 分钟

从级联系统到原生多模态，AI技术正在经历一场深刻的架构革命。本文揭示了传统'拼凑式'系统的致命缺陷，并深度解析了统一特征空间如何实现音视图文的'车同轨'处理。更值得关注的是，这种技术突破正在ToB/ToG场景中催生惊人的商业价值——从智慧城市的危机响应到物业管理的SOP闭环，多模态大模型正在将复杂业务流程压缩至秒级完成。

1. 过去的妥协：“拼凑式”系统与昂贵的“内部成本交易”

在最初的多模态出现之前，行业内普遍采用的是级联系统（Pipeline System）。从工程架构的角度看，这本质上是一个由多个单点模型拼接完成的流程：

听：使用ASR（语音识别）模型将用户的音频转化为文本。
想：将文本输入给LLM（大语言模型）生成文字回复。
说：调用TTS（语音合成）模型将回复转化为语音播报。

视角经济学的痛点：这种架构带来了极高的系统“交易成本”。模型之间的每次“交接棒”都会产生严重的信息丢失——用户的语气、情绪、叹息声乃至背景环境音，在转译为纯文本的瞬间就彻底丢失了。另外，累，三个模型网络带来的加时延（Latency）极高，导致系统根本无法像真人一样进行低冗余的打断与无缝交互。

2. 简单革新：“本质”架构与统一特征空间

新一代模型的形象点，采用了原有的多模态（Native Multimodal）架构。它打破了模型间的垒壁，用一个超级神经网络直接动画处理声、图、文。

其核心秘诀在于“万物皆可Token化”与构建“统一特征空间”：

视觉的数字化（Visual Token）：将高分辨率的图像切分为极小的区块（补丁），提取其中的像素特征并压缩为高维数字矩阵。就像把一块巨大的拼图拆解成标准化的图块。
音频的数字化（Audio Token）：提取声学特征（如频率、振幅等波形数据），切成极短的时间切片，进而转化为数字。就像把一盘磁带剪成无数微小的截断。
文本的数字化（Text Token）：纪念我们曾经的机制，将词根映射为数字。

一旦进入了模型内部，无论输入图像的、音频还是文本，都实现了“车同轨，书同文”。模型在同一个高维空间内处理这些Token，能够深刻理解“狗的叫声”、“狗的图片”和“狗”这个字之间的多维映射，从而实现了情绪复杂关系输出。

3. 商业增量：复杂ToB/ToG场景下的SOP闭环

理解了基础架构，当我们把目光投向复杂的业务时，采用多模态技术将传统业务流场景形成预期的降维打击。

在跨省级的智慧城市或智慧社区等面对大型ToG项目时，传统的单模态系统往往缩放力不从心。监控室的画面、居民的投诉录音、前序的报修单通常分散在三个隔离视频的系统中，最终依赖人工去汇总、比对和研判，不但响应迟缓，边际管理成本也居高不下。

引入多模态大模型后，我们能够将强大的感知能力提炼为系统自动执行的“If-Then”条件规则反射，构建出高度标准化的服务闭环：

源多数据的瞬间聚合：摄像头捕捉到的异常画面（视觉Token）、麦克风阵列记录到的异响（音频Token），以及前序沉淀的文本记录，在模型内部进行数十级的交叉验证。
自动化SOP的精准执行：一旦确认危机等级，系统可跳过人工流转，直接触发SOP。例如，一键完成智能工单分类并派发给对应的物业管理组；同时，瞬间联动云通信短信业务线，向所需的万长尾客户精准下发疏散或预警短信；甚至可以直接通过语音网关自动接急救电话。

这不仅是IT维度的效率提升，更是利用系统化思维，将复杂的跨部门业务流转成本无限趋近于零。

4. 知识架构拓展：产品经理的新护城河

多模态的引入让AI产品的设计变得更加立体，也带来了全新的工程挑战，这构成了产品经理必须掌握的新框架：

重估Token经济学：和音频的Token消耗量是庞大的（一张高清图片可能会消耗上千个Token）。在产品设计时，如何巧妙压缩图片解析度、如何精准抽取关键视频帧，成为控制输入成本的新必修课。

重写时延（Latency）规则：由于省去了ASR和TTS的中间“翻译”时间，面对用户的语音交互，原始多模态的TTFT（首字响应时间）突破了极限，达到了200-300毫秒的真人级别。
突破尺度法则的数据墙：互联网上高质量的人类文本数据即将见顶。海量的物理世界传感器数据、音视频流媒体，正成为驱动大模型继续演进的新燃料。
管理幻觉（Hallucination）的新变种： AI现在不仅会“胡言乱语”，还会“眼花”（错误识别图像细节）和“幻听”。这就要求我们在产品的护栏系统（Guardrails）中，针对视觉和音频输出增加更加严密的二次审核机制。

本文由 @葡萄学AI 原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App