大模型ASR
从传统ASR到端到端大模型,语音识别技术正在经历一场架构革命。本文深入解析两种技术路线的核心差异,揭示大模型ASR在语言理解、多任务处理上的突破性优势,同时指出实时性与部署成本仍是传统方案的护城河。更值得关注的是,行业已悄然走向混合架构——轻量级前端保障实时响应,LLM后端负责语义优化,这种取长补短的模式正在腾讯、字节等头部产品中落地实践。

架构层面的本质差异
传统 ASR 是一个典型的多模块 pipeline 系统:前端信号处理 → 特征提取(MFCC/FBank)→ 声学模型(GMM-HMM → DNN-HMM → LSTM/Conformer)→ 语言模型(n-gram)→ 解码器(WFST beam search)。每个模块独立训练、独立优化,工程上非常成熟但也非常复杂。
大模型 ASR 走的是端到端路线,大致分两种思路:
第一种是 Encoder-Decoder 端到端,比如 Whisper、FireRedASR-AED。用一个大的 Speech Encoder 直接把音频编码,再用 Decoder 自回归生成文本。模型够大、数据够多,就能把声学建模和语言建模”隐式地”合并在一个模型里。
第二种是 Speech Encoder + LLM,比如 Seed-ASR、FireRedASR-LLM、Qwen-Audio。把语音编码器的输出通过 adapter/converter 映射到 LLM 的文本空间,让 LLM 来”理解”语音。这条路线本质上是借用了 LLM 强大的语言理解和上下文推理能力来做 ASR 的后端。
大模型 ASR 的核心优势
语言理解能力质变。 传统 ASR 的语言模型大多是 n-gram 或浅层 RNN,上下文窗口有限,碰到同音字歧义、专业术语、口语化表达的时候容易出错。大模型天然具备长上下文理解能力,能根据前后文自动纠错。举个例子,”他在银行工作”和”河的两岸是银行”,传统 ASR 可能两个都输出”银行”但无法区分含义,大模型 ASR 能通过上下文语义自动处理这类歧义。
泛化能力和鲁棒性。 Whisper 用 68 万小时多语言弱监督数据训练,不需要针对特定领域微调就能在多种场景下表现不错。传统 ASR 换一个场景(比如从客服切换到医疗),通常需要重新收集数据、调整语言模型、更新热词表,工程成本很高。
多任务统一。 大模型 ASR 可以在一个模型里同时完成语音识别、语种识别、情感识别、时间戳标注、语音翻译等多个任务。传统方案每个任务要单独建模型、单独维护。
文本后处理自然融合。 传统 ASR 输出的是”生文本”(没有标点、没有分段、口语化),需要额外加逆文本正则化(ITN)和标点恢复模块。大模型 ASR 可以在生成过程中直接输出规范化的、带标点的书面文本,腾讯智聆用 LLM 做口语到书面语的转换就是这个思路。
传统 ASR 仍然不可替代的地方
实时性和延迟。 这是传统方案最大的护城河。传统流式 ASR(比如基于 CTC 或 Transducer 的模型)可以做到几十毫秒级别的首字延迟,边说边出字。大模型 ASR 大多是非流式的——需要等整段语音说完才能开始推理,而且自回归解码本身就慢。在实时通话、直播字幕、语音助手这类场景,延迟是硬指标,大模型目前还很难满足。
部署成本和推理效率。 一个 Whisper Large-V3 就是 1.5B 参数,FireRedASR-LLM 用的 LLM 更大。对比之下,传统 Conformer CTC 模型可能只有几十 M 到几百 M 参数,推理速度快一个数量级,部署在端侧或低算力服务器上毫无压力。对于日调用量百亿次的微信这种场景,推理成本是核心考量。
可控性和可调试性。 传统 pipeline 里每个模块职责清晰——如果某个词识别错了,可以定位到是声学模型的问题还是语言模型的问题,可以通过加热词、调语言模型权重来快速修复。大模型是个黑盒,出了 badcase 很难针对性修复,只能靠加数据重新训练或者做 SFT。
流式场景的工程成熟度。 传统的 WFST 解码、Transducer 架构在流式识别上已经非常成熟,工业界积累了大量工程经验。大模型的流式方案目前还处于研究阶段,离大规模工业落地有距离。
我的判断:当前行业正在走向”混合架构”
现在工业界最务实的做法其实不是二选一,而是取两者之长:
- 前端用轻量级流式模型(Conformer-CTC/Transducer)先出一版初步识别结果,保证实时性。
- 后端用 LLM 做二次纠错和文本优化,处理同音字歧义、添加标点、口语转书面语、术语修正等。
腾讯智聆的大模型升级本质上就是这个思路——ASR 引擎本身还是传统架构保持高效,但在预训练阶段融入了 LLM 做上下文预测增强。字节的 Seed-ASR 也是用 SFT 和 RL 来让 LLM 学习语音理解,但核心 Encoder 仍然是独立的语音编码器。
大模型不是来替代传统 ASR 的,而是来补短板的”,尤其是在数据标注层面——大模型 ASR 时代的标注需求从”纯转写标注”扩展到了”SFT 对齐数据构建”、”偏好对(PR pair)数据构建”、”多任务联合标注”这些新方向
本文由 @卜小 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




