ClaudeCode 的 172 个应用场景(3):音视频与语音处理
语音和视频中潜藏着大量高价值信息,却往往因难以处理而沦为沉默资产。Claude Code 的音视频处理功能将彻底改变这一局面——从客户录音到播客内容,5 大场景精准解决转写、结构化与复用难题。本文将深度解析如何把声音资料转化为可检索、可执行的文字资产,让每段对话都成为业务推进的利器。

前两篇讲的是内容创作,以及内容抓取与素材处理。
这两类信息,大多数还是文字:公众号文章、网页、GitHub、报告、小红书评论、知识库文件。
但真实工作里,还有很多高价值信息不是文字,而是藏在音频和视频里。比如客户沟通录音、飞书妙记、播客、抖音视频、本地课程视频、会议录屏。
这些内容如果不处理,基本就会沉掉。你可能当时听懂了,但过几天就忘了;你知道里面有价值,但很难搜索;你想复盘客户沟通,但没有逐字稿;你想把播客内容变成文章素材,但重新听一遍成本太高。
所以第三篇,我想讲 Claude Code 的第三大类应用:音视频与语音处理。
这部分一共 5 个场景:
1)客户沟通录音/视频转文本 + 结构化沟通总结
2)飞书妙记 / 会议视频 + 完整转录文本下载
3)小宇宙 / 播客下载 + 转写 + 结构化总结
4)抖音视频下载 → 语音转文本 → 结构化总结
5)本地视频/语音口播识别 + 内容总结
它解决的核心问题是:怎么把声音和视频里的信息,变成可检索、可总结、可复盘、可复用的文字资产。
1. 客户沟通录音/视频转文本 + 结构化沟通总结
这是我在音视频处理里用得最多的场景。
原来每次和客户、合作方、合伙人沟通完,如果想复盘,只能靠记忆,或者重新听录音。问题是录音一长,就很难重听。尤其是 30 分钟、1 小时、2 小时的沟通,人工听第二遍非常耗时间。
更麻烦的是,客户沟通里有很多隐含信息。比如对方有没有预算,谁是真正决策人,是不是已经找过别人,需求是真的痛还是随口问问,项目有没有合规风险,对方说的某句话是不是在压价。
这些东西如果不及时整理,很容易漏掉。
现在我会把录音或视频直接丢给 Claude Code 处理。
输入是:一个 m4a、mp4、aac、qta 之类的音视频文件,可能是几分钟,也可能是几个小时。
Claude Code 会先用 ffmpeg 把音视频提成适合识别的音频格式,比如 16kHz 单声道 WAV,再调用 doubao-asr 做语音识别。转写完成之后,它不会只给我一份逐字稿,而是继续结合业务背景做结构化总结。
输出通常有两部分。
第一部分是完整转写稿,保存成 {文件名}_transcript.md,以后可以检索、回看、引用。
第二部分是结构化沟通总结,包括客户背景、业务痛点、需求拆解、预算工期、客户画像、成交概率、红黄灯风险和下一步待办。
比如一次客户电话里,对方可能说了很多零散信息:公司是什么行业,最近为什么想做 AI,之前尝试过什么,内部谁推动,老板关心什么,预算大概怎么想,什么时候要结果。Claude Code 会把这些散乱内容整理成一份更像 CRM 记录的东西。
这里真正省心的地方是:它不是简单转文字,而是把一段散乱对话翻译成可执行的业务信息。
有些录音里,客户可能会提到课酬、股权、报价锚点、决策权、合规边界。这些信息如果只靠人工听,很容易漏。Claude Code 会在总结里把这些关键信号显性化。
比如:
– 对方有没有明确预算
– 当前沟通对象有没有决策权
– 客户是不是在压价
– 项目是不是有合规风险
– 下一步应该补什么材料
– 这条线索值不值得继续推进
这类总结对售前、咨询、培训、项目交付都很有用。因为客户沟通不是聊完就结束,后面还要报价、写方案、判断优先级、分配任务。没有文字稿和结构化总结,很多判断只能靠记忆。
另外,语音识别会有术语错误。比如 Claude 被识别成 cloud,客户名、工具名、行业词也可能错。Claude Code 可以结合上下文做一轮术语纠错,把明显错误修掉,让转写稿更适合后续检索和归档。
2. 飞书妙记 / 会议视频 + 完整转录文本下载
飞书妙记也是我经常会处理的一类内容。
原来飞书妙记里有视频、有字幕、有会议记录,但不一定方便下载。有时候能在线播放,但没有下载权限;能看转录,但不方便复制;视频很大,普通下载也容易中断。
如果只是在线看,后面要复盘、剪辑、转写、总结,都不方便。
现在我会让 Claude Code 通过浏览器登录态去处理飞书妙记。
输入是:一个飞书妙记链接,或者会议视频链接。
输出是:本地 MP4 视频、完整转录文本 TXT,以及原始 WebVTT 字幕文件。
Claude Code 会先打开飞书妙记页面,借用我已经登录的 Chrome 状态,找到页面里的视频地址和字幕接口。有些大文件不能直接用普通方式下载,它会通过浏览器里的 fetch 或本地 Python 服务,把视频流式保存到本地,避免下载中断或超时。
这件事的价值是:飞书妙记不再只是一个在线链接,而是变成本地可控资料。
比如一场企业培训、一场客户会议、一段我自己的课程录像,拿到本地视频和完整文字稿之后,后面就可以继续做很多事情:总结培训内容、提炼客户问题、复盘课程效果、补充 PPT、整理文章素材。
原来这些内容只是“有一段录像”。现在它变成了“有视频、有字幕、有逐字稿、有可继续加工的文本”。
对做培训和咨询的人来说,这个场景很实用。因为很多真实信息不在正式文档里,而是在会议和课堂里。只要能把这些内容拿下来,后面就能进入自己的知识库和业务流程。
3. 小宇宙 / 播客下载 + 转写 + 结构化总结
播客是一个很好的信息源。
很多访谈、行业讨论、创业经验、AI 工具分享,都会先出现在播客里。但播客最大的问题是不好复用。听的时候觉得有启发,听完过几天就只剩一个模糊印象。想引用某个观点,还得重新找那一期、重新听。
如果是批量处理,比如一次想下载 10 集、20 集播客,人工下载、转写、总结就更麻烦。
现在我会把小宇宙链接交给 Claude Code 处理。
输入是:一个小宇宙单集链接,或者一批播客链接。
输出是:音频文件、转写文本、结构化总结。总结里通常会包括节目名、嘉宾、核心话题、深度摘要、关键观点、金句、对我业务的启发,以及可以写成文章的选题。
如果是批量播客,Claude Code 可以写脚本后台下载多集,再依次转写和整理。比如一批 18 到 23 集播客,音频体积可能有 1 到 2GB,手工处理会非常麻烦,但用脚本跑起来就能批量完成。
这件事省心的地方是:播客从“听过就算”,变成了“可检索的知识资产”。
一小时播客,可以先转成几万字文字稿,再压缩成几屏摘要。后面写文章、做课程、准备客户沟通时,都可以重新调用。
比如某一期播客里讲 AI 产品、组织转型、知识管理、个人效率,我可以让 Claude Code 按主题拆出来:哪些适合写公众号,哪些适合放进培训课件,哪些适合做客户沟通素材。
这一步的重点不是“下载播客”,而是把播客变成可复用素材。
4. 抖音视频下载 → 语音转文本 → 结构化总结
短视频里也有很多可用素材。
比如行业观点、案例分享、产品介绍、达人口播、AI 工具演示。有些视频只有几十秒,但里面可能有一个很好的选题、一个很抓人的开头、一个值得参考的表达方式。
原来刷到一条有价值的抖音视频,如果只是收藏,很快就找不到了。如果想整理观点,还要反复暂停、手动听写,效率很低。
现在我会让 Claude Code 处理抖音链接。
输入是:抖音视频链接、精选页链接、短链或分享链接。
输出是:下载到本地的 MP4 文件、语音转写文本、结构化总结。
总结通常包括:视频信息、内容结构、核心观点、关键金句、可借鉴的开头方式、适合转成什么选题。
这个场景里有一些坑。比如短链会跳转,页面里可能有多个视频,下载工具可能抓错视频,或者不同平台要用不同下载逻辑。所以我会要求 Claude Code 先判断平台,再选择对应工具,并且以脚本最终输出的实际文件路径为准。
踩过几次坑以后,这类规则就会沉淀下来:
– 先判平台,再选工具
– 不要凭页面猜文件路径
– 以脚本输出的实际路径为准
– 抓错视频要回头核对
– 下载完成后再转写和总结
这件事的价值是:短视频里的观点可以被快速沉淀下来。
以前它只是刷到的一条视频,现在它可以变成文字稿、摘要、选题和写作素材。对做内容的人来说,这一步很有用。因为很多选题和表达,不一定来自长文章,也可能来自一条几十秒的视频。
5. 本地视频/语音口播识别 + 内容总结
最后一类,是本地视频和语音口播。
比如我下载了一个 Claude Code 教程,一个 AI 分享视频,一个本地 mov 文件,或者别人发给我的课程录像。我不一定有时间完整看,但里面可能有对我有用的内容。
原来本地视频最容易变成文件夹里的沉默资产。下载的时候觉得有用,但很少完整看完。尤其是一小时以上的视频,如果没有文字稿,后面几乎不能检索。
现在我会让 Claude Code 直接处理本地视频。
输入是:一个本地 mp4、mov 或音频文件。
输出是:口播转写稿、内容摘要、章节结构、核心观点、可补充到现有课件的内容,必要时还会给出评价。
比如我拿到一个“60 分钟掌握 Claude Code”的教程视频,可以让 Claude Code 先转写,再总结它讲了哪些模块,哪些内容我已经覆盖,哪些内容可以补充进我的 PPT,哪些点适合变成案例。
再比如一个 AI 分享视频,我可以让 Claude Code 帮我判断:这段内容主要讲什么,有哪些有价值的观点,哪些地方适合吸收到我的课程里,哪些地方只是泛泛而谈。
这件事省心的地方是:我不用完整看视频,也能先知道它有没有价值。后面如果要精看,也可以根据摘要快速定位重点部分。
它特别适合处理课程、培训、讲座、分享、口播这类内容。很多视频不是没有价值,而是没有被转成文字,所以很难被复用。一旦转成文本,再做总结和归类,它就能进入自己的知识库。这类场景真正解决了什么问题
音视频处理这类场景,看起来只是下载、转写、总结。
但真正解决的问题是:很多高价值信息原本不在文档里,而在声音和视频里。
- 客户需求在电话里。
- 培训反馈在课堂录像里。
- 行业观点在播客里。
- 短视频选题在达人口播里。
- 课程素材在本地视频里。
如果这些内容不能转成文字,不能总结,不能归档,不能进入知识库,它们的价值就很低。听过一次、看过一次,很快就忘了。
Claude Code 在这里的价值,是把音视频内容变成文字资产,再进一步变成业务资产。
这里有几个关键原则。
第一,不要只转写,要结构化。逐字稿只是第一步,真正有用的是客户背景、需求拆解、风险点、待办事项、核心观点、可引用金句和可复用素材。
第二,不同音视频要有不同输出。客户录音要服务销售推进和方案设计;培训录像要服务课程复盘;播客和短视频要服务内容创作;教程视频要服务课件优化。
第三,术语和语境很重要。语音识别一定会出错,尤其是人名、公司名、工具名和行业术语。所以转写后要结合业务背景做纠错,否则后面搜索、总结和归档都会受影响。
第四,处理完要进入知识库。如果转写稿只是放在桌面,它很快也会消失。音视频内容要和客户、课程、行业、选题这些目录绑定起来,才能长期复用。
这也是我越来越明确的一点:音视频不是一次性资料,而是很重要的知识来源。
本文由人人都是产品经理作者【Aaron】,微信公众号:【曾俊AI实战笔记】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。

起点课堂会员权益





把飞书妙记变成本地可控资料这个功能很务实,很多会议录像在云端有权限限制,能下载下来转文字,内容才真正活起来。
结构化总结确实节省时间,但语音识别的术语纠错依赖上下文,如果语境不明确,反而可能引入错误,这个环节的实际效果很考验模型能力。