总结：多模态，正在把 AI 从“会说话”，推向“能理解世界”

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

总结：多模态，正在把 AI 从“会说话”，推向“能理解世界”

青蓝色的海

2025-12-29

0 评论 829 浏览 0 收藏

10 分钟

多模态AI正在重塑我们对智能的认知边界——它不再是简单的‘能看图的ChatGPT’，而是让AI首次触及世界本貌的技术革命。本文深度解析多模态如何补足AI的感知缺陷，揭示数据工程比模型更关键的行业真相，并犀利指出产品经理必须掌握的三大决策维度：感知拆解、误差控制与系统一致性。

如果你最近在关注 AI 产品、模型能力，或者招聘市场上的新岗位，会越来越频繁地看到一个词：多模态。

但和很多技术名词一样，它被用得太多，却被解释得太少。

有人说多模态就是“能看图的 ChatGPT”，也有人觉得那是算法工程师的事情，和产品关系不大。还有人隐约感觉它很重要，但始终说不清：重要在哪里？

如果一定要用一句话来概括，多模态真正改变的，其实是这一点：

AI 不再只通过文字理解世界，而是开始接触世界本来的样子。

人类本来就是多模态的

我们理解世界，从来不是靠单一信号。

你看到红灯会停下来，不是因为你在脑子里运行了一条文本规则；你听到对方语气变冷，会下意识意识到气氛不对，也不是因为你分析了句法结构。

视觉、听觉、语言、情绪、空间关系，这些信息是同时发生、互相印证的。

而很长一段时间里，AI 的世界是被压缩过的——世界被翻译成文本，模型只在文本里学习。

这件事在问答、写作、总结中效果很好，但一旦问题变成：

这张图里发生了什么？
这个视频的情绪是怎样变化的？
这段语音听起来紧张还是放松？

单一模态的理解方式，很快就撞上了天花板。

多模态的出现，不是升级，而是补课

从技术上说，多模态是同时处理文本、图像、视频、音频等多种信息形式。但从更本质的角度看，它是在补 AI 长期缺失的一门基础能力：感知。

文本只是世界的一种投影，而不是世界本身。

构图、光影、表情、动作节奏、语气变化，这些对人类来说极其自然的信息，如果不直接进入模型，模型是永远“悟”不到的。

这也是为什么，多模态模型往往一上来就显得“更聪明”。不是因为它真的更聪明，而是它终于接收到了更接近真实世界的输入。

但真正的多模态项目，难点从来不在模型

如果你真正参与过多模态相关项目，会很快意识到一件反直觉的事：

模型并不是最先让人头疼的部分，数据才是。

而且不是“数据不够”，而是——数据太多，但真正能用的很少。

多模态模型对噪声的容忍度，比纯文本模型要低得多。因为一旦噪声进来，它不是“读错一句话”，而是学错一种感知方式。

一张拼图、截图、水印严重的图片；一段过曝、模糊、主体不清的视频；一条背景噪声复杂、情绪不稳定的语音——这些数据不是“质量一般”，而是不具备可学习性。

所以在真实项目中，多模态流程的第一步，往往不是标注，而是：

判断哪些数据必须被直接丢弃。

“跳过数据”，是一种工程理性

很多新人一开始都会问：“这些数据不能修一下再用吗？”“是不是太严格了，会不会浪费数据？”

但只要经历过一次模型效果异常的复盘，就会明白一个结论：

修不好的数据，比没有数据更危险。

多模态项目中的“跳过”，本质上是在做三件事的判断：数据是否可被稳定学习？问题是否可通过规则修复？修复成本是否远高于数据价值？

如果答案是否定的，那最理性的选择只有一个：丢。

当数据“能用”之后，人真正开始教模型

通过质量筛选的数据，只是“合格原料”，并不等于“可学习结构”。

因为模型并不理解“好看”“有感觉”“很高级”这些人类直觉。

它只认识：稳定、可拆解、可复现的模式。

这也是为什么，多模态项目一定会走向两个工作重点：标签拆解，以及结构化描述。

标签的作用，并不是简单分类，而是把人类整体感知拆成多个维度：色调、构图、角度、光影、景别、风格线索。

描述也不是写作文，而是在替模型“看画面”：谁是主体，哪些细节是关键信息，哪些可以忽略。

在视频场景中，时间维度甚至比物体本身更重要。如果不描述镜头运动和画面变化，模型学到的只是“会动的图片”。

多模态理解，是最容易被低估的一步

当模型已经能“看图回答问题”，很多人会误以为工作进入了后半段的收尾。

但事实上，这是风险最高的一步。

因为多模态理解中，最常见的问题不是“完全错误”，而是——看起来很对，但其实理解偏了。

模型可能忽略关键对象，可能把背景当主体，也可能引入画面中并不存在的推断。

而这种“似是而非”的答案，如果被放过，会直接成为模型的学习范式。

因此，在这一阶段，人并不是在润色答案，而是在裁决理解是否成立。

一个非常克制但重要的原则是：改到正确即可，不追求过度聪明。

因为训练阶段，模型需要的是“正确的理解路径”，而不是“更好看的回答”。

从系统视角看，多模态是一条会放大误差的链路

当多模态能力被用于真实产品，系统往往是级联的：

语音 → 文本（ASR）文本 / 图像 / 视频 → 理解文本 → 语音（TTS）

每一层，都会继承前一层的输出。

这意味着一个现实问题：任何一个环节的数据标准不稳，误差都会被层层放大。

ASR 的轻微转写偏差，在理解阶段可能变成语义错误，到了 TTS，就会变成情绪不自然或语调异常。

这些问题，大多数时候不是模型参数的问题，而是数据工程问题。

多模态走到最后，拼的不是模型，是一致性

真正成熟的多模态系统，难点并不在于模态多，而在于：

不同模态下，“主体”的定义是否一致
不同形式的“情绪”，是否指向同一认知
什么情况下允许模糊，什么情况下必须精确

一旦这些认知标准无法对齐，多模态系统就会开始“各说各话”。

而这些问题，本质上已经不是技术实现，而是产品级、系统级的决策问题。

写在最后：多模态不是趋势，是一条回不去的路

多模态不是一个短期热点，而是 AI 走向现实世界的必经之路。

当模型开始真正面对图像、视频、语音和复杂环境，它就不可能再退回到“只处理文字”的状态。

而在这条路上，最稀缺的从来不是更大的模型，而是：

能把世界拆清楚、讲明白，并持续教给模型的人。

多模态到最后，拼的不是模型有多强，而是你是否真正理解：模型正在通过数据，认识一个怎样的世界。

多模态全链路示意：世界 → 数据 → 结构 → 判断 → 系统一致性
多模态 = 感知 × 数据工程 × 产品决策

共勉！棒棒，你最棒！

本文由 @青蓝色的海原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

青蓝色的海

入行两年AI训练师专业深耕AI训练赛道

34篇作品 43872总阅读量

Axure中继器全选操作的“半选中状态”及框选

05-193955 浏览

11-082119 浏览

02-087967 浏览

04-064586 浏览

07-267492 浏览

目前还没评论，等你发挥！