多模态，正在悄悄改变 AI 产品是怎么“理解世界”的 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

多模态，正在悄悄改变 AI 产品是怎么“理解世界”的

青蓝色的海

2025-12-24

0 评论 353 浏览 0 收藏

7 分钟

多模态AI正从技术概念蜕变为产品决策的核心战场。当模型开始像人类一样整合视觉、听觉与语言信息时，我们面对的不仅是技术突破，更是如何让AI理解真实世界的产品哲学。本文将从红灯识别到语音情绪感知，拆解多模态如何重构AI与人类认知的边界。

如果你最近在看 AI 相关的项目、产品或招聘信息，大概率已经见过一个词：多模态。它出现得越来越频繁，但奇怪的是——很少有人真正把它讲清楚。

有的人把多模态理解成“能看图的 ChatGPT”，有的人觉得那是算法工程师的事，也有人隐约感觉它很重要，但说不清到底重要在哪。

我想换一种方式讲多模态，不从模型结构开始，而是从一个更贴近日常的角度。

人本来就是“多模态”的

我们理解世界，从来不是只靠文字。

你走在路上，看见红灯会停下来，不是因为你脑子里浮现了“红灯=禁止通行”的文本规则，而是视觉直接触发了判断。你听到对方语气变冷，会下意识意识到气氛不对，也不是因为你分析了句子结构，而是声音里的情绪信息在起作用。

视觉、听觉、语言、空间感、经验，这些信息是同时发生、互相补充的。

而过去很长一段时间里，AI 对世界的理解方式是极其单一的——几乎只通过文本。

单模态 AI 的天花板，其实很早就到了

早期的大模型，本质上是在做一件事：

把世界翻译成文字，再从文字里学习规律。

这件事在很多场景下是成立的，比如问答、总结、写作、搜索。但一旦问题变成——

“这张图片里发生了什么？”
“这个视频的情绪是什么？”
“这段语音听起来开心还是紧张？”

只靠文本，模型就开始变得迟钝。

因为很多信息根本不在文字里。

构图、光影、表情、语气、节奏，这些人类一眼就能感知的东西，如果不直接“喂”给模型，它是学不到的。

多模态出现的背景，本质上不是技术炫技，而是一个非常现实的问题：如果 AI 要进入真实世界，它就不能只活在文字里。

所谓多模态，本质是在教模型“用多种感官看世界”

从技术定义上说，多模态是：

同时处理并融合文本、图像、视频、音频等多种信息形式。

但如果换成人话，它其实在做一件更直观的事：让模型不再只“读”，而是学会“看”和“听”。

比如——

文生图，不只是“画图”，而是模型理解“文字里的画面”
图像理解，不只是识别物体，而是理解画面关系、情绪和语境
视频理解，关注的不只是帧，而是时间、动作和变化
语音相关任务，更是在处理“信息 + 情绪 + 节奏”的叠加

这也是为什么，多模态模型往往一上来就显得“更聪明”。不是它真的懂了，而是它接收的信息更接近人类真实感知世界的方式。

多模态不是一个功能，而是一整套能力结构

在真实项目中，多模态通常不会以“一个按钮”的形式出现。

它更像一张能力网络：

一端是生成：文生图、文生视频、语音合成
一端是理解：看图回答问题、视频内容判断、语音识别
中间连接的是大量数据、标签、描述和对齐规则

你会发现，多模态项目往往不是从“模型”开始，而是从一个看似很基础的问题开始：

模型应该如何理解一张图、一个视频、一段声音？

而这个问题的答案，往往不在算法里，而在数据如何被组织、被描述、被筛选。

为什么多模态越来越像“产品问题”，而不只是技术问题

当多模态走进真实产品，它面对的已经不是“能不能跑通”，而是——

用户关心什么信息
模型应该忽略什么
哪些感知是有价值的，哪些是噪声

这些判断，本质上都带着非常强的产品决策属性。

比如，一张图里背景杂乱但主体清晰，对生成任务是加分还是减分？一段语音情绪饱满但发音略模糊，对 TTS 训练是优势还是风险？

这些问题，没有标准答案，但必须有人来判断。

而多模态，正是 AI 开始真正需要“人类视角参与”的地方。

多模态的真正价值，是让 AI 更像生活在世界里

回到最开始那个问题：多模态到底是什么？

它不是某个模型名，也不是一个新潮名词。它更像是 AI 从“文本世界”走向“现实世界”的一座桥。

当模型开始同时接收画面、声音和语言，当它不再依赖单一输入形式，它才有可能真正进入生活场景，而不只是停留在对话框里。

这也是为什么，多模态并不是一个短期趋势，而是一个长期方向。

共勉！棒棒，你最棒！

本文由 @青蓝色的海原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

青蓝色的海

入行两年AI训练师专业深耕AI训练赛道

33篇作品 40157总阅读量

用过妙鸭的“AI修图”，她把手机里的“美图们”都卸了

12-122460 浏览

用过妙鸭的“AI修图”，她把手机里的“美图们”都卸了

直播回顾 | RWS 直播分享会：独家揭秘大厂都在用的文档核心技能

04-262130 浏览

直播回顾 | RWS 直播分享会：独家揭秘大厂都在用的文档核心技能

从用户角度来看内容平台在“发现”功能与“推荐”功能在内容上的差异，思考其在广告上的探索，以快手app和百度app为例

07-216691 浏览

从用户角度来看内容平台在“发现”功能与“推荐”功能在内容上的差异，思考其在广告上的探索，以快手app和百度app为例

80后依然怀旧，00后已经“发疯”：2023音乐产业十大趋势观察

12-182755 浏览

80后依然怀旧，00后已经“发疯”：2023音乐产业十大趋势观察

大厂“抢”超市，线下商超慌不慌？

02-032588 浏览

大厂“抢”超市，线下商超慌不慌？

评论

目前还没评论，等你发挥！