当AI开始“看图说话”：多模态训练中的偏见是如何被悄悄注入的？ | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

当AI开始“看图说话”：多模态训练中的偏见是如何被悄悄注入的？

周周粥粥

2026-04-08

0 评论 205 浏览 0 收藏

10 分钟

AI生成的人脸为何总是千篇一律的“完美”？本文深度解析多模态训练中隐藏的数据偏见问题——从商业图库的筛选暴力到文本标注的隐性歧视，揭示AI如何复制人类社会的审美偏见。作者通过实战案例，分享如何通过构建反偏差数据集、引入描述去偏、修改生成目标等方法，让AI看到更真实的人类多样性。

一、一百张“完美人脸”

之前我参与过一个多模态训练的项目，有一个很有意思的现象。

模型生成的所有人像照片都很“完美”——皮肤光滑、五官对称、笑容标准。

于是我回看了我们的训练数据，发现了一个残酷的事实：AI几乎没生成过雀斑、单眼皮、宽鼻翼或者皱纹。它甚至没生成过一张看起来“不那么开心”的脸。

我们想要的是一个能理解人类多样性的生成模型，但它却交出了一套高度同质化的“完美模板”。问题出在哪里？

作为AI训练师，我原以为多模态生成的核心是“像不像”。但这个项目让我意识到，更深层的问题是“谁被看见”以及“以何种标准被看见”。

二、偏见如何从数据渗入生成结果

1. 训练数据：看不见的“筛选暴力”

我们的初始人像数据集来自几个公开数据集和商业图库，总量超过20万张。表面看很丰富，但深入分析后发现了系统性偏差。

年龄分布上，25-35岁的面孔占78%；肤色上，浅肤色占85%；表情上，“标准微笑”占62%。更隐蔽的是社会经济特征的缺失——数据中几乎看不到劳动者的手、晒斑、或者疲惫的神态。

这不是数据集的“错”。商业图库本身就有筛选标准：它们倾向于选择符合主流审美、商业友好的图像。当我们直接使用这些数据时，AI学到的不是真实的人类多样性，而是商业世界筛选过的人类图谱。

偏见的第一步：我们喂给AI的，已经是被过滤过的世界。

2. 文本-图像对齐：语言中的隐性等级

多模态生成的关键是文本描述与图像的对齐。我们的文本标注来自多个团队，问题就出在这里。

当描述一位女性科学家时，标注员更常使用“年轻”、“有吸引力”等词汇；而描述男性科学家时，“资深”、“专注”出现的频率更高。对老年面孔的描述则更多与“智慧”、“慈祥”绑定，却很少描述他们的活力或专业能力。

这些用词差异看似微小，但当数百万条这样的文本-图像对进入训练，AI就建立了一套隐性的关联：女性与外貌评价绑定，男性与能力评价绑定，年龄与特定性格特质绑定。

AI不理解社会偏见，它只是忠实地复制了语言中的偏见结构。

3. 生成目标：当“高质量”等于“同质化”

我们最初的损失函数设计很直接：生成的图像要“像”训练数据。问题在于，训练数据中的“高质量”图像往往高度相似——光线均匀、构图标准、表情积极。

为了优化这个目标，AI很快学会了生成“安全”的面孔：避开那些在训练数据中数量少、标注不一致的特征。于是，雀斑消失了，非标准笑容减少了，种族特征被模糊化了。

最讽刺的是：我们越是追求“高质量生成”，就越是在强化单一的审美标准。

三、一次失败的“多样性测试”

项目中期，我们决定做一个实验：生成100张“不同职业”的人脸。我们提供了“程序员”、“护士”、“建筑师”、“教师”等职业描述。

结果令人尴尬。

“程序员”的生成结果中，92%是年轻男性，大部分戴眼镜；“护士”则几乎全是女性，且年龄集中在25-40岁；“建筑师”面孔的“精英感”明显强于“教师”。

我们意识到问题出在测试方法本身。我们直接使用了社会中已有的职业刻板印象作为提示词，这相当于让AI在既有偏见的基础上再生产偏见。

当我们用带有偏见的尺子去测量AI时，得到的只能是偏见的印证。

四、我们调整了三个训练细节

意识到问题后，我们没有推倒重来，而是在现有框架下做了三个关键调整：

1. 主动构建“反偏差”数据集 我们不再被动接受数据分布，而是主动构建补充集。针对数据集中缺失的特征——老年劳动者的手部特写、非标准肤色的面部细节、非微笑的自然表情——我们定向收集了2万张图像，并确保文本描述中性、多样。

2. 引入“描述去偏”预处理 在文本标注进入训练前，我们增加了一个去偏处理层。这个层会检测并调整那些隐含刻板印象的描述。比如将“美丽的亚洲女性”改为“亚洲女性”，将“睿智的老人”改为“老人”。这不是消除描述，而是去除不必要的社会评价标签。

3. 修改生成目标：从“像数据”到“像真实” 我们调整了损失函数，不再单纯追求与训练数据的相似度，而是加入了一个“多样性奖励”机制。当生成结果在种族、年龄、特征上偏离主流分布时，只要这种偏离在真实世界的合理范围内，就会得到正向激励。

五、一些实在的发现

经过三个月的调整，模型有了明显改善，但这个过程也让我对多模态生成有了更务实的认识：

第一，偏见无法完全消除，只能管理。 我们最终的目标不是创造一个“绝对公正”的AI——这在技术上不可能，哲学上也有问题。我们的目标是让AI的“偏见”更透明、更可控，至少让我们知道它偏向了哪里。

第二，多样性不是“政治正确”，而是技术需求。 一个只能生成同质化面孔的模型，在商业应用上很快会遇到瓶颈。游戏需要各类角色，影视需要各类演员，虚拟形象需要代表各类用户。多样性是实用性的基础。

第三，训练师的角色正在变化。 我们不再只是调参的工程师，而更像是“AI的策展人”——我们选择什么数据、如何标注、设定什么目标，都在塑造AI看待世界的方式。这份工作有了伦理重量。

六、生成的下一张脸

现在，当我们生成一张新的人脸时，我会特别关注那些“不完美”的细节：眼角的细纹、不均匀的肤色、不对称的笑容。这些细节不是瑕疵，而是真实性的印记。

多模态生成技术还在快速进化，但无论模型多强大，它始终是通过我们的数据和设计来看世界的。我们给它什么数据，它就生成什么样的“现实”；我们如何定义“好”，它就朝着那个方向优化。

作为训练师，我们也许无法给AI一个完全客观的世界观，但至少可以给它一副更完整的眼镜——一副能看到更多样人类、更复杂真实的镜片。

下一次当你看到AI生成的人脸时，不妨问一句：这张脸背后，站着什么样的训练数据？又是谁，在定义什么是“美”、什么是“好”、什么是“值得被生成”？

本文由 @周周粥粥原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

周周粥粥

大厂AI项目负责人

13篇作品 13233总阅读量

“争吵”中开启的双十一：平台与主播对垒，头部主播间正面PK

10-261891 浏览

“争吵”中开启的双十一：平台与主播对垒，头部主播间正面PK

A16Z：生成式AI平台，谁主沉浮？

02-172990 浏览

A16Z：生成式AI平台，谁主沉浮？

从精准洞察到共鸣共振，综艺营销的短期效果和长期机会｜2022内容营销名场面

01-147635 浏览

从精准洞察到共鸣共振，综艺营销的短期效果和长期机会｜2022内容营销名场面

你还在用过时的客户管理策略吗？看AI如何引领RFM模型的革命性突破！

10-171712 浏览

你还在用过时的客户管理策略吗？看AI如何引领RFM模型的革命性突破！

黑客出身，以色列小伙打造百亿美金SaaS独角兽——Wiz

03-075091 浏览

黑客出身，以色列小伙打造百亿美金SaaS独角兽——Wiz

评论

目前还没评论，等你发挥！

预付卡《支付业务许可证》检测认证涉及哪些信息？

07-203735 浏览
抖音“最低价”的真相与错觉

08-035390 浏览
年轻人春节错峰搞钱：上门做饭8天顶1个月工资，代喂宠物半月赚2万

02-022635 浏览