从「能看」到「懂我」：AI生图的五次需求革命

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从「能看」到「懂我」：AI生图的五次需求革命

AGI审判官

2026-03-16

0 评论 1225 浏览 2 收藏

33 分钟

AI生图技术的进化史，从2014年的GAN到2026年的Seedream 5.0，不仅见证了技术的跃迁，更揭示了人类需求的觉醒——从简单的‘能生图就行’到‘我要好看的’再到‘我要它听我的’。每一次突破，都在重新定义创作的边界。

三个时代，同一个需求

2014 年，蒙特利尔大学的实验室里。研究员小李盯着屏幕上那张模糊的、像素化的人脸图像，激动得手都在抖：“它真的生成了！虽然看起来像马赛克，但这是机器自己‘想象’出来的！”

2022 年 8 月，某广告公司。设计师小王打开 Midjourney，输入“赛博朋克风格的咖啡馆”,30 秒后，一张精美绝伦的概念图出现在 Discord 频道里。她截图发给客户：“这个方向怎么样？”

2026 年 2 月，某电商公司运营部。运营小张对着电脑说：“帮我生成一张春节促销海报，要有舞龙元素，背景是故宫，文字写‘新春好礼 8 折起’，红金配色。”几秒钟后，Seedream 5.0 输出了一张完美契合需求的海报，连字体都工工整整。

同样是“给我画一张图”，十二年间，发生了什么？

这不是一个关于技术进步的故事。这是一个关于需求觉醒的故事——每一次 AI 生图的跃迁，本质上都是人类在重新发现：“原来，我真正想要的是这个。”

「能生图就行」—— 证明可能性的时代

GAN 横空出世：两个神经网络的“互相伤害”

2014 年 6 月 10 日，Ian Goodfellow 在蒙特利尔的一家酒吧里，和几个博士生朋友讨论生成模型。几杯啤酒下肚后，一个疯狂的想法冒了出来：让两个神经网络互相对抗，一个负责造假，一个负责打假，在这种“军备竞赛”中，造假者会越来越逼真。

当晚回家后，Goodfellow 连夜写代码，第二天早上就跑通了第一版 GAN（生成对抗网络）。这个模型的训练方式有点像两个人互相卷——生成器（Generator）拼命学习如何生成逼真的图像，判别器（Discriminator）则拼命学习如何识破假图。最终，当判别器再也分不清真假时，生成器就“毕业”了。

但那时候生成出来的图像是什么样的？用今天的眼光看，简直惨不忍睹：64×64 像素的低分辨率、人脸五官错位、背景一片模糊。但在 2014 年，这已经足够震撼学术圈——机器第一次展现出了“视觉想象力”。

这个产品是给谁用的？

关键问题来了：那时候的 GAN，根本不是一个“产品”。

它的用户是谁？研究员。
它的使用场景是什么？实验室里的论文实验。
它的核心需求是什么？证明“机器能生成图像”这件事在技术上可行。

普通人能用吗？不能。你需要懂 Python、懂深度学习框架、懂如何调参、懂如何搭建训练环境。更要命的是，训练一个 GAN 模型可能需要几天甚至几周，还经常遇到“模式崩溃”(mode collapse)——模型突然只会生成一种图像，怎么调都调不回来。

用一个不太恰当的比喻：2014 年的 GAN 就像莱特兄弟的第一架飞机。它能飞起来，这本身就是奇迹。至于飞得稳不稳、舒不舒服、能不能载客——那是后话。

GAN 的对抗训练机制：生成器和判别器在博弈中共同进化

技术的局限，就是需求的边界

GAN 的问题不只是“难用”，更在于它的技术局限性：

训练不稳定—— 生成器和判别器的平衡很难把握，训练过程就像走钢丝
模式崩溃—— 模型可能突然“偏科”，只会生成某一类图像
无法精确控制—— 你很难告诉 GAN“我想要什么”，只能靠调整随机种子碰运气
分辨率受限—— 生成高分辨率图像需要海量算力，当时根本做不到

但这些“缺陷”，在 2014 年并不是问题。因为那时候的需求只有一个：证明 AI 能生成图像。

GAN 做到了。它打开了一扇门，让人们看到：机器不仅能识别图像，还能创造图像。

抛出一个问题：这个产品是给谁用的？

说实话这个问题问住我了。我们日常做产品，嘴上都说”以用户为中心”，但GAN那会儿压根没想过用户是谁。它就是一帮聪明人在自嗨，证明”我能做到”。我觉得这挺像我刚入行时做的第一个产品——功能堆了一堆，但从来没认真想过谁会用、为什么用。

「我要能用它」—— 打破门槛的时代

从实验室到大众：DALL·E 的破圈时刻

2021 年 1 月 5 日，OpenAI 发布了 DALL·E 1.0。这个名字是达利（Dalí）和瓦力（WALL-E）的组合，暗示着艺术与 AI 的结合。

DALL·E 做了一件在当时看来不可思议的事：你只需要输入一句话，比如“一只穿着芭蕾舞裙的牛油果”，它就能生成对应的图像。

这听起来很简单，但背后的技术跨越是巨大的。DALL·E 基于 GPT-3 的架构，将文本和图像统一编码到同一个“语义空间”里。简单说就是：它学会了把“文字描述”和“视觉画面”关联起来。你说“牛油果”，它知道那是绿色的、梨形的；你说“芭蕾舞裙”，它知道那是蓬松的、白色的。把这两个概念组合在一起，就生成了一个全新的、从未存在过的画面。

但 DALL·E 1.0 有个致命问题：它不对外开放。

OpenAI 只放出了几十个示例图像和一篇论文，普通人根本用不上。这就像在橱窗里展示一辆跑车，但不让你试驾。

Stable Diffusion：开源的“核弹”

真正的转折点发生在 2022 年 8 月。

Stability AI 联合慕尼黑大学和 Runway，发布了 Stable Diffusion——一个完全开源的文生图模型。更关键的是，它可以在消费级显卡（比如 RTX 3060）上运行，不需要昂贵的云服务器。

这意味着什么？任何人都可以在自己的电脑上，免费生成高质量图像。

Stable Diffusion 的发布，就像在 AI 图像生成领域投下了一颗“核弹”。短短几周内，GitHub 上出现了数百个基于它的开源项目：有人做了 Web 界面，有人做了 Photoshop 插件，有人做了 Discord 机器人。整个社区像打了鸡血一样疯狂创新。

到 2022 年 9 月，Stable Diffusion 的 Discord 服务器已经有超过 100 万用户。这个数字在一年后突破了 2000 万。

从封闭到开放：AI 生图的可用性时间线

什么在阻止用户靠近？

回头看，2021-2022 年的核心问题不是“技术不够好”，而是“普通人用不上”。

三道门槛挡住了大众：

技术门槛—— 需要懂代码、懂命令行、懂模型部署
算力门槛—— 需要高端 GPU，训练或生成一次可能要几小时
获取门槛—— 模型不开源，或者需要排队申请内测资格

DALL·E 和 Stable Diffusion 用两种不同的方式解决了这些问题：

DALL·E 的路径：把复杂性藏在云端，用户只需要在网页上输入文字，点击生成，等 30 秒就行。代价是需要付费，每张图 0.02 美元起。

Stable Diffusion 的路径：把模型完全开源，让社区去做各种易用性改造。代价是你需要自己配置环境，或者使用第三方服务。

两条路径，同一个目标：让不懂技术的人也能用上 AI 生图。

到 2022 年底，一个初中生都可以在手机上用 Discord 机器人生成图像了。门槛，被彻底打破。

抛出一个问题：什么在阻止用户靠近？

这个问题我反而觉得，不是在问”你的产品差在哪”，而是在问”用户想靠近，但是什么挡住了他”——这个视角一转，整个思路就不一样了。用户不是不想用，是你没把门开开。

「我要好看的」—— 审美即产品力的时代

Midjourney：一个 11 人团队的奇迹

2022 年 2 月，一个叫 David Holz 的创业者，在 Discord 上悄悄上线了 Midjourney 的公测版本。

那时候，Stable Diffusion 还没发布，DALL·E 2 还在内测。Midjourney 既不是最早的，也不是技术最强的。但它做对了一件事：它生成的图像，真的很美。

不是“技术上很厉害”的那种美，而是“设计师看了会心动”的那种美。光影、构图、色彩、氛围感——Midjourney 的输出就像是一个有审美品味的艺术家在创作，而不是一个冷冰冰的算法在计算。

更神奇的是，Midjourney 的团队只有 11 个全职员工。没有融资，没有大厂背景，没有顶级论文。但到 2023 年，它的年收入突破了 3 亿美元，Discord 服务器有 2100 万用户，成为 Discord 上最大的服务器。

这是怎么做到的？

社区即产品：Discord 上的“蜂巢思维”

Midjourney 的成功，很大程度上归功于它选择了 Discord 作为主战场。

在 Discord 上，所有用户的生成过程都是公开的。你输入一个提示词，30 秒后，图像就出现在频道里，所有人都能看到。这创造了一种独特的“社区学习”氛围：

新手可以偷师—— 看到一张好图，点开就能看到别人用的提示词，直接学习
高手可以炫技—— 生成一张惊艳的图，立刻获得社区的认可和点赞
创意会传染—— 一个人尝试了“蒸汽波风格”，很快就有十个人跟着尝试

David Holz 把这种现象称为“蜂巢思维”(hive mind)——2100 万用户不是在各自为战，而是在集体探索 AI 的创作边界。

Midjourney 还做了一个聪明的设计：它不提供 API，不做网页版（早期），只做 Discord 机器人。

这看起来很“反直觉”——为什么不做一个漂亮的官网，让用户在网页上生成呢？

因为 Discord 本身就是一个社交平台。用户在这里不只是“用工具”，更是“参与社区”。他们会在频道里讨论技巧、分享作品、互相点评。这种社交属性，让 Midjourney 从一个“工具”变成了一个“创作者社区”。

Midjourney 的社区飞轮：从工具到社区的转变

审美，才是真正的护城河

到 2023 年，市面上已经有十几个 AI 生图工具了。技术上，它们的差距并不大——都是基于扩散模型，都能生成高分辨率图像，都支持文生图和图生图。

但 Midjourney 依然是设计师和创作者的首选。为什么？

因为它的输出，有“审美”。

这听起来很玄学，但确实存在。同样的提示词，Midjourney 生成的图像往往更有“电影感”、更有“艺术性”。这不是偶然，而是团队有意为之的结果：

训练数据的筛选—— Midjourney 在训练时，更注重高质量的艺术作品和摄影作品
默认风格的调优—— 模型的默认输出偏向“视觉冲击力强”的风格
持续的迭代—— 从 V1 到 V7，每次更新都在优化光影、构图、细节

2023 年，一位设计师在 Twitter 上说：“我用 Stable Diffusion 做草图，用 Midjourney 做最终交付。因为客户看 Midjourney 的图会说‘哇’，看 Stable Diffusion 的图会说‘哦’。”

这就是审美的价值。在技术同质化的时代，审美成为了最难复制的竞争力。

用户为什么愿意付费留下来？

Midjourney 的订阅制定价很有意思：

基础版8美元/月，每月 200 张图
标准版24 美元/月，无限生成（Relax 模式）
专业版48美元/月，更快的生成速度

这个定价不算便宜。Stable Diffusion 是免费的，DALL·E 按张计费也更灵活。但 Midjourney 的付费用户依然超过了 100 万。

他们为什么愿意付费？

不是因为功能，而是因为体验：

审美保证—— 生成的图像质量稳定，不需要反复调试
社区归属—— 在 Discord 上找到了一群志同道合的创作者
持续进化—— 每隔几个月就有大版本更新，能明显感受到进步

一个产品经理朋友跟我说：“Midjourney 的成功，证明了一个道理——在 AI 时代，工具的‘好用’不只是功能强大，更是‘用起来爽’。”

抛出一个问题：用户为什么愿意付费留下来？

Midjourney这个案例真的让我有点羞愧。一个11人团队，没有融资，靠的就是”用起来爽”。反观很多大厂产品，人多钱多，但用户留不住。我现在越来越觉得，功能是门槛，体验才是粘性。

「我要它听我的」—— 精准控制的时代

DALL·E 3：终于能写字了

2023 年 10 月，OpenAI 发布了 DALL·E 3。

发布会上，演示了一个让所有设计师尖叫的功能：它终于能在图像里准确渲染文字了。

这听起来不算什么大事，但在此之前，几乎所有 AI 生图工具都有一个共同的“智障”表现——你让它生成一张写着“OPEN”的门牌，它可能给你生成“OEPN”、“0PEN”或者一堆乱码。

为什么 AI 生图这么难处理文字？因为传统的扩散模型是在“像素空间”里学习的，它把文字当成一种“纹理”来生成，而不是理解文字的语义。就像一个不识字的人临摹书法，能模仿笔画的形状，但很容易写错。

DALL·E 3 的突破在于：它用了一个全新的“图像描述系统”。

在训练时，OpenAI 没有直接用网上爬来的图像标注（那些标注往往很粗糙，比如“一只猫”），而是用 GPT-4 给每张图像生成了详细的、长达几百字的描述。这些描述不仅包括画面内容，还包括构图、光影、情绪、甚至文字内容。

结果就是：DALL·E 3 不仅“看得懂”你的提示词，还能“理解”你想要什么样的画面。

GPT-4o：图像生成的“原生化”

2024 年 5 月，OpenAI 发布了 GPT-4o(o 代表 omni，全能）。这是一个真正的多模态模型——它可以同时处理文本、图像、音频，并且这些能力是“原生”的，不是后来拼接上去的。

到 2025 年 3 月，GPT-4o 的图像生成能力正式上线。这次的升级不是“更快”或“更清晰”，而是更听话。

举个例子：

以前(DALL·E 3)：

你：“生成一张海报，左上角是 logo，右下角是二维码，中间是产品图，背景是渐变蓝。”

AI：给你生成了一张图，logo 在右上角，二维码不见了，背景是纯蓝色。

现在(GPT-4o)：

你：“生成一张海报，左上角是 logo，右下角是二维码，中间是产品图，背景是渐变蓝。”

AI：完全按照你的要求生成，连渐变的方向都是对的。

更神奇的是，GPT-4o 可以“对话式生成”。你生成一张图后，可以说：“把 logo 放大一点”,“把背景改成暖色调”,“加一行文字‘限时优惠’”——它会在原图的基础上精确修改，而不是重新生成一张完全不同的图。

GPT-4o 的对话式图像生成：从“一次性交付”到“迭代式创作”

提示词工程：从“碰运气”到“精准控制”

2022 年，AI 生图圈子里流行一个词：提示词工程（Prompt Engineering)。

那时候，想生成一张好图，你需要掌握各种“咒语”:

想要高质量？加上“masterpiece， best quality， highly detailed”
想要特定风格？加上“by Greg Rutkowski， trending on ArtStation”
想要特定构图？加上“rule of thirds， golden ratio， cinematic lighting”

这些“咒语”是社区通过大量实验总结出来的经验。就像玩 RPG 游戏，你需要研究攻略、背诵技能组合，才能打出高伤害。

但到了 2024 年，这套玩法开始失效了。

DALL·E 3 和 GPT-4o 的出现，让“提示词工程”从“碰运气的艺术”变成了“说人话就行”。你不需要背咒语，不需要堆砌关键词，只需要用自然语言描述你想要什么，AI 就能理解。

这背后的技术原理是：AI 不再只是“匹配关键词”，而是“理解语义”。

举个对比：

2022 年的提示词：

“A cat, sitting on a chair, in a room, with a window, sunlight, warm lighting, cozy atmosphere, highly detailed, 4k, trending on ArtStation”

2024 年的提示词：

“一只猫坐在椅子上晒太阳，房间很温馨”

后者更短，但生成效果更好。因为 GPT-4o 能理解“晒太阳”意味着有阳光、有窗户，“温馨”意味着暖色调、柔和的光线。

用户真正想说的那句话是什么？

这个问题，在 2024 年终于有了答案：用户想说的，就是他们用自然语言说出来的那句话。

AI 的进步，不是让用户学会“怎么跟 AI 说话”，而是让 AI 学会“听懂人话”。

抛出一个问题：用户真正想说的那句话是什么？

我们做需求访谈，用户说的和想要的，永远不是同一件事。用户说”我要更快的马”，想要的是”到达目的地”。AI花了十年学会听人话，我们做产品的，有时候连用户说的话都还没听懂。

「我要它懂我的世界」—— 本土化与实时性的时代

Seedream 5.0：联网的 AI，懂中文的 AI

2026 年 2 月，字节跳动发布了 Seedream 5.0 Preview。

这次更新，有三个关键词：联网、推理、本土化。

联网，意味着 AI 可以实时检索最新信息。你让它生成“2026 年春节联欢晚会的舞台设计”，它会先去搜索今年春晚的实际舞台照片，然后基于真实素材进行创作。这解决了一个长期困扰 AI 生图的问题——时效性。

以前，AI 的训练数据都是“过去式”的。它知道 2023 年的流行元素，但不知道 2026 年的。现在，通过联网检索，AI 可以跟上时代。

推理，意味着 AI 不再只是“照着提示词画”，而是能“理解你的意图”。

举个例子：

你：“生成一套电商产品的营销海报”

Seedream 5.0：理解到“一套”意味着需要多张图，自动生成主 KV、详情页 banner、朋友圈分享图，三种尺寸，风格统一。

这种“推理能力”，让 AI 从“执行工具”变成了“创意助手”。

本土化，是 Seedream 最大的优势。

作为一个中国团队开发的模型，Seedream 对中文语义、中国文化、中国审美的理解，远超国外模型。你说“国潮风”，它知道你要的是什么；你说“赛博朋克+中国风”，它能生成霓虹灯下的古建筑，而不是不伦不类的拼贴。

更关键的是，Seedream 在文字渲染上做了专门优化。中文字体、书法、印章、对联——这些在西方模型里经常出错的元素，Seedream 处理得游刃有余。

Seedream 5.0 的三大能力：联网、推理、本土化

国产 AI 图像模型的“春秋战国”

Seedream 不是孤例。2025-2026 年，国产 AI 图像模型进入了“春秋战国”时代：

腾讯混元图像 3.0—— 在 LMArena 全球盲测中登顶，偏好率 47%
阿里通义万相—— 主打电商场景，商品图生成质量行业领先
百度文心一格—— 与百度搜索深度整合，支持“搜索+生图”一体化
快手可图—— 专注短视频封面生成，理解“爆款”逻辑

这些国产模型有一个共同特点：垂直场景的深度优化。

不像国外模型追求“通用性”，国产模型更关注“在特定场景下做到最好”。电商运营用通义万相，短视频创作者用可图，设计师用混元，各取所需。

这背后反映的是需求的进一步细分：用户不再满足于“能生图”，而是要“在我的场景里好用”。

听话之后，下一个需求在哪里？

2026 年的 AI 生图，已经可以做到：

听懂自然语言
精确渲染文字
理解空间关系
实时联网检索
适配本土文化

那么，下一个需求是什么？

从 Seedream 5.0 的用户反馈来看，答案开始浮现：

个性化—— “我希望 AI 记住我的审美偏好，不用每次都重新描述”
协同性—— “我希望 AI 能和我‘一起’创作，而不是‘帮我’创作”
情感化—— “我希望 AI 理解我的情绪，生成的图像能传达我的感受”

这些需求，已经不再是“工具”层面的，而是“关系”层面的。

抛出一个问题：听话之后，下一个需求在哪里？

我脑子里第一个念头是——其实用户自己也不知道。下一个需求往往不是被”说”出来的，是被”触发”出来的。就像没人说”我需要Instagram”，但iPhone相机一出来，那个需求就被点燃了。所以与其去问用户，不如去观察他们在什么时候感到”差一点点”。

终章：第六次革命在哪里？

站在 2026 年，回望 AI 生图的十二年，我们见证了五次需求革命：

能生图就行—— 证明可能性
我要能用它—— 打破门槛
我要好看的—— 审美即产品力
我要它听我的—— 精准控制
我要它懂我的世界—— 本土化与实时性

那么，第六次革命会是什么？

我不知道答案。但我有三个猜想，分享给你。

猜想 A：陪伴感 —— 从工具到伙伴

也许未来的 AI 生图工具，不再是一个“用完就走”的工具，而是一个“长期陪伴”的创作伙伴。

它会记住你的审美偏好、你的创作风格、你的常用元素。你不需要每次都从零开始描述，它会主动说：“要不要试试这个风格？我觉得挺适合你的。”

就像一个老搭档，你们之间有默契，有共同语言。

这不是技术问题，而是关系设计的问题。

猜想 B：实时共创 —— 从「帮我做」到「一起做」

也许未来的 AI 生图，不再是“你下指令，它执行”，而是“你们一起探索”。

你在画布上随手画几笔，AI 实时补全；你调整一个元素，AI 自动优化整体构图；你说“这里感觉不对”, AI 给出三个改进方案让你选。

这种“实时共创”的体验，会让创作过程本身变得更有趣。

这不是生成速度的问题，而是交互范式的问题。

猜想 C：消失的工具 —— 从「我去用 AI」到「AI 一直在」

也许未来的 AI 生图，不再是一个独立的“工具”，而是融入你的工作流，无处不在。

你在写文档，AI 自动生成配图；你在做 PPT, AI 实时优化版式；你在聊天，AI 把你的想法可视化。

你不需要“打开 AI 工具”，因为 AI 已经成为你的“数字环境”的一部分。

这不是功能集成的问题，而是生态重构的问题。

结尾：我们在 AI 中看见的，是自己

每一次 AI 生图的需求升级，本质上都是人类在问自己：「我到底想要什么？」

2014 年，我们想要的是“证明机器能创造”；
2022 年，我们想要的是“让普通人也能用”；
2023 年，我们想要的是“生成的图像要美”；
2024 年，我们想要的是“AI 要听懂我的话”；
2026 年，我们想要的是“AI 要懂我的世界”。

但这些需求，真的是 AI 给我们的吗？

不是。

是 AI 像一面镜子，让我们看清了自己真正的需求。

我们以为自己想要的是“更强的工具”，但其实想要的是“更好的体验”；

我们以为自己想要的是“更多的功能”，但其实想要的是“更懂我的伙伴”；

我们以为自己想要的是“更快的生成”，但其实想要的是“更有意义的创作过程”。

不是 AI 越来越懂我们，而是我们借助 AI，越来越清楚地看见自己。

这才是 AI 生图这十二年，最大的价值。

本文由 @AGI审判官原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Pixabay，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

AGI审判官

AI产品经理，持续学习中，记录成长，输出干货

5篇作品 4089总阅读量

10-172075 浏览

10-175620 浏览

09-2015926 浏览

01-126486 浏览

05-1310511 浏览

目前还没评论，等你发挥！