实测完豆包图片生成Agent，我拆解了它的设计亮点和技术实现逻辑 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

实测完豆包图片生成Agent，我拆解了它的设计亮点和技术实现逻辑

2025-04-30

0 评论 2934 浏览 3 收藏

产品经理在不同的职业阶段，需要侧重不同的方面，从基础技能、业务深度、专业领域到战略规划和管理能力。

豆包图片生成Agent的beta模式测试揭示了其在降低AI绘图门槛和提升用户体验方面的显著进步。文章将深入探讨这款产品的设计亮点和技术实现逻辑，分析其如何通过优化提示词和任务规划，使得用户能够轻松生成高质量图像作品。

前两天豆包图像生成开了beta模式（CreationAgent），推到我了我就点进去体验了一番，测完我在群里跟大家感慨这个功能真是太强了，豆包对C端用户的理解能力只能说：。

简单来说，豆包通过任务规划及提示词优化，大幅降低了AI绘图的专业门槛，让普通人能一句话画出高质量作品。

这是一个非常棒的C端功能，因此我决定写篇文章来细拆一下，主要聚焦在两个维度上：

1. 用户体验维度：这个产品有哪些设计非常棒的地方

2. 技术实现维度：从AI设计角度来看它是如何实现的

做到这三点挑战，产品经理只会不断升值

好的产品经理是很稀缺的，懂用户、懂商业、懂数据的产品经理走出互联网，依然是抢手货。相反，如果只做简单传话、低效执行、浅层思考的产品经理，恐怕走不过未来3-5年的洪流。

那我们先从第一个维度开始，我们聚焦在用户体验维度，看看这个产品设计好在哪。

我测了很多案例，然后总结了三个我体验下来觉得比较核心的点：

1. 一句简单描述就能出高质量作品，不需要再去苦想提示词

2. 一次对话可以支持生成1到20张的图片，批量出图又快又省事

3. 上下文理解能力非常强，动动嘴就能轻松修图

补充知识：豆包和即梦画图的模型底座是一样的，可能会有微调差异，但整体底层是一样的；所以我们直接用豆包和即梦进行提示词对比，来帮助大家更好的理解差异。

那我们先从第一点开始说起：一句简单描述就能出高质量作品，不需要再去苦想提示词

我自己也是个绘画小白，你让我写绘画提示词，比如说弄个五一出去玩的，我最多最多写：要五一了准备去北京玩。

在复杂我真是写不出来了，没那个水平。

但用这种提示词去即梦生成效果就很一般；于是豆包直接让模型理解用户的需求，再去单独写提示词，生成效果就比原始的描述好了很多。

要五一了准备去北京玩。（左即梦、右豆包）

飞流直下三千尺，疑是银河落九天。（左即梦、右豆包）

小鸡打鸣太阳升起来了。（左即梦、右豆包）

我抽了几个我能日常想到的描述用词，很明显简单的话描述还是豆包更出彩一点。长文本我也测了一下，基本上区别不大吧，看这两组图长得多像就知道了。

一头巨大的鲸鱼高高跃出湛蓝的水面，溅起晶莹的水花。阳光洒在鲸鱼身上，闪耀着金色的光芒，天空中飘着几朵洁白的云朵，与蓝色的大海相互映衬。整体呈现出清新写实的风格，画面力求精致细腻，光影效果出色，构图专业，具有高品质视觉效果。（左即梦、右豆包）

对于普通用户来说，豆包通过提示词优化，极大降低了创作门槛。

接下来我们来说第二点：一次对话可以支持生成1到20张的图片，批量出图又快又省事。

这次图像生成支持多图片、多尺寸来进行生成。

以我的狗子头像为例，我可以让它一次性生成10个表情包，然后再加上文字，特别可爱；比之前一个一个生成要省事好多，而且这些表情包的一致性也很不错。

除了批量出图外，豆包还支持一键生成不同尺寸的图。

如果你在生成的时候不知道什么尺寸好看，可以告诉豆包你需要多个不同尺寸的，然后生成了自己挑选。

接下来我们来说第三点：上下文理解能力非常强，动动嘴就能轻松修图

基于模型的上下文理解能力，豆包能够在多次历史对话中找到你说的那张图，然后进行调整。

还以上边我画的狗子表情包为例，这次我们让它给第七张表情弄的凶一点、第五张再激动一点、最后一张再可爱一点，豆包都能精准的抓到对哪一张做什么变更。

再让它给狗子做成科技版的头像，可以进行多轮对话的调整，效果非常棒。

测试了几轮下来，感觉这个修图的体验感觉跟4o很接近了。

到此用户体验维度的三点说完了。

它们加一起，构成了我刚开始对豆包图像的判断：

豆包通过任务规划及提示词优化，大幅降低了AI绘图的专业门槛，让普通人能一句话画出高质量作品。

对于用户来说，我不在乎你的产品参数有多强，我就希望简单能出高质量结果，谁能做到我就去用谁；模型侧是这样、产品侧也是这样。

谁简单效果还好，用户就会投票给它。

接下来我们来讲技术实现维度，我们来看看豆包图像从AI设计角度来看它是如何实现的。

接下来的拆解只包含正向工作流，各种异常值我就不考虑了，不在此次拆解范围内。

我们就以这个狗子表情包来做案例给大家分析，豆包图像从产品设计上是如何实现的。

当我告诉豆包让它基于这个狗子头像来生成10个表情包，它会先去做一轮任务拆解，梳理清楚用户到底要做什么事情，需要生成几个图片。

在这个环节梳理完后，它会生成指令去发给作图的API（垫图应该是即梦2.0pro，不垫图是3.0）

为了方便大家理解，我就把json代码都改成中文的了类型：

图片生成数量：10

提示词1：

画面采用清新可爱的水彩画风格，背景为简洁白色。主体是一只毛色黑白相间、眼神明亮、嘴角带微笑的哈士奇，右前爪旁有黄色星星图案。哈士奇呈现开心张嘴吐舌的表情，表情生动，色彩柔和，笔触轻快，营造活泼有趣氛围，1：1（1:1是尺寸信息）

提示词2：

画面采用清新可爱的水彩画风格，背景为简洁白色。主体是一只毛色黑白相间、眼神明亮、嘴角带微笑的哈士奇，右前爪旁有黄色星星图案。哈士奇呈现开心张嘴吐舌的表情，表情生动，色彩柔和，笔触轻快，营造活泼有趣氛围，1：1

等待api返回图片后，豆包就展示到前端，这样我们就看到了第一组的狗子表情包了。

第一次没有文字，我就又通过指令加了一次文字，但这个流程区别不大我们就不单独拆了，我们来说这个上下文流程中，豆包是怎么精准识别到每一个图片的。

这里的难点在于图片的顺序，到底要抽哪一张图片。

所以推测豆包在返回前端的时候每一个图像应该都做了单独的处理，会给图片标注对应的顺序，方便后续模型去快速理解用户说的是那一张图。

可能的队列展示情况如下：01：url链接…02：url链接…03：url链接…

基于图像的队列，在跟豆包说具体的张数的时候它能够很清晰的找到那一张，然后进行基于图片的微调；微调流程和我们上边画的图一样，就不细提了。

这里比较难的点就是上下文传入的工程要怎么处理，简单做法就是打满上下文的token，复杂一点就是上下文每一段做索引，后续让模型自己调用；不过这块应该是延续之前模型的处理能力，目前测试下来十几轮还是有不错的稳定性。

这是垫图版本的，没有垫图比如说一句话指令会有什么区别呢？

比如说这个躺平表情包的制作，目前测试看起来拆解流程都是一样的，没有垫图调用的应该是即梦3.0画的，如果垫图了应该走的是即梦2.0pro或者内部微调的3.0模型。

抽象出来的正向的工作流差不多这些，异常的我们就不拆解了，那些细节边界条件比正向要花更多的时间。

用户体验维度和技术实现维度我们都分析完了，在最后我分享一下对C端AI产品设计思路的思考~

用户其实不在乎你是不是AI产品，更关键的是他的需求你到底有没有解决掉。

你能解决用户的需求，你就是日活高留存高的好产品，你解决不了你宣传再多的AI，也是体验一次用户就放弃。

解决问题的思路从pc互联网、移动互联网、AI从来都没变过，无非就看哪个团队愿意去一线认真研究用户的问题是什么、认真听用户的反馈、认真去解决问题。

AI也不是高高在上，它本来就在人间。

本文由人人都是产品经理作者【云舒】，微信公众号：【云舒的AI实践笔记】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自豆包官网截图

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

研究AI产品方向，公众号：云舒的AI观察笔记

26篇作品 67451总阅读量

我在B端做数据分析——指标篇

05-0914918 浏览

我在B端做数据分析——指标篇

苦情戏主播又作妖了

04-122032 浏览

苦情戏主播又作妖了

UI转产品，涨薪30%，只需90天：我的成功之路

刚刚

大语言模型实现智能客服知识库文档数据提取功能

05-0910486 浏览

大语言模型实现智能客服知识库文档数据提取功能

体验日常：从“问卷调查看体验”

12-164957 浏览

体验日常：从“问卷调查看体验”

十六番旅游app产品分析

06-0721007 浏览

十六番旅游app产品分析

评论

目前还没评论，等你发挥！

案例分析：同样是B端产品经理，为什么你接定制化需求这么难？

超烦人的“输入密码”，就要被谷歌们彻底消灭了

05-062861 浏览
B端产品设计的挑战与机遇：打造用户体验至上的解决方案

12-012331 浏览
2023上半年十大营销关键词

07-213273 浏览

18336人已学习15篇文章

语音交互的入门指南

语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。本专题的文章分享了语音交互的入门指南。

19669人已学习13篇文章

如何做功能/产品的拆解？

本专题的文章分享了从不同维度拆解一款产品或者功能，有利于提升我们对于产品和功能的思考能力。

13032人已学习14篇文章

交互规范指南

良好的交互规范可以很好的帮助企业、团队提高产出，保证用户体验。本专题的文章分享了交互规范指南。

12754人已学习12篇文章

互联网运营，应该分析哪些数据和指标？

运营分很多类，流量运营、用户运营、内容运营…每一个环节都有特别关注的数据和指标。本专题的文章分享了互联网运营，应该分析哪些数据和指标。

15167人已学习13篇文章

如何搭建自动化营销平台

营销自动化是一个可用于自动执行营销任务的工具。本专题的文章分享了如何搭建自动化营销平台。

13168人已学习15篇文章

产品推广策略

该如何有效推广？有效推广的策略有哪些呢？本专题的文章分享了产品推广策略。