实测完豆包图片生成Agent,我拆解了它的设计亮点和技术实现逻辑

云舒
0 评论 2934 浏览 3 收藏 14 分钟
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

豆包图片生成Agent的beta模式测试揭示了其在降低AI绘图门槛和提升用户体验方面的显著进步。文章将深入探讨这款产品的设计亮点和技术实现逻辑,分析其如何通过优化提示词和任务规划,使得用户能够轻松生成高质量图像作品。

前两天豆包图像生成开了beta模式(CreationAgent),推到我了我就点进去体验了一番,测完我在群里跟大家感慨这个功能真是太强了,豆包对C端用户的理解能力只能说:🐂🍺

简单来说,豆包通过任务规划及提示词优化,大幅降低了AI绘图的专业门槛,让普通人能一句话画出高质量作品。

这是一个非常棒的C端功能,因此我决定写篇文章来细拆一下,主要聚焦在两个维度上:

1. 用户体验维度:这个产品有哪些设计非常棒的地方

2. 技术实现维度:从AI设计角度来看它是如何实现的

那我们先从第一个维度开始,我们聚焦在用户体验维度,看看这个产品设计好在哪。

我测了很多案例,然后总结了三个我体验下来觉得比较核心的点:

1. 一句简单描述就能出高质量作品,不需要再去苦想提示词

2. 一次对话可以支持生成1到20张的图片,批量出图又快又省事

3. 上下文理解能力非常强,动动嘴就能轻松修图

补充知识:豆包和即梦画图的模型底座是一样的,可能会有微调差异,但整体底层是一样的;所以我们直接用豆包和即梦进行提示词对比,来帮助大家更好的理解差异。

那我们先从第一点开始说起:一句简单描述就能出高质量作品,不需要再去苦想提示词

我自己也是个绘画小白,你让我写绘画提示词,比如说弄个五一出去玩的,我最多最多写:要五一了准备去北京玩。

在复杂我真是写不出来了,没那个水平。

但用这种提示词去即梦生成效果就很一般;于是豆包直接让模型理解用户的需求,再去单独写提示词,生成效果就比原始的描述好了很多。

要五一了准备去北京玩。(左即梦、右豆包)

飞流直下三千尺,疑是银河落九天。(左即梦、右豆包)

小鸡打鸣太阳升起来了。(左即梦、右豆包)

我抽了几个我能日常想到的描述用词,很明显简单的话描述还是豆包更出彩一点。长文本我也测了一下,基本上区别不大吧,看这两组图长得多像就知道了。

一头巨大的鲸鱼高高跃出湛蓝的水面,溅起晶莹的水花。阳光洒在鲸鱼身上,闪耀着金色的光芒,天空中飘着几朵洁白的云朵,与蓝色的大海相互映衬。整体呈现出清新写实的风格,画面力求精致细腻,光影效果出色,构图专业,具有高品质视觉效果。(左即梦、右豆包)

对于普通用户来说,豆包通过提示词优化,极大降低了创作门槛。

接下来我们来说第二点:一次对话可以支持生成1到20张的图片,批量出图又快又省事。

这次图像生成支持多图片、多尺寸来进行生成。

以我的狗子头像为例,我可以让它一次性生成10个表情包,然后再加上文字,特别可爱;比之前一个一个生成要省事好多,而且这些表情包的一致性也很不错。

除了批量出图外,豆包还支持一键生成不同尺寸的图。

如果你在生成的时候不知道什么尺寸好看,可以告诉豆包你需要多个不同尺寸的,然后生成了自己挑选。

接下来我们来说第三点:上下文理解能力非常强,动动嘴就能轻松修图

基于模型的上下文理解能力,豆包能够在多次历史对话中找到你说的那张图,然后进行调整。

还以上边我画的狗子表情包为例,这次我们让它给第七张表情弄的凶一点、第五张再激动一点、最后一张再可爱一点,豆包都能精准的抓到对哪一张做什么变更。

再让它给狗子做成科技版的头像,可以进行多轮对话的调整,效果非常棒。

测试了几轮下来,感觉这个修图的体验感觉跟4o很接近了。

到此用户体验维度的三点说完了。

它们加一起,构成了我刚开始对豆包图像的判断:

豆包通过任务规划及提示词优化,大幅降低了AI绘图的专业门槛,让普通人能一句话画出高质量作品。

对于用户来说,我不在乎你的产品参数有多强,我就希望简单能出高质量结果,谁能做到我就去用谁;模型侧是这样、产品侧也是这样。

谁简单效果还好,用户就会投票给它。

接下来我们来讲技术实现维度,我们来看看豆包图像从AI设计角度来看它是如何实现的。

接下来的拆解只包含正向工作流,各种异常值我就不考虑了,不在此次拆解范围内。

我们就以这个狗子表情包来做案例给大家分析,豆包图像从产品设计上是如何实现的。

当我告诉豆包让它基于这个狗子头像来生成10个表情包,它会先去做一轮任务拆解,梳理清楚用户到底要做什么事情,需要生成几个图片。

在这个环节梳理完后,它会生成指令去发给作图的API(垫图应该是即梦2.0pro,不垫图是3.0)

为了方便大家理解,我就把json代码都改成中文的了类型:

图片生成数量:10

提示词1:

画面采用清新可爱的水彩画风格,背景为简洁白色。主体是一只毛色黑白相间、眼神明亮、嘴角带微笑的哈士奇,右前爪旁有黄色星星图案。哈士奇呈现开心张嘴吐舌的表情,表情生动,色彩柔和,笔触轻快,营造活泼有趣氛围,1:1(1:1是尺寸信息)

提示词2:

画面采用清新可爱的水彩画风格,背景为简洁白色。主体是一只毛色黑白相间、眼神明亮、嘴角带微笑的哈士奇,右前爪旁有黄色星星图案。哈士奇呈现开心张嘴吐舌的表情,表情生动,色彩柔和,笔触轻快,营造活泼有趣氛围,1:1

等待api返回图片后,豆包就展示到前端,这样我们就看到了第一组的狗子表情包了。

第一次没有文字,我就又通过指令加了一次文字,但这个流程区别不大我们就不单独拆了,我们来说这个上下文流程中,豆包是怎么精准识别到每一个图片的。

这里的难点在于图片的顺序,到底要抽哪一张图片。

所以推测豆包在返回前端的时候每一个图像应该都做了单独的处理,会给图片标注对应的顺序,方便后续模型去快速理解用户说的是那一张图。

可能的队列展示情况如下:01:url链接…02:url链接…03:url链接…

基于图像的队列,在跟豆包说具体的张数的时候它能够很清晰的找到那一张,然后进行基于图片的微调;微调流程和我们上边画的图一样,就不细提了。

这里比较难的点就是上下文传入的工程要怎么处理,简单做法就是打满上下文的token,复杂一点就是上下文每一段做索引,后续让模型自己调用;不过这块应该是延续之前模型的处理能力,目前测试下来十几轮还是有不错的稳定性。

这是垫图版本的,没有垫图比如说一句话指令会有什么区别呢?

比如说这个躺平表情包的制作,目前测试看起来拆解流程都是一样的,没有垫图调用的应该是即梦3.0画的,如果垫图了应该走的是即梦2.0pro或者内部微调的3.0模型。

抽象出来的正向的工作流差不多这些,异常的我们就不拆解了,那些细节边界条件比正向要花更多的时间。

用户体验维度和技术实现维度我们都分析完了,在最后我分享一下对C端AI产品设计思路的思考~

用户其实不在乎你是不是AI产品,更关键的是他的需求你到底有没有解决掉。

你能解决用户的需求,你就是日活高留存高的好产品,你解决不了你宣传再多的AI,也是体验一次用户就放弃。

解决问题的思路从pc互联网、移动互联网、AI从来都没变过,无非就看哪个团队愿意去一线认真研究用户的问题是什么、认真听用户的反馈、认真去解决问题。

AI也不是高高在上,它本来就在人间。

本文由人人都是产品经理作者【云舒】,微信公众号:【云舒的AI实践笔记】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自豆包官网截图

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
18336人已学习15篇文章
语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。本专题的文章分享了语音交互的入门指南。
专题
19669人已学习13篇文章
本专题的文章分享了从不同维度拆解一款产品或者功能,有利于提升我们对于产品和功能的思考能力。
专题
13032人已学习14篇文章
良好的交互规范可以很好的帮助企业、团队提高产出,保证用户体验。本专题的文章分享了交互规范指南。
专题
12754人已学习12篇文章
运营分很多类,流量运营、用户运营、内容运营…每一个环节都有特别关注的数据和指标。本专题的文章分享了互联网运营,应该分析哪些数据和指标。
专题
15167人已学习13篇文章
营销自动化是一个可用于自动执行营销任务的工具。本专题的文章分享了如何搭建自动化营销平台。
专题
13168人已学习15篇文章
该如何有效推广?有效推广的策略有哪些呢?本专题的文章分享了产品推广策略。