Nano Banana 2 全网最全攻略

0 评论 246 浏览 0 收藏 31 分钟

Google的Nano Banana系列图像模型迎来重磅升级,Nano Banana 2以闪电般的速度和超高性价比刷新文生图体验。这款代号gemini-3.1-flash-image-preview的模型支持4K分辨率、极端宽高比和多轮对话式编辑,更拥有实时搜索、多图融合等独门绝技。本文将全面解析模型特性、使用技巧与API调用方案,助你在创作效率与质量间找到完美平衡点。

昨晚正在用 Nano Banana Pro 生成文章配图呢,突然Nano Banana2跟鬼一样就出现了,我以为网站卡了

刷新了下发现真的出了一个Nano Banana 2,没来得及测试,我先去Twitter找它们官媒账号,发现没有任何宣传…

我以为是把Nano Banana Pro改了个名,所以不慌不忙的就试用了下,结果……

每次测试生图模型的时候,我一般都会写一个复杂的提示词,把画面元素拉满!

如果效果不好再依次递减元素和要求,算是我的一种测试模型能力边界的习惯吧……

在当时测试Nano Banana Pro的时候,也是这个提示词,这张图可以看出是非常密集的元素了,但是没有抽卡,一次直出

虽然 Nano Banana Pro 输出的也相差无几,但Nano Banana 2 的速度比 Nano Banana Pro 要快非常多!

说实话,我第一次听到Nano Banana这个名字的时候是懵的。

Google 在给模型取代号这件事上一直挺神秘,直到我去翻官方文档,才搞清楚这其实是他们图像模型系列的内部代号体系——Banana 家族,Nano 级别对应的是 Flash 效率版,Pro 级别就是 Nano Banana Pro。

而Nano Banana 2,真正的模型名称叫gemini-3.1-flash-image-preview

昨晚刚出的模型,在 HuggingFace 的排行榜上,现在已经全球文生图综合第一了……

但不管怎么说,我觉得值得认真介绍一下这个东西 ——便宜、强、快

这篇,我会把我知道的全部整理进来,从模型是什么、怎么用、在哪里用、API 怎么调,到提示词策略,能写多细就写多细。你可以按目录跳到自己需要的部分,不用从头读。

一、模型介绍

1.1 先搞清楚 Nano Banana 是什么

Google 给自家图像模型取了一套水果代号,用来和普通的 Gemini 文本模型区分——这套代号目前就两个级别:

  • Nano Banana= Gemini Flash Image 系列(效率级,追求速度和价格)
  • Nano Banana Pro= Gemini Pro Image 系列(专业级,追求质量和细节)
  • Nano Banana 2 是 Nano Banana 的第二代,官方模型 ID 是 gemini-3.1-flash-image-preview。

有一点容易混淆的是:调 API 的时候要用 gemini-3.1-flash-image-preview,不是nano-banana-2。

nano-banana-2 只是一个别称,别搜错了。

它的定位很清晰——Gemini 3 Pro Image 的高效率对标版本,主流定价,低延迟,专门为大量调用的开发者场景设计的。

1.2 模型能力边界

Nano Banana 2 能做的事大概是这些:

  1. 文生图:给文字描述,出图。这是最基础的,不用多解释。
  2. 图像编辑:传入一张图 + 文字指令,然后模型帮你加东西、删东西、改风格、换色调。这个体验比很多专门的编辑工具顺手。
  3. 多轮对话式编辑:这个是我最喜欢的功能。你可以在同一个对话里持续迭代,说”把背景换成夜景”,然后再说”把人物的衣服改成红色”,模型会记住上下文,一步步改过去。官方也特别强调这是推荐的使用方式,我深度认同。
  4. 图文混合输出:可以同时输出图像和配套文字,比如让它生成一张光合作用的信息图,它会把图和说明文字一起给你。
  5. 实时搜索:这个是 Nano Banana 2 的独门绝技,而且连 Nano Banana Pro 都没有完整支持。它可以调用 Google 搜索和 Google 图片搜索的实时信息来生成图像——比如让它画一张最新的某场球赛比分图,它真的能联网查然后生成。后面测试部分会重点展示这个。
  6. 多参考图融合:最多支持传入 14 张参考图,其中最多 10 张物体参考图(高保真复现)+ 最多 4 张角色参考图(保持角色一致性)。这个对做 IP 内容的人来说绝对是利器。

1.3 技术参数一览

有几个参数我觉得特别值得单独说一下:

分辨率这块,Nano Banana 2 新增了 0.5K、2K、4K 三档,之前的前代 Nano Banana 只有 1K。

4K 图的细节密度是 1K 的 16 倍,对做印刷物料的人来说这个升级很实用

宽高比也是本次的大升级,新增了 1:4、4:1、1:8、8:1 这几个超极端比例。1:8 适合做超长竖版手机壁纸或长图海报,8:1 适合做横幅 Banner。

以前很多场景要用 PS 拼接,现在直接出

Thinking 模式这个要理解一下 —— 所有 Gemini 3 图像模型都是思考型模型,Thinking 是始终启用的,不能关闭。

Nano Banana 2 的特别之处是你可以控制 Thinking Level,默认是 minimal(最小思考量,速度最快),也可以设置成 high(高思考量,复杂场景画质更好,但耗时更长)

1.4 Nano Banana 2 和 Nano Banana Pro,到底选哪个?

我自己的选择标准很简单:

Nano Banana 2 的场景:日常创作测试、批量内容生产、对延迟有要求的 C 端产品、预算有限、快速原型验证;

Nano Banana Pro 的场景:要出商业级精品素材、提示词非常复杂、对细节要求极高、不在乎多花一些钱和时间。

老实说,我日常 80% 的需求用 Nano Banana 2 就搞定了。

所以从质量来说,还是Nano Banana Pro 更顶尖,但是如果是要商用或批量,Nano Banana 2 更具有性价比。

二、模型使用

2.1 官方渠道

Gemini 官网 & App

最简单的入口,适合零代码用户直接上手体验。打开Gemini,登录 Google 账号就能开始对话式出图。

移动端直接在手机应用商店搜 Gemini 下载 App,体验是一样的。

使用方式就是普通聊天,直接用中文说你想要什么图就行,比如”帮我生成一张赛博朋克风格的上海街景,霓虹灯,雨后积水倒影,垂直构图”,然后等它出图,再在同一个对话框里继续修改。

这里并不会显示模型版本,但是默认Nano Banana 2 是快速模式,所以把模式切换成Fast即可

Google AI Studio

这个是我平时用得最多的调试工具,而且一般Google上新模型都会先上这个。

进入AI Studio,在左侧模型选择器里找到 Nano Banana 2(gemini-3.1-flash-image-preview)。 右侧面板可以直接配置参数:

  • Output format:可以选”Images & text”(图文混合)或”Images only”(纯图)
  • Aspect ratio:宽高比,选 Auto 或者手动指定
  • Resolution:分辨率,1K/2K/4K/0.5K 都在这里切
  • Thinking level:Minimal 或 High
  • Grounding with Google Search:勾选后可以开启搜索,还能单独开 Image Search
  • 调好参数之后直接打提示词,出图效果直接可见。

Google Flow

Google Flow 是 Google 推出的 AI 驱动工作流工具,Nano Banana 2 已经集成在里面了。

它比 AI Studio 更偏向工作流自动化,可以把图像生成嵌进更大的业务流程里,比如自动生成内容后直接发布。 对普通用户来说可能 AI Studio 就够了,Flow 更适合想要搭自动化流水线的团队。

但是这个工具网站有 150免费信用积分,这个羊毛可以薅!

2.2 第三方平台

国内用户如果在访问 Google 服务上有阻碍,或者想在一个平台同时用多个模型做对比,第三方平台也是很好的选择

Lovart

Lovart 就不多介绍了,一个设计Agent工具,非常迅速,已经集成了 Nano Banana 2。

进入Lovart,注册账号后就能直接用。 和 AI Studio 不同的是,Lovart 的产品逻辑更偏向设计师——它会帮你把生成、排版、品牌应用这些环节串起来,适合做海报、品牌物料、插画这类有完整设计需求的场景。

如果你是设计师或者内容创作者,Lovart 更顺手一些。

YouMind

YouMind ,使用流程一样是注册账号、充值、选模型、输入提示词,按 Token 或按次计费。关键是每天送1000积分,这个羊毛也要薅!

关于第三方平台,其实还有很多,比如Genspark、Skywork等,只不过手慢了点,这会儿还没上线,不过后面也会陆陆续续上的。

所以我建议穷逼玩家,咱直接就辗转多个平台蹭免费积分就完了!薅羊毛都够生成很多素材了

2.3 API 调用

这部分面向开发者,我会把三个路径都说清楚。

Google 官方 API

最直接的方式,在 AI Studio 里拿到 API Key(Settings → API Keys → Create API Key),然后用官方 SDK 调用。

几个参数要注意的细节:

分辨率参数必须用大写 K(1K、2K、4K),官方文档特别标注了小写会被拒绝。

Thinking Level 可以通过thinking_config参数控制,默认 minimal,复杂场景可以设 high。

开启搜索(Grounding with Google Search)里面,IMAGE_SEARCH 这个功能只有 Nano Banana 2(3.1 Flash)支持,Pro 版没有,这是 2 的独家能力。

关于价格,Nano Banana 2是目前性价比极高的选择,其成本仅为Nano Banana Pro 版本的约1/4甚至更低

AIHubMix(国内友好)

AIHubMix 这个第三方模型服务厂商也非常迅速,已经上线了 Nano Banana 2,国内访问很顺畅,兼容 OpenAI 格式调用,对已经用过其他 AI API 的开发者上手成本极低。

进入AI HubMix,注册充值后在模型列表里找gemini-3.1-flash-image-preview。

但注意:AIHubMix 的 OpenAI 端点不支持 4K 分辨率,默认 1K,宽高比通过 system message 传入,这个和官方 SDK 的参数方式不太一样,初用的时候容易踩坑。

OpenRouter(国际路线)

OpenRouter 的模型 ID 是 google/gemini-3.1-flash-image-preview

不知道为啥,Nano Banana 2 的定价比其他渠道都要便宜些,延迟约 13 秒,正常运行时间 100%,适合海外用户或需要多模型路由统一管理的团队去用

三、模型测评

就不再分维度去测试了,本质上来说是直接蒸馏出来的一个小模型,甚至可能在某些方面还不如原来的版本…..

既然特点是便宜、强、快!只有快这个点可以数据统计下,所以每张图我都会用手机计时,将生成时间&抽卡次数标记上:

23s直出未抽卡:创作一幅逼真的《Vogue》杂志封面风格的时尚肖像。一位年轻优雅的女性自信地摆出姿势,保持其原有的面部特征和自然美。她左眼眨动,露出俏皮的鸭嘴表情。双手抬起,在脸部附近形成一个爱心手势。她被周围的多个单反相机和智能手机包围,仿佛狗仔队和摄影师正从各个方向捕捉她的身影。一些手机屏幕上还显示着她的实时图像。

外观与造型:无瑕的肌肤光泽,自然妆容搭配光泽粉唇、柔和腮红和微妙高光。浅棕色头发整齐地盘扎成低发髻,仅有几缕散落。

服装与配饰:优雅简约的米白色无肩带晚礼服,路易威登项链,钻石戒指,奢华时尚珠宝。

摄影风格:特写至半身时尚肖像,Vogue杂志编辑美学,电影级专业工作室灯光,柔和的HDR背景,浅景深,逼真的皮肤纹理,超细节,8K画质。

相机与镜头外观:专业单反外观,85mm镜头感觉,f/1.8光圈,清晰对焦,背景散景柔和。

构图:Vogue杂志版面,顶部有大而醒目的标志,编辑时尚封面框架,干净优雅的设计。

氛围与感觉:俏皮而奢华,高级时尚美容编辑,逼真,非AI感,由专业时尚摄影师拍摄。

48s联网检索直出未抽卡:请根据 THE 2028 GLOBAL INTELLIGENCE CRISIS 这篇文章,遵循以下指南,制作一个卡通风格的信息图表:

– 手绘插图风格,横向(16:9 宽高比)。

– 加入少量简单的卡通元素、图标或著名人物,以增强视觉趣味性和记忆度。

– 如果内容包含敏感或受版权保护的图形,请用视觉上相似的替代品替换它们;不要拒绝生成插图。

– 所有图像和文本必须严格遵循手绘风格;避免使用写实视觉元素。

– 保持信息简洁,突出关键词和核心概念。利用充足的空白来清晰地强调关键点。

– 图中文字请使用中文。

18s直出未抽卡:在构图的正中央,食材层上方醒目地悬浮着一个奢华的标题标签。文字为“担担面 DAN DAN NOODLES”,采用富有表现力的手写毛笔字风格。字母呈现出厚重、三维雕刻的金色金属质感,并经过拉丝处理,散发出温暖的金色光泽,在工作室的强烈灯光下,反射出逼真的金属光泽。它看起来就像锻造的金笔触,在空间中漂浮。高级中式面馆食品海报,以解构式层次展示的担担面/辣子川面在纯黑色背景上垂直堆叠。从顶部到底部(主金色标题下方)共有七层,且在最后一道菜前留有额外间距:

*顶层:一堆鲜红的干辣椒片和金黄色的花椒粉

*第二层:淡黄色的碎花生和鲜绿色的葱花碎屑散落其中

*第三层:淡黄色的手工碱水面卷曲着,纹理清晰可见,面条根根分明

*第四层:黄豆芽(芽菜)和鲜绿色的豌豆散落其中——这些蔬菜会先放入碗中

*第五层:透明的玻璃碗中盛放着深红色的辣子油汤,可见漂浮的辣椒片,汤面光泽映照——这汤底浇在蔬菜上,因此在垂直堆叠中看起来位于蔬菜下方

*第六层:空白空间——较大的间隙,只有微妙的浮油滴、蒸汽缕和小颗粒食材飘落,营造出视觉上的分隔和呼吸空间

*底层/最后一层(上方间隙明显更大):一盘完整的担担面盛放在传统的深棕色陶瓷碗中,从与上方所有其他层次相同的45度角视角观看。碗中汇集了所有食材——淡黄色的面条裹着光泽的红辣椒油,上面撒着碎花生、鲜绿色的葱花碎屑、黄豆芽、豌豆和红辣椒片。

面条看起来刚拌好,油光闪闪,微妙的蒸汽升起。这盘成品与上方解构式食材的尺寸和视角相同。上方的额外间距强调了这是最终结果,生动地展示了从分离的食材到完整菜肴的转变过程。每一层之间都留有间隙,展现出纹理和细节。

第1至5层之间保持正常间距。

第6层是特意留空的过渡层,间距是正常间距的两倍或三倍。

第7层(成品菜肴)位于底部,视觉上清晰分隔。中英双语标签,配有优雅的箭头指向每个配料:“辣椒油&花椒粉 Chili Oil & Sichuan Pepper Powder”,“麻辣风味 Numbing & Spicy Flavor”,“花生碎&葱花 Crushed Peanuts & Scallions”,“手工碱面 Handmade Noodles”,“芽菜&豌豆 Yacai & Peas”,“丰富配料 Rich Toppings”,“红油汤底 Spicy Red Broth”,“成品 Finished Dish”。无白色底座,无平台基座。所有图层在纯黑色背景中自由漂浮。45度角戏剧性的工作室灯光,边缘照明突出了纹理和玻璃碗的透明度。包括成品碗和顶部金色标题在内的所有图层,在灯光、视角和逼真度上保持一致。微妙的蒸汽效果,油滴在图层周围漂浮,空旷的过渡空间中有更多颗粒。成品盘右下角有星星闪耀效果。暗色调美学,豪华商业食品摄影风格,超逼真,细节丰富,专业餐厅广告品质,9:16竖屏格式。

14s联网检索直出未抽卡:高保真、广角现代客厅内景,赛博阴影2D动漫和卡通角色无缝融合。场景将逼真的3D环境与互动动漫角色如哆啦A梦、野比大雄、迪迦奥特曼和蜡笔小新等结合,呈现出梦幻、电影般的审美风格。画面比例:16:9

23s直出未抽卡:将图1中的雷军替换成图2,风格保持和原雷军形象统一的风格。正下方的”雷军”二字改成”小普”;右下角的小米logo风格不变,但”MI”改成”XP”

63s直出无抽卡:根据上传的草稿图生成真实场景分镜总览图

四、提示词策略

4.1 Nano Banana 2 提示词基本框架

官方文档其实给出了一个很重要的核心原则,我翻译一下:描述场景,不要只堆关键词。

模型的语言理解能力很强,一段描述性的段落几乎永远比一堆孤立的词效果好。我自己用下来总结了一套提示词框架,大概这样:

[画面主体描述] + [场景/环境设定] + [风格/艺术参考] + [光线/色调] + [构图/视角] + [技术参数]

举个例子,与其写”一个女孩,城市,赛博朋克,夜晚”,不如写:

一位独自的年轻女子穿着透明的雨披站在街角,在雨淋淋的赛博朋克东京,2077年。她脚下的湿漉漉的人行道上反射着日文的全息广告。情绪化的电影色彩分级,以主导的霓虹蓝和洋红色为主。低角度摄像机略微向上看,营造出戏剧性的比例感。使用变形镜头拍摄,信箱裁剪,胶片颗粒。

差别很大的,真的。

4.2 官方推荐进阶策略

官方文档里有一套 Best Practices,我觉得含金量挺高的,整理翻译一下加上我自己的理解:

极致具体(Be Hyper-Specific):与其说”奇幻盔甲”,不如说”精美的精灵板甲,蚀刻银叶纹路,高领,肩甲形如猎鹰翅膀展开”。

细节越多,模型能发挥的空间越小,你能控制的空间就越大。

这个道理懂,但真正做到需要一定的练习。

提供用途背景(Provide Context and Intent):告诉模型这张图是干什么用的,会显著影响结果。”创建一个高端极简护肤品牌的 Logo” 明显比 “创建一个 Logo” 好。

模型会根据用途语境自动调整风格基调。

迭代而不是重做(Iterate and Refine):这个我强调过了,利用多轮对话,不要每次都从零重写。

出图之后说”很好,但光线再暖一点”、”保持不变,把表情改严肃一些”,效率和效果都比重来强。

分步骤描述复杂场景:对于元素特别多的复杂场景,可以把提示词拆成几步来写,类似”先创建一个清晨雾气弥漫的森林背景,然后在前景加一座苔藓覆盖的古代石祭坛,最后在祭坛上放一把发光的剑”。

层次感很清晰,模型处理起来比一段话堆下去更可控。

语义化负向提示(Semantic Negative Prompts):官方给的建议是,与其说”没有汽车”,不如正向描述”一条空旷的街道,没有任何交通的迹象”。

我觉得这个思路有点绕,但逻辑是对的——用场景感替代简单的否定,效果更稳定。

用电影语言控制构图:广角镜、微距镜头、低角度仰拍、荷兰角、鸟瞰俯视,这些词对模型都有效,跟真正的摄影术语是绑定的。

4.3 常见提示词误区

做了这么多测试,踩过不少坑,这里说几个最常见的。

误区一:关键词堆砌。

见过很多人写提示词就是”超高清,8K,电影级,大师作品,获奖摄影,写实,逼真,HDR,精细,完美”……然后图出来依然很一般。

这类词不是不能用,但它们不能替代对实际画面内容的描述。

先说清楚你要画什么,再加上质量类关键词,顺序很重要。

误区二:中英文混杂。

提示词里中英文混着写,我自己测下来效果不如纯英文稳定。

Nano Banana 2 对中文语义理解是没问题的,但如果你对输出质量要求高,建议全英文提示词,尤其是涉及风格、光线、构图这些专业词汇时。

误区三:描述本身产生矛盾。

比如”一张极度写实的照片,赛博朋克动漫风格”——写实和动漫是两个方向,模型会困惑。

要么写实,要么动漫,别让它猜。

误区四:期待第一张图就完美。

这个思路本身就是问题所在。

用好多轮对话才是正确姿势,第一张图是起点,不是终点。 当然Nano Banana系列本身能力比较强,一般来说很少会频繁抽卡,我最多也就抽卡4次。

误区五:忘了告诉模型输出格式。

如果你只要图,明确写”仅输出图像,无需文字说明”;

如果你需要图文并茂,写”提供所生成内容的伴随描述”。

不说的话,模型有时候会自己加一堆乱七八糟的说明文字,体感不是很好。

五、优质提示词资源

说完技巧,最后推荐几个实用资源,有很多同学每次看到模型更新,技痒难耐,但是真到了测试模型突然感觉脑子空白,一句话也憋不出来干着急。(我也是)

所以有一些优质提示词作为参考的话,可以快速调整就能用来测试了!

BestPromptClub

Studentdiscount.io

这两个网址专门收集了 Nano Banana系列 出的优质案例,Prompt可以一键复制。

包括这两个工具平台也有专门的 Nano Banana系的提示词资源:

YouMind

Fotor

还有就是Github上有非常多的开源提示词库,我搜集了一些:

直接搜:

JimmyLv/awesome-nano-banana

PicoTrex/Awesome-Nano-Banana-images

songguoxs/gpt4o-image-prompts

ZeroLu/awesome-nanobanana-pro

ZHO-ZHO-ZHO/ZHO-nano-banana-Creation

YouMind-OpenLab/awesome-nano-banana-pro-prompts

至此,燃尽了……

以前用 Banana Pro 画图,一张 1K 的图就要一块钱。

这次更新的 Nano Banana 2 终于把价格打了下来,腰斩了一下,差不多五毛一张图。

说白了,这次最大的特点,其实就是更快更便宜了。

主要是借此,直接把Nano Banana这个系列的使用渠道以及对应的一些资源技巧做个总结

本文由 @小普 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!