Nano Banana 2 全网最全攻略

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

小普

2026-03-01

1 评论 7251 浏览 17 收藏

31 分钟

Google的Nano Banana系列图像模型迎来重磅升级，Nano Banana 2以闪电般的速度和超高性价比刷新文生图体验。这款代号gemini-3.1-flash-image-preview的模型支持4K分辨率、极端宽高比和多轮对话式编辑，更拥有实时搜索、多图融合等独门绝技。本文将全面解析模型特性、使用技巧与API调用方案，助你在创作效率与质量间找到完美平衡点。

昨晚正在用 Nano Banana Pro 生成文章配图呢，突然Nano Banana2跟鬼一样就出现了，我以为网站卡了

刷新了下发现真的出了一个Nano Banana 2，没来得及测试，我先去Twitter找它们官媒账号，发现没有任何宣传…

我以为是把Nano Banana Pro改了个名，所以不慌不忙的就试用了下，结果……

每次测试生图模型的时候，我一般都会写一个复杂的提示词，把画面元素拉满！

如果效果不好再依次递减元素和要求，算是我的一种测试模型能力边界的习惯吧……

在当时测试Nano Banana Pro的时候，也是这个提示词，这张图可以看出是非常密集的元素了，但是没有抽卡，一次直出

虽然 Nano Banana Pro 输出的也相差无几，但Nano Banana 2 的速度比 Nano Banana Pro 要快非常多！

说实话，我第一次听到Nano Banana这个名字的时候是懵的。

Google 在给模型取代号这件事上一直挺神秘，直到我去翻官方文档，才搞清楚这其实是他们图像模型系列的内部代号体系——Banana 家族，Nano 级别对应的是 Flash 效率版，Pro 级别就是 Nano Banana Pro。

而Nano Banana 2，真正的模型名称叫gemini-3.1-flash-image-preview

昨晚刚出的模型，在 HuggingFace 的排行榜上，现在已经全球文生图综合第一了……

但不管怎么说，我觉得值得认真介绍一下这个东西 ——便宜、强、快！

这篇，我会把我知道的全部整理进来，从模型是什么、怎么用、在哪里用、API 怎么调，到提示词策略，能写多细就写多细。你可以按目录跳到自己需要的部分，不用从头读。

一、模型介绍

1.1 先搞清楚 Nano Banana 是什么

Google 给自家图像模型取了一套水果代号，用来和普通的 Gemini 文本模型区分——这套代号目前就两个级别：

Nano Banana= Gemini Flash Image 系列（效率级，追求速度和价格）
Nano Banana Pro= Gemini Pro Image 系列（专业级，追求质量和细节）
Nano Banana 2 是 Nano Banana 的第二代，官方模型 ID 是 gemini-3.1-flash-image-preview。

有一点容易混淆的是：调 API 的时候要用 gemini-3.1-flash-image-preview，不是nano-banana-2。

nano-banana-2 只是一个别称，别搜错了。

它的定位很清晰——Gemini 3 Pro Image 的高效率对标版本，主流定价，低延迟，专门为大量调用的开发者场景设计的。

1.2 模型能力边界

Nano Banana 2 能做的事大概是这些：

文生图：给文字描述，出图。这是最基础的，不用多解释。
图像编辑：传入一张图 + 文字指令，然后模型帮你加东西、删东西、改风格、换色调。这个体验比很多专门的编辑工具顺手。
多轮对话式编辑：这个是我最喜欢的功能。你可以在同一个对话里持续迭代，说”把背景换成夜景”，然后再说”把人物的衣服改成红色”，模型会记住上下文，一步步改过去。官方也特别强调这是推荐的使用方式，我深度认同。
图文混合输出：可以同时输出图像和配套文字，比如让它生成一张光合作用的信息图，它会把图和说明文字一起给你。
实时搜索：这个是 Nano Banana 2 的独门绝技，而且连 Nano Banana Pro 都没有完整支持。它可以调用 Google 搜索和 Google 图片搜索的实时信息来生成图像——比如让它画一张最新的某场球赛比分图，它真的能联网查然后生成。后面测试部分会重点展示这个。
多参考图融合：最多支持传入 14 张参考图，其中最多 10 张物体参考图（高保真复现）+ 最多 4 张角色参考图（保持角色一致性）。这个对做 IP 内容的人来说绝对是利器。

1.3 技术参数一览

有几个参数我觉得特别值得单独说一下：

分辨率这块，Nano Banana 2 新增了 0.5K、2K、4K 三档，之前的前代 Nano Banana 只有 1K。

4K 图的细节密度是 1K 的 16 倍，对做印刷物料的人来说这个升级很实用

宽高比也是本次的大升级，新增了 1:4、4:1、1:8、8:1 这几个超极端比例。1:8 适合做超长竖版手机壁纸或长图海报，8:1 适合做横幅 Banner。

以前很多场景要用 PS 拼接，现在直接出

Thinking 模式这个要理解一下 —— 所有 Gemini 3 图像模型都是思考型模型，Thinking 是始终启用的，不能关闭。

Nano Banana 2 的特别之处是你可以控制 Thinking Level，默认是 minimal（最小思考量，速度最快），也可以设置成 high（高思考量，复杂场景画质更好，但耗时更长）

1.4 Nano Banana 2 和 Nano Banana Pro，到底选哪个？

我自己的选择标准很简单：

选 Nano Banana 2 的场景：日常创作测试、批量内容生产、对延迟有要求的 C 端产品、预算有限、快速原型验证；

选 Nano Banana Pro 的场景：要出商业级精品素材、提示词非常复杂、对细节要求极高、不在乎多花一些钱和时间。

老实说，我日常 80% 的需求用 Nano Banana 2 就搞定了。

所以从质量来说，还是Nano Banana Pro 更顶尖，但是如果是要商用或批量，Nano Banana 2 更具有性价比。

二、模型使用

2.1 官方渠道

Gemini 官网 & App

最简单的入口，适合零代码用户直接上手体验。打开Gemini，登录 Google 账号就能开始对话式出图。

移动端直接在手机应用商店搜 Gemini 下载 App，体验是一样的。

使用方式就是普通聊天，直接用中文说你想要什么图就行，比如”帮我生成一张赛博朋克风格的上海街景，霓虹灯，雨后积水倒影，垂直构图”，然后等它出图，再在同一个对话框里继续修改。

这里并不会显示模型版本，但是默认Nano Banana 2 是快速模式，所以把模式切换成Fast即可

Google AI Studio

这个是我平时用得最多的调试工具，而且一般Google上新模型都会先上这个。

进入AI Studio，在左侧模型选择器里找到 Nano Banana 2（gemini-3.1-flash-image-preview）。右侧面板可以直接配置参数：

Output format：可以选”Images & text”（图文混合）或”Images only”（纯图）
Aspect ratio：宽高比，选 Auto 或者手动指定
Resolution：分辨率，1K/2K/4K/0.5K 都在这里切
Thinking level：Minimal 或 High
Grounding with Google Search：勾选后可以开启搜索，还能单独开 Image Search
调好参数之后直接打提示词，出图效果直接可见。

Google Flow

Google Flow 是 Google 推出的 AI 驱动工作流工具，Nano Banana 2 已经集成在里面了。

它比 AI Studio 更偏向工作流自动化，可以把图像生成嵌进更大的业务流程里，比如自动生成内容后直接发布。对普通用户来说可能 AI Studio 就够了，Flow 更适合想要搭自动化流水线的团队。

但是这个工具网站有 150免费信用积分，这个羊毛可以薅！

2.2 第三方平台

国内用户如果在访问 Google 服务上有阻碍，或者想在一个平台同时用多个模型做对比，第三方平台也是很好的选择

Lovart

Lovart 就不多介绍了，一个设计Agent工具，非常迅速，已经集成了 Nano Banana 2。

进入Lovart，注册账号后就能直接用。和 AI Studio 不同的是，Lovart 的产品逻辑更偏向设计师——它会帮你把生成、排版、品牌应用这些环节串起来，适合做海报、品牌物料、插画这类有完整设计需求的场景。

如果你是设计师或者内容创作者，Lovart 更顺手一些。

YouMind

YouMind ，使用流程一样是注册账号、充值、选模型、输入提示词，按 Token 或按次计费。关键是每天送1000积分，这个羊毛也要薅！

关于第三方平台，其实还有很多，比如Genspark、Skywork等，只不过手慢了点，这会儿还没上线，不过后面也会陆陆续续上的。

所以我建议穷逼玩家，咱直接就辗转多个平台蹭免费积分就完了！薅羊毛都够生成很多素材了

2.3 API 调用

这部分面向开发者，我会把三个路径都说清楚。

Google 官方 API

最直接的方式，在 AI Studio 里拿到 API Key（Settings → API Keys → Create API Key），然后用官方 SDK 调用。

几个参数要注意的细节：

分辨率参数必须用大写 K（1K、2K、4K），官方文档特别标注了小写会被拒绝。

Thinking Level 可以通过thinking_config参数控制，默认 minimal，复杂场景可以设 high。

开启搜索（Grounding with Google Search）里面，IMAGE_SEARCH 这个功能只有 Nano Banana 2（3.1 Flash）支持，Pro 版没有，这是 2 的独家能力。

关于价格，Nano Banana 2是目前性价比极高的选择，其成本仅为Nano Banana Pro 版本的约1/4甚至更低

AIHubMix（国内友好）

AIHubMix 这个第三方模型服务厂商也非常迅速，已经上线了 Nano Banana 2，国内访问很顺畅，兼容 OpenAI 格式调用，对已经用过其他 AI API 的开发者上手成本极低。

进入AI HubMix，注册充值后在模型列表里找gemini-3.1-flash-image-preview。

但注意：AIHubMix 的 OpenAI 端点不支持 4K 分辨率，默认 1K，宽高比通过 system message 传入，这个和官方 SDK 的参数方式不太一样，初用的时候容易踩坑。

OpenRouter（国际路线）

OpenRouter 的模型 ID 是 google/gemini-3.1-flash-image-preview

不知道为啥，Nano Banana 2 的定价比其他渠道都要便宜些，延迟约 13 秒，正常运行时间 100%，适合海外用户或需要多模型路由统一管理的团队去用

三、模型测评

就不再分维度去测试了，本质上来说是直接蒸馏出来的一个小模型，甚至可能在某些方面还不如原来的版本…..

既然特点是便宜、强、快！只有快这个点可以数据统计下，所以每张图我都会用手机计时，将生成时间&抽卡次数标记上：

23s直出未抽卡：创作一幅逼真的《Vogue》杂志封面风格的时尚肖像。一位年轻优雅的女性自信地摆出姿势，保持其原有的面部特征和自然美。她左眼眨动，露出俏皮的鸭嘴表情。双手抬起，在脸部附近形成一个爱心手势。她被周围的多个单反相机和智能手机包围，仿佛狗仔队和摄影师正从各个方向捕捉她的身影。一些手机屏幕上还显示着她的实时图像。

外观与造型：无瑕的肌肤光泽，自然妆容搭配光泽粉唇、柔和腮红和微妙高光。浅棕色头发整齐地盘扎成低发髻，仅有几缕散落。

服装与配饰：优雅简约的米白色无肩带晚礼服，路易威登项链，钻石戒指，奢华时尚珠宝。

摄影风格：特写至半身时尚肖像，Vogue杂志编辑美学，电影级专业工作室灯光，柔和的HDR背景，浅景深，逼真的皮肤纹理，超细节，8K画质。

相机与镜头外观：专业单反外观，85mm镜头感觉，f/1.8光圈，清晰对焦，背景散景柔和。

构图：Vogue杂志版面，顶部有大而醒目的标志，编辑时尚封面框架，干净优雅的设计。

氛围与感觉：俏皮而奢华，高级时尚美容编辑，逼真，非AI感，由专业时尚摄影师拍摄。

48s联网检索直出未抽卡：请根据 THE 2028 GLOBAL INTELLIGENCE CRISIS 这篇文章，遵循以下指南，制作一个卡通风格的信息图表：

– 手绘插图风格，横向（16:9 宽高比）。

– 加入少量简单的卡通元素、图标或著名人物，以增强视觉趣味性和记忆度。

– 如果内容包含敏感或受版权保护的图形，请用视觉上相似的替代品替换它们；不要拒绝生成插图。

– 所有图像和文本必须严格遵循手绘风格；避免使用写实视觉元素。

– 保持信息简洁，突出关键词和核心概念。利用充足的空白来清晰地强调关键点。

– 图中文字请使用中文。

18s直出未抽卡：在构图的正中央，食材层上方醒目地悬浮着一个奢华的标题标签。文字为“担担面 DAN DAN NOODLES”，采用富有表现力的手写毛笔字风格。字母呈现出厚重、三维雕刻的金色金属质感，并经过拉丝处理，散发出温暖的金色光泽，在工作室的强烈灯光下，反射出逼真的金属光泽。它看起来就像锻造的金笔触，在空间中漂浮。高级中式面馆食品海报，以解构式层次展示的担担面/辣子川面在纯黑色背景上垂直堆叠。从顶部到底部（主金色标题下方）共有七层，且在最后一道菜前留有额外间距：

*顶层：一堆鲜红的干辣椒片和金黄色的花椒粉

*第二层：淡黄色的碎花生和鲜绿色的葱花碎屑散落其中

*第三层：淡黄色的手工碱水面卷曲着，纹理清晰可见，面条根根分明

*第四层：黄豆芽（芽菜）和鲜绿色的豌豆散落其中——这些蔬菜会先放入碗中

*第五层：透明的玻璃碗中盛放着深红色的辣子油汤，可见漂浮的辣椒片，汤面光泽映照——这汤底浇在蔬菜上，因此在垂直堆叠中看起来位于蔬菜下方

*第六层：空白空间——较大的间隙，只有微妙的浮油滴、蒸汽缕和小颗粒食材飘落，营造出视觉上的分隔和呼吸空间

*底层/最后一层（上方间隙明显更大）：一盘完整的担担面盛放在传统的深棕色陶瓷碗中，从与上方所有其他层次相同的45度角视角观看。碗中汇集了所有食材——淡黄色的面条裹着光泽的红辣椒油，上面撒着碎花生、鲜绿色的葱花碎屑、黄豆芽、豌豆和红辣椒片。

面条看起来刚拌好，油光闪闪，微妙的蒸汽升起。这盘成品与上方解构式食材的尺寸和视角相同。上方的额外间距强调了这是最终结果，生动地展示了从分离的食材到完整菜肴的转变过程。每一层之间都留有间隙，展现出纹理和细节。

第1至5层之间保持正常间距。

第6层是特意留空的过渡层，间距是正常间距的两倍或三倍。

第7层（成品菜肴）位于底部，视觉上清晰分隔。中英双语标签，配有优雅的箭头指向每个配料：“辣椒油&花椒粉 Chili Oil & Sichuan Pepper Powder”，“麻辣风味 Numbing & Spicy Flavor”，“花生碎&葱花 Crushed Peanuts & Scallions”，“手工碱面 Handmade Noodles”，“芽菜&豌豆 Yacai & Peas”，“丰富配料 Rich Toppings”，“红油汤底 Spicy Red Broth”，“成品 Finished Dish”。无白色底座，无平台基座。所有图层在纯黑色背景中自由漂浮。45度角戏剧性的工作室灯光，边缘照明突出了纹理和玻璃碗的透明度。包括成品碗和顶部金色标题在内的所有图层，在灯光、视角和逼真度上保持一致。微妙的蒸汽效果，油滴在图层周围漂浮，空旷的过渡空间中有更多颗粒。成品盘右下角有星星闪耀效果。暗色调美学，豪华商业食品摄影风格，超逼真，细节丰富，专业餐厅广告品质，9:16竖屏格式。

14s联网检索直出未抽卡：高保真、广角现代客厅内景，赛博阴影2D动漫和卡通角色无缝融合。场景将逼真的3D环境与互动动漫角色如哆啦A梦、野比大雄、迪迦奥特曼和蜡笔小新等结合，呈现出梦幻、电影般的审美风格。画面比例：16：9

23s直出未抽卡：将图1中的雷军替换成图2，风格保持和原雷军形象统一的风格。正下方的”雷军”二字改成”小普”；右下角的小米logo风格不变，但”MI”改成”XP”

63s直出无抽卡：根据上传的草稿图生成真实场景分镜总览图

四、提示词策略

4.1 Nano Banana 2 提示词基本框架

官方文档其实给出了一个很重要的核心原则，我翻译一下：描述场景，不要只堆关键词。

模型的语言理解能力很强，一段描述性的段落几乎永远比一堆孤立的词效果好。我自己用下来总结了一套提示词框架，大概这样：

[画面主体描述] + [场景/环境设定] + [风格/艺术参考] + [光线/色调] + [构图/视角] + [技术参数]

举个例子，与其写”一个女孩，城市，赛博朋克，夜晚”，不如写：

一位独自的年轻女子穿着透明的雨披站在街角，在雨淋淋的赛博朋克东京，2077年。她脚下的湿漉漉的人行道上反射着日文的全息广告。情绪化的电影色彩分级，以主导的霓虹蓝和洋红色为主。低角度摄像机略微向上看，营造出戏剧性的比例感。使用变形镜头拍摄，信箱裁剪，胶片颗粒。

差别很大的，真的。

4.2 官方推荐进阶策略

官方文档里有一套 Best Practices，我觉得含金量挺高的，整理翻译一下加上我自己的理解：

极致具体（Be Hyper-Specific）：与其说”奇幻盔甲”，不如说”精美的精灵板甲，蚀刻银叶纹路，高领，肩甲形如猎鹰翅膀展开”。

细节越多，模型能发挥的空间越小，你能控制的空间就越大。

这个道理懂，但真正做到需要一定的练习。

提供用途背景（Provide Context and Intent）：告诉模型这张图是干什么用的，会显著影响结果。”创建一个高端极简护肤品牌的 Logo” 明显比 “创建一个 Logo” 好。

模型会根据用途语境自动调整风格基调。

迭代而不是重做（Iterate and Refine）：这个我强调过了，利用多轮对话，不要每次都从零重写。

出图之后说”很好，但光线再暖一点”、”保持不变，把表情改严肃一些”，效率和效果都比重来强。

分步骤描述复杂场景：对于元素特别多的复杂场景，可以把提示词拆成几步来写，类似”先创建一个清晨雾气弥漫的森林背景，然后在前景加一座苔藓覆盖的古代石祭坛，最后在祭坛上放一把发光的剑”。

层次感很清晰，模型处理起来比一段话堆下去更可控。

语义化负向提示（Semantic Negative Prompts）：官方给的建议是，与其说”没有汽车”，不如正向描述”一条空旷的街道，没有任何交通的迹象”。

我觉得这个思路有点绕，但逻辑是对的——用场景感替代简单的否定，效果更稳定。

用电影语言控制构图：广角镜、微距镜头、低角度仰拍、荷兰角、鸟瞰俯视，这些词对模型都有效，跟真正的摄影术语是绑定的。

4.3 常见提示词误区

做了这么多测试，踩过不少坑，这里说几个最常见的。

误区一：关键词堆砌。

见过很多人写提示词就是”超高清，8K，电影级，大师作品，获奖摄影，写实，逼真，HDR，精细，完美”……然后图出来依然很一般。

这类词不是不能用，但它们不能替代对实际画面内容的描述。

先说清楚你要画什么，再加上质量类关键词，顺序很重要。

误区二：中英文混杂。

提示词里中英文混着写，我自己测下来效果不如纯英文稳定。

Nano Banana 2 对中文语义理解是没问题的，但如果你对输出质量要求高，建议全英文提示词，尤其是涉及风格、光线、构图这些专业词汇时。

误区三：描述本身产生矛盾。

比如”一张极度写实的照片，赛博朋克动漫风格”——写实和动漫是两个方向，模型会困惑。

要么写实，要么动漫，别让它猜。

误区四：期待第一张图就完美。

这个思路本身就是问题所在。

用好多轮对话才是正确姿势，第一张图是起点，不是终点。当然Nano Banana系列本身能力比较强，一般来说很少会频繁抽卡，我最多也就抽卡4次。

误区五：忘了告诉模型输出格式。

如果你只要图，明确写”仅输出图像，无需文字说明”；

如果你需要图文并茂，写”提供所生成内容的伴随描述”。

不说的话，模型有时候会自己加一堆乱七八糟的说明文字，体感不是很好。

五、优质提示词资源

说完技巧，最后推荐几个实用资源，有很多同学每次看到模型更新，技痒难耐，但是真到了测试模型突然感觉脑子空白，一句话也憋不出来干着急。（我也是）

所以有一些优质提示词作为参考的话，可以快速调整就能用来测试了！

BestPromptClub

Studentdiscount.io

这两个网址专门收集了 Nano Banana系列出的优质案例，Prompt可以一键复制。

包括这两个工具平台也有专门的 Nano Banana系的提示词资源：

YouMind

Fotor

还有就是Github上有非常多的开源提示词库，我搜集了一些：

直接搜：

JimmyLv/awesome-nano-banana

PicoTrex/Awesome-Nano-Banana-images

songguoxs/gpt4o-image-prompts

ZeroLu/awesome-nanobanana-pro

ZHO-ZHO-ZHO/ZHO-nano-banana-Creation

YouMind-OpenLab/awesome-nano-banana-pro-prompts

至此，燃尽了……

以前用 Banana Pro 画图，一张 1K 的图就要一块钱。

这次更新的 Nano Banana 2 终于把价格打了下来，腰斩了一下，差不多五毛一张图。

说白了，这次最大的特点，其实就是更快更便宜了。

主要是借此，直接把Nano Banana这个系列的使用渠道以及对应的一些资源技巧做个总结

本文由 @小普原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

小普

AI产品经理/Agent矩阵专家

34篇作品 145895总阅读量

首次曝光 | 在如今推荐算法下的公众号起号攻略！

09-229241 浏览

03-153119 浏览

02-0713665 浏览

12-142967 浏览

05-187241 浏览

王小小

牛啊小普哥，每周都能在日榜上看到你😂😂

最近来自北京回复

银行传统网点和渠道营销如何转型？

01-176013 浏览
变化中的互联网中层：“一切都恢复了，但一切也都变了”

05-096062 浏览
浅浅几招，提升ToB官网UV转化率！(上）

03-229570 浏览