Gemini3ProImage（nano banana 2 ）国内使用及接口（API）教程（含场景实例）

ggu12

2792人浏览 · 2026-01-08 19:40:15

ggu12 · 2026-01-08 19:40:15 发布

Google 正式推出 Gemini 3 Pro Image（代号 Nano Banana 2）。这款原生多模态模型不仅画质与速度双双升级，更具备强大的图片互动生成能力[2]，最令人振奋的是它现在完美支援繁体中文生成，让 AI 绘图不再有语言隔阂。Gemini 3 Pro Image 是基于 Gemini 3 Pro 的“高精度图像生成/编辑模型”，面向复杂提示词、多轮编辑、专业级素材生产

1）核心特性：从清晰度到推理

超高清输出：与 Flash 版本（1024 像素）不同，Pro Image 支持生成和修改高达 4K 像素 的高质量图片，支持选择生成1k~4k图片。
深度推理能力：它不仅能“画图”，还能处理复杂的代理工作流和自主编码任务，将创意构思转化为逻辑执行。
多模态编辑：支持文本到图像的生成、图像修改以及复杂的跨模态理解

它和“普通画图模型”的差异点，三个关键词：

1.可控（control）：更强调相机语言、光影、材质、景深、构图等可控参数与一致性输出

2.可编辑（editability）：支持多轮对话式编辑，不是“重画一张”，而是“基于上一张的逻辑继续改”。

3.可交付（production-ready）：强化“图内文字可读”“海报/信息图/标签清晰”等偏生产的能力，并在生成内容上做溯源标记。

2）怎么用：从最简单到可工程化

A. 最轻量：在 Gemini / AI Studio 里试

你可以在 Google AI Studio 直接选择 Gemini 3 Pro Image 模型做生成与编辑（适合快速试验提示词、验证风格）。

B. 开发者：Gemini API（以及 Vertex AI）

在 Gemini Developer API 里它以预览模型出现（常见命名如 gemini-3-pro-image-preview）

3）典型使用场景：不止“画得好看”，更是“改得省命”

下面这些场景，基本就是 Nano Banana 2 被重点优化的方向（尤其是“文字”和“多轮编辑”）。

场景 1：品牌海报/活动KV/社媒图（图内文字要能直接用）

痛点：传统模型做海报最容易翻车的就是标题、价格、slogan 乱字或拼错。
做法：让它直接生成“可读文本 + 版式”，再通过多轮对话微调：字号、字重、留白、语言本地化等。官方介绍里就把“清晰文字、海报、复杂图表”当作重点能力。

生成一张现代风格的品牌海报，用于社交媒体宣传。海报内容为一个新品牌的发布，标题为“迎接未来，创造无限可能”，品牌“乘丰AI”位于海报顶部，醒目位置，文字清晰可见。底部用大号字体写着“新品上线”，文字颜色为白色，背景为渐变蓝色，简单现代，文字间距适中，背景上有细微的光晕效果。整个设计简洁有力，突出文字，便于社交媒体传播。

场景 2：信息图/流程图/教学插图（“图文一体”的信息表达）

你可以把结构（步骤、节点、箭头关系、数据点）交给模型完成，同时用语言约束版式，比如“左到右时间线”“每步配一个小图标”“所有标题统一字体”。媒体报道也把它的“信息图能力”作为亮点之一。

生成一张精美的手绘风格信息图，展示“如何制作手工冰淇淋”的过程。整个图分为五个步骤，使用温暖的色调和精致的插图风格，背景为柔和的淡黄色渐变，细节充满手绘质感。每个步骤有独立的插图和简洁明了的描述，图标和文字搭配使用，确保信息清晰传达。具体步骤如下：

步骤1：准备原料——插图为新鲜的水果、牛奶和糖，颜色丰富，轻微的阴影让画面更有层次感。 
步骤2：混合材料——插图展示搅拌器与搅拌盆，带有细腻的细节和柔和的光影效果，突出动感和过程。
步骤3：冷冻过程——插图展示冰淇淋机器，冷气效果可视化，使用淡蓝色和白色的冷色调来表示冷冻状态。
步骤4：装饰冰淇淋——插图展示完成的冰淇淋球，顶部装饰着巧克力酱和水果，色彩鲜艳，搭配精致的小饰品（如糖果和薄荷叶）。
步骤5：享用冰淇淋——插图展示一个人开心地吃着冰淇淋，背景是一个阳光明媚的户外场景，色调温暖而富有亲和力。

图中每个步骤之间有优雅的箭头连接，箭头设计为柔和的曲线，呈现出一种流畅的视觉节奏。每个步骤的标题使用手写体，字体简洁且具有亲和力，确保信息清晰易懂。

背景使用渐变黄色和柔和的线条，保证图表整体美观，避免喧宾夺主。每个步骤和图标都有细腻的阴影和渐变效果，增加立体感，确保视觉上既富有层次感，又不会让信息内容显得杂乱。

输出分辨率：确保生成高清晰度版本，分辨率为3000x3000px，适合大幅印刷或在网页上展示。图中每个图标和文字要清晰可读，色彩饱和而不刺眼。

场景 3：电商与产品图（Mockup、贴标、换背景、保持透视与光照）

常见需求：同一产品在不同场景（厨房/户外/极简棚拍）切换，但包装文字必须清晰、反光要合理、透视一致。AI Studio 的模型页就强调“可做无缝融合、保持光照与视角”。

生成一张电商用的护肤产品图，产品为一个瓶装面霜，瓶子中央有清晰可见的品牌 乘丰 和文字，标签文字需要清晰且没有拼写错误。背景要从纯白色切换为优雅的浅粉色，确保产品表面有自然的光泽，且瓶子反射出柔和的光。产品的透视效果要正确，保持合适的阴影和反射，以展示高端感。确保背景和产品的透视保持一致。

场景 4：角色/主角一致性（系列图、漫画分镜、IP素材）

做连载海报、故事分镜时，最怕角色长相每张都变。Gemini 3 Pro Image 主打“锁定身份的一致性”与“无限变化中的稳定主角”。

生成一组漫画分镜图，展示主角在街头漫步的不同动作。主角是一个年轻女孩，金发蓝眼，穿着红色外套，背景为现代城市街景。第一格是她走路的正面视角，第二格是她侧身走，第三格是她停下来查看手机。确保角色的面部特征和服装在每一格中保持一致，背景可以轻微变化，但主角的身份必须保持不变。使用卡通风格，色彩鲜艳，表情生动。

场景 5：多轮修图（设计协作式：先出草图，再逐步“抛光”）

真实工作流往往是：
先出 70 分 → 再改构图 → 再改光影 → 再改局部 → 最后做多语言版本。
Gemini 3 的开发者文档明确提到：做“对话式编辑”时，需要依赖上一轮返回的关键信息（thoughtSignature）来保持对原图构图与逻辑的理解，这就是它“能连续改”的关键机制之一。

生成一张产品海报草图，展示一款新款手机。第一轮只需要一个简单的草图，产品放置于画面中央，背景为浅灰色，产品轮廓简单，没有细节。第二轮：加入产品的细节，如屏幕显示、按钮和乘丰（LOGO），增加阴影效果。第三轮：进一步完善，调整光照方向，增加反射效果，使手机表面看起来更真实。最后，确保整个海报符合现代简约风格，产品突出，背景简洁。

4）从“会用”到“用得专业”：一套实战提示词框架

想把它用出“专业感”，建议你写提示词时按这 5 层结构：

目标：要做什么（海报/信息图/产品图/分镜）
主体与约束：主角必须保持什么不变（logo 不变、包装文字必须正确、人物五官保持一致）
构图与镜头：机位（俯拍/平视/特写）、主体占比、留白、网格
光影与材质：主光方向、色温、反射、景深
输出规格：比例、分辨率、是否需要多语言版本

另外大香蕉支持多轮编辑，每轮只改一类变量（先构图、再光影、再局部、再文字），效果往往更稳。

5）说这么多国内怎么使用呢？

浏览器打开乘丰AI（https://api.cphone.vip）进行登录注册，然后点击导航栏的“AI聊天/绘画”在页面中心会有一个切换模型名字的小框框，点击它，然后下拉框选择nano-banana-2模型，即可使用，支持多轮编辑。

5）API接口如何调用

1.创建图像 /v1/images/generations：

参数解释：

application/json：

参数名称	类型	是否必需	描述 / 枚举值 / 说明
`prompt`	string	必需	所需图像的文本描述。
`model`	string	必需	用于图像生成的模型。nano-banana-2\nano-banana-2-2k\nano-banana-2-4k
`aspect_ratio`	string	可选	枚举值：`4:3`, `3:4`, `16:9`, `9:16`, `2:3`, `3:2`, `1:1`, `4:5`, `5:4`, `21:9`
`response_format`	string	可选	url ；返回生成的图像的格式。必须是 `url`(推荐)或 `b64_json` 之一。
`image`	string	可选	`url` ；参考图数组，支持 `url`(推荐) 或 `b64_json`。
`image_size`	string	可选	仅 `nano-banana-2` 模型支持。枚举值：`1K`, `2K`, `4K`

代码示例：

curl --location --request POST 'https://api.cphone.vip/v1/images/generations' \
--header 'Accept: application/json' \
--header 'Authorization: Bearer sk-a5iIqvxxxxxxxxxxAwcqK' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gemini-2.5-flash-image",
  "prompt": "画一只小狗",
  "response_format": "url",
  "aspect_ratio": "3:4"
}'

返回示例：

{
    "created": 1589478378,
    "data": [
        {
            "url": "https://..."
        },
        {
            "url": "https://..."
        }
    ]
}

2.编辑图片 /v1/images/edits：

参数解释multipart/form-data：

参数名称	类型	是否必需	描述 / 枚举值 / 说明
`image`	file	必需	要编辑的图像。必须是支持的图像文件数组。
`prompt`	string	必需	期望图像的文本描述。
`model`	string	必需	用于图像生成的模型。nano-banana-2\nano-banana-2-2k\nano-banana-2-4k
`aspect_ratio`	string	可选	枚举值：`4:3`, `3:4`, `16:9`, `9:16`, `2:3`, `3:2`, `1:1`, `4:5`, `5:4`, `21:9` 必须匹配图像尺寸且小于 4MB。仅适用于第一张图片。
`response_format`	array[string]	可选	返回格式，示例值：`["url"]`
`image_size`	string	可选	仅 `nano-banana-2` 支持，枚举值：`1K`, `2K`, `4K`

代码示例：

curl --location --request POST 'https://api.cphone.vip/v1/images/edits' \
--header 'Accept: application/json' \
--header 'Authorization: Bearer sk-a5iIqvbqN0xxxxxxxxxxxxxxxcqK' \
--form 'image=@""' \
--form 'prompt=""' \
--form 'aspect_ratio=""' \
--form 'response_format=""' \
--form 'image_size=""' \
--form 'model=""'

3.openai chat格式 /v1/chat/completions :

文生成图片参数示例：

{
    "stream": false,
    "model":"nano-banana",
    "messages": [
        {
            "content": "draw a cow，竖屏的",
            "role": "user"
        }
    ]
}

图生图参数示例：

{
  "model": "nano-banana",
  "stream":false,
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "draw a picture sililarity",
          "type": "text"
        },
        {
          "image_url": {
            "url": "https://xxxxxxxxxxxx.png"
          },
          "type": "image_url"
        }
      ]
    }
  ]
}

4.gemini官方格式 /v1beta/models/gemini-2.5-flash-image:generateContent

文生图参数示例：

{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "一只睡觉的猫"
                }
            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ],
        "imageConfig": {
            "aspectRatio": "16:9",
            "imageSize": "1K"
        }
    }
}

图生图参数示例：

{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "融合三张图片，输出高清图片"
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
                        "data": "UklGRlZvAABXRUJQVlA4TEl......"
                    }
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
                        "data": "/9j/4AAQSkZJRgABAQAAAQABAAD......"
                    }
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
                        "data": "UklGRurTBABXRUJQVlA4IN7TBABwWQy......"
                    }
                }
            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}

接口快速稳定，赶快去乘丰AI（https://api.cphone.vip/）试试吧~~~

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AiPy入门指南：像聊天一样让AI帮你干活

2048 AI社区

我的 Claude Code 效率工具全套配置分享

claude-mem 在后台运行一个本地 Worker 服务（默认端口 37777），通过 5 个生命周期钩子（SessionStart、UserPromptSubmit、PostToolUse、Summary、SessionEnd）这个插件的灵感来自 Manus 的工作方式。使用快速迭代的框架（Next.js、React、Tailwind 等），或者任何需要查阅 API 文档的开发工作。特别有用

2048 AI社区

“太卷了！”2026技术校招笔试现场崩溃实录，看完你就不焦虑了

美团2026春招笔试，选择题新增了大模型基础知识——Transformer结构、自注意力机制、位置编码、推理优化、Agent基础概念。结果第二页弹出来一个系统设计选择题，第三页是代码纠错加重构，最后还来了个业务场景分析——让我分析一个秒杀系统的流量峰值，然后写出关键代码片段。阿里笔试挂了，腾讯过了，美团过了，字节又挂了。大厂想要的是“能快速上手干活的人”，而不是“能做对算法题的人”。对大厂来说，笔