就在最近,科技圈又搞了个大新闻,谷歌CEO Sundar Pichai在X(推特)上发了三个香蕉表情,搞得大家一头雾水。

结果谜底一揭晓,好家伙,原来是谷歌又憋了个大招:一款叫“Gemini 2.5 Flash Image”的AI图像编辑工具。不过,这个工具在圈里有个更接地气的代号,叫“Nano Banana” 。

一、什么是Nano Banana?

如果你还觉得这只是一个普普通通的AI绘图工具,跟Midjourney或者DALL-E没什么区别,那可就大错特错了。

Nano Banana的运行逻辑压根就不是凭空生成,而是精准编辑。

什么意思?

说白了,它不是给你一个空画布让你从零开始,而是给你一个超能力,让你能像聊天一样,去修改一张已有的图片,俗称P图。

那么问题来了,这玩意儿到底强在哪儿?它又会对我们这些靠内容吃饭的创作者,以及未来那些像AiPy一样的AI智能体,带来什么天翻地覆的变化呢?今天,咱们就好好聊聊这个。

二、Nano Banana的强大功能

我们先用一张图,就可以说明Nano Banana的强大之处了

接下来,细说一下它具体功能。

1.角色一致性

如果你玩过AI绘图,肯定遇到过一个最让人头疼的问题:想让同一个角色出现在不同场景里,但每次生成的脸都不一样。

谷歌这次直接解决了这个业界公认的“圣杯”难题 。Nano Banana(Flash Image)号称能让人物、宠物甚至产品,在不同场景中保持90%以上的一致性 。

什么概念?给你举个例子。你有一张自家狗子的照片,你给AI下指令:“让它戴上牛仔帽,在沙漠里骑马”,然后“再让它穿上厨师服,在厨房里做饭”。每一次,AI都会在完全不同的场景中,呈现出你家狗子一模一样的脸。谷歌CEO Sundar Pichai本人就用他的爱犬Jeffree做过示范,无论是冲浪、当牛仔还是做大厨,Jeffree的模样始终如一,一致性这方面真没的说 。

有图有真相:

冲浪

当牛仔

做大厨

2. 像聊天一样去“修图”

在过去,你要换背景、P掉一个污渍,你得打开Photoshop,用套索、蒙版、图层工具,一通繁琐的操作。但有了Nano Banana,你只需要用大白话告诉它就行 。  

比如说,你上传了一张风景照,你觉得这个风景照的色彩太淡了,整个视觉都很一般,没有说明特别的,你想让你的图片色彩变得更加鲜明,对比度更高一些,你就可以直接跟它说出你的要求,之后它会根据你的需求,对图片去做相应的休整。

有了这个功能,将来你的领导或者甲方提出的海报修改意见,那还不是手拿把掐,分分钟就给它搞定。

3. “多图融合”的混合现实

这个功能是我个人认为最强的,其它功能别的AI软件或多或少也是可以实现的,但这个觉得是我认为碾压级的存在。

它能够理解并无缝地将多个输入图像融合在一起。

这功能对搞电商和营销的人来说,简直是天降福利。把你现有的素材,上传给它,Nano Banana会完美地将它合成进去,甚至还能加上逼真的阴影和光照 。这意味着,你再也不需要花大价钱请摄影师拍摄各种场景图,一张图就能生成成百上千种不同的宣传物料 。这玩意儿,直接把内容制作的成本和时间干到了地板价。

这里给大家举个网友的例子,他把八个图片放到了一起,让Nano Banana对其进行融合。


具体提示词为:

一位男士站在一家现代化的电子产品商店里,正在分析一台数码相机。他戴着一块手表。他面前的桌子上摆放着太阳镜、耳机、鞋子、头盔和运动鞋,分别是一只白色运动鞋和一只黑色运动鞋。


还有一些其他的例子,我敢保证,这绝对是广告、电商、设计、动漫人士的神兵利器。

三、Nano Banana的定位是什么?

在图像领域,Nano Banana面临的竞争对手可不少,我们把它和几个主流玩家做个对比。

1.对阵Photoshop

Nano Banana不是来取代Photoshop的。如果要做“重型设计”工作,Photoshop依然是首选 。但对于日常任务,比如快速更换背景、调整尺寸或进行小修小补,Nano Banana的速度和易用性足以碾压或替代Photoshop。  

2.对阵Midjourney

说白了,它们是两个不同赛道的选手。Midjourney以其“令人惊叹的原创艺术”著称,但它不擅长编辑真实照片 。而这,正是Flash Image的专长。你完全可以先用Midjourney生成一个艺术化的基础图,再用Nano Banana进行微调,它们是互补而非竞争关系。我觉得这才是AI真正的使用方法,我们并不是说要拘泥于某一个软件,而是某一套软件。  

3.对阵ChatGPT

在图像编辑方面,Nano Banana比ChatGPT更智能、更快、更精确 。当ChatGPT需要几分钟才能完成一个任务时,Nano Banana可能只需要几秒钟 。  

四、实战案例

接下来,我将给大家展示一下用Nano Banana到底能做些什么?包括但不限于以下几个:

1.广告制作

电商人的福音

谷歌Flash Image的广告制作

2.动漫视频

把火柴人对战的视频转成动漫视频,很多细节都处理的非常到位。

Flash Image 制作的动漫视频

3.图像制作

马克·扎克伯格和山姆·奥特曼一起吃晚饭

4.服装替换

其实这个就是前面说的“融合”功能。

5.人物消除

这里我们要求它把上图的特朗普消除掉

6.背景更改

要求将背景改成马拉喀什,并且将衣服改为摩洛哥长袍

更改前

更改后

7.元素增加

在图中女性手里拿的本子上,加一个Google logo和香蕉

8.人物变装

把马斯克变成一个rapper

以上就是Nano Banana的一些实战案例。

四、Nano Banana对智能体的影响

像AiPy这类智能体,正在成为AI领域的新风口。简单来说,它们不像传统的大语言模型那样被动地接受指令,而是能自主感知、规划、并执行一个复杂的多步骤任务 。

Nano Banana的出现,将改变这些智能体的工作方式和能力。

1. 成为智能体“工具箱”里的新杀器

一个智能体要完成任务,需要调用各种工具和API 。过去,一个营销智能体可能只能写文案、分析数据。但有了Nano Banana,它现在有了一个强大的视觉引擎。这个智能体可以被赋予一个宏大的目标,比如“为客户策划一场社交媒体宣传活动”。  

它会怎么做?它会自主规划:

  • 感知: 收到“宣传产品A”的任务。

  • 规划: 决定需要为Twitter、Instagram和Facebook等平台制作不同尺寸和风格的广告图。

  • 行动:

    • 首先,它会调用Nano Banana API,上传一张产品图,生成十个不同场景的产品变体 。  

    • 接着,它会为不同的平台调整图片尺寸和风格。

    • 最后,它用这些图片和文案,自动排版。

整个过程,人类只需要给出最初的目标,剩下的视觉创作工作,都由智能体和Flash Image联手完成了。

2. 让智能体真正具备“视觉创意”能力

Nano Banana基于自然语言的编辑能力,可以完美契合智能体的运作模式 。

智能体主要通过语言进行“思考”和“交流”,而Nano Banana正是把图像编辑也变成了语言交流的一部分。这使得智能体能以一种前所未有的方式,去理解并执行复杂的视觉任务 。  

五、结论

总而言之,Nano Banana是谷歌在AI领域的又一个技术秀,它的出现表明图像编辑正在从手动、复杂的工作流,转向由语言驱动、自动化、可大规模扩展的新范式 。

它不会让设计师和创作者失业,但会重新定义我们的工作方式。

那些能迅速掌握提示工程,并将这些AI工具整合到自己工作流中的人,将拥有巨大的竞争优势 。而对于像AiPy这样的智能体来说,Nano Banana给了它们一个全新的能力,让它们从单纯的“信息处理者”,进化为能够处理复杂“视觉创意”的助手。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐