一篇文章帮你系统了解 Nano Banana,最爽玩法合集
如果你最近被谷歌新发布的图像模型刷屏了,那你一定听过两个名字,一个是「Nano Banana」一个是「Gemini 2.5 Flash Image」那一个模型为什么会有两个名字?「Nano Banana」 是这个 AI 图片编辑与生成模型的非正式代号或别名,大多数是用户在社群、媒体、论坛中使用。「Gemini 2.5 Flash Image」 是官方推出后正式使用的名称。因为太火了,AI stud
1、Nano Banana 介绍
如果你最近被谷歌新发布的图像模型刷屏了,那你一定听过两个名字,一个是「Nano Banana」一个是「Gemini 2.5 Flash Image」
那一个模型为什么会有两个名字?
「Nano Banana」 是这个 AI 图片编辑与生成模型的非正式代号或别名,大多数是用户在社群、媒体、论坛中使用。
「Gemini 2.5 Flash Image」 是官方推出后正式使用的名称。因为太火了,AI studio 中已经改名「Nano Banana」
类似于张三是本名,但是你的朋友也可以叫你小张。
1.1 Nano Banana 到底是什么?
它是一个原生多模态模型,也就是说它可以同时理解文字和图片,而不是简单的把它们分开处理。
1.1.1 非原生分开处理的情况
这里面会有两个模型,一个是图像处理模型,只能看懂图像。
一个是语言处理模型,只能看懂文字。
这个时候如果你有一张「小男孩正在踢足球的照片」
你给 AI 下个指令,让他把「小男孩正在踢足球的照片」变成「小男孩正在打篮球的照片」
可以发现图片生成出现了偏差,直接把脚下的足球变成了篮球,另外在足球场打篮球,场景也不对。在这个过程 AI 是怎么去执行的呢?
当你下达任务时,AI 首先把 「小男孩正在踢足球的照片」给图像处理模型,图像处理模型从你上传的图片中提取信息。
比如可能提取到:一个小男孩正在足球门框前踢球。地上的草坪是绿色的,球场外有一群人在欢呼。
提取到这些图像信息之后会给到语言处理模型,语言处理模型再结合你的指令「把小男孩踢足球的照片变成小男孩打篮球的照片」,开始思考,构思图像生成步骤。
思考好了之后会把思考结果给到图像生成模型,一步一步指导图像生成模型去生成最终的图片。
此时图像生成模型完全是听指令办事,他并没有真正理解小男孩打篮球是什么样子的,他只是机械的执行文本指令。
这里就会存在问题:
1)信息丢失
图像处理模型在理解你上传的图片是什么意思的时候,图片上很多细节被转述成文字的时候就可能会丢失。
2)理解肤浅
图像处理模型和语言处理模型这两个模型没有统一对齐理解。他们只是在进行信息的传递,而不是真正的互相协作。最终成品就像是把各个部分粘在一起,不够自然。
1.1.2 原生多模态的情况
这个模型就是既能看懂图像,又能看懂文字。
比如我们同样,让他把「小男孩正在踢足球的照片」变成「小男孩正在打篮球的照片」
这一次当你下达任务时,AI 看到了「小男孩正在踢足球的照片」所有的视觉细节(像素信息),并且他理解了小男孩打篮球这个词(语言信息),知道打篮球最少应该在篮球场去打。
于是 AI 立刻将视觉信息和语言信息快速融合在一起,不再是之前先图像模型理解图片信息,告诉语言模型,然后语言模型思考完之后指导图像模型生成最后照片。
而是直接形成一个统一的概念,我需要把小男孩踢足球变成小男孩打篮球,那首先场地要换成篮球场,打的球也要从足球换成篮球,足球门框也要变成篮球架。
这就是原生多模态的精髓:
1)不用把信息传来传去,模型不是先把图片翻译成文字,再把文字和指令结合。它是直接在一个统一的思考空间里面,同时理解图片里面的像素信息和你的文字指令信息。
2)深度融合理解,因为是同时处理,所以模型能理解两者之间更深层次的关系。比如你的指令是,「小男孩正在打篮球的照片」,模型就知道打篮球要在篮球场,要有篮球架,地上也不能是草坪,而不仅仅是做一个生硬的 P 图。
1.2 Nano Banana 能做什么?
1.2.1 文生图 (Text-to-image)
意思就是用文字描述去生成图片。
示例:
帮我生成一只小猫,正躺在地上懒洋洋的晒太阳。
1.2.2 图+文生图 (Image + text-to-image)
意思就是你可以在现有图片上进行编辑(增、删、改),你可以上传一张图片,然后用文字指令对它进行精准的修改。
1)增加元素:
帮我给这只小猫穿上一件可爱的衣服
2)删除元素
帮我把这张照片里面的大树给它移除
3)修改元素
帮我把猫猫躺在地上的环境从室外,修改成家里的客厅。
1.2.3 多图生图 (Multi-image to image)
意思就是融合多张图片进行创作或风格迁移,你可以同时上传多张照片,让模型把它们的元素进行组合、重构或者风格转换。
案例 1:元素组合
一张连衣裙照片,一张模特照片
指令:帮我把连衣裙穿到模特身上,生成一张专业的电商时尚照片,背景调整为户外街道。
生成结果:
效果不错,衣服细节还原的都还可以,但是我还是不太满意,所以某书找个 JK 把这个案例重新生成一下。
一张 JK 照片,一张模特照片
指令:帮我把 JK 穿到模特身上,生成一张专业的电商时尚照片,背景调整为户外街道。
生成结果:
案例 2:风格迁移
一张城市夜景照片,指令:把这张照片变成梵高《星夜》的风格,保留原有的建筑构图
生成结果:
1.2.4 迭代优化 (Iterative refinement)
意思就是你可以通过与 AI 对话不断微调图片,不需要你一次性给出完美的指令,你可以通过连续的对话,一步一步把你脑海中的画面打磨出来。
1.2.5 文字渲染 (Text rendering)
意思就是可以在图片中生成清晰的文字,想要在图片中生成清晰、美观且与图片背景融合的文字,这在以前图像甚至模型中是一个非常大的难题。
很多普通的图像生成模型,在生成文字的时候要么是拼写错误,要么是乱码。Nano Banana 在这方面有巨大的提升,能够根据你的要求生成符合设计感的文字。不过目前生成中文还比较麻烦。
指令:为一个叫 「hepingfly coffee」的咖啡店创建一个现代、极简的 Logo
生成的 Logo 结果:
放在咖啡店上的效果:
通过上面这 5 大功能,你可以使用 Nano Banana 从无到有的去创造图片,也可以在现有的图片基础上进行精细化的编辑和融合,整个过程就像是在和一位顶尖的设计师对话一样自然。
2、Nano Banana 生图黄金法则【gzh:和平本记】
核心思想:描述场景,而不是罗列关键词
Nano Banana 模型的核心优势在于其深度的语言理解能力。
如果你在生成图片的时候只是罗列关键词(比如,男人, 街道, 雨, 夜晚),那你只是利用了模型的词汇识别能力,这是比较浅层的能力。
如果你在生成图片的时候,是描述场景,那你就可以充分利用模型的语法、语境、情感和逻辑关系的理解能力,这是更深层次的能力。
模型能理解主谓宾,能理解,因为所以,这样的因果关系,能理解形容词带来的情感色彩。
什么是模型的浅层理解,什么是模型的深层理解?
比如说你现在有一个智能家居助理,你想让他在晚上帮你准备一个舒适放松的环境。
方式一:词汇识别,浅层理解
你对智能助理说:
沙发,灯,音乐,茶,晚上
此时助理收到指令后会进行关键词匹配,它可能会打开客厅所有灯,用最大的音量随机播放一首歌,然后告诉你厨房有茶叶。
智能助理把所有的关键词都执行了,但是结果并不是你想要的,因为你想要的是一个放松的环境,很显然智能助理提供的并不是这样一个环境。
因为他只是知道这几个词是什么,但是却并不知道他们之间的关系。
方式二:语法、语境、情感和逻辑关系,深层理解
你对智能助理说:
晚上好,我今天有点累,想在沙发上放松一下。可以把灯光调得柔和一些,放点舒缓的爵士乐吗?另外,帮我泡一杯热的甘菊茶吧。
这一次他的思考就完全不同了,它能够理解主谓宾,我...想...放松一下
(主语-我,谓语-想放松),他会知道这个任务的核心是放松,所以他会知道灯光要调到什么程度的柔和才会让人放松。
另外,晚上好,我今天有点累
,智能助理一下子就能明白,接下来所有的操作都应该围绕舒适和放松来进行,你这个指令提供了背景和情绪。
所以智能助理收到这个指令后,它可能会这么做,把客厅的大灯关掉,然后开几盏暖色调的落地灯,然后播放一个舒缓的爵士乐,同时启动厨房的智能水壶去烧水,然后告诉你茶叶在柜子里,水马上就烧好。
这就完美理解了你的意图。AI 模型跟上面举例也是类似。
2.1 罗列关键词的方法(效果不好)
指令:
男人, 侦探, 风衣, 街道, 雨, 夜晚, 霓虹灯, 潮湿, 城市, 未来感, 黑色电影风格
模型在接到上面指令之后,它是怎么思考的呢?
模型在看到这些互相没有关系的词语之后,他会尽力把这些元素都融入进画面里面。
大致过程可以是这样:
需要一个男人,然后这个男人得是一个侦探,他还需要穿一件风衣,背景是在街道,天上要下雨,时间是夜晚,街上要有霓虹灯,地上要是潮湿的,要有高楼大厦,整体风格是黑色电影风。
这样子可能会带来下面几个问题:
1)画面缺乏灵魂
因为模型只是完成了元素的简单堆彻,这个侦探没有任何表情,雨和霓虹灯也只是简单背景,他们之间没有任何互动,整个画面看起来就像是一个廉价的游戏截图,你指令里面提到的所有东西都在,但是就是没有氛围和故事感
2)构图混乱
因为没有指定元素之间的关系,所以模型会随机摆放它们。背景的霓虹灯就很杂乱。
3)风格问题
未来感和黑色电影风格虽然在图片中有所体现,但是因为没有一个场景去承载它,所以模型它也只是应用了一些表面的风格特征,并没有体现出来这两种风格融合的精髓
也就是说这种方式你提供零件,然后模型帮你组装,最后能给出你一个成品,但是没有生命力。
2.2 场景描述(黄金法则)
指令 1:
一位侦探站在雨中,霓虹灯的光芒在他湿漉漉的风衣上反射出斑斓的色彩。
指令2:
一张单一的漫画分镜,采用坚毅的黑色电影艺术风格,具有高对比度的黑白墨水效果。在前景中,一位穿着湿透风衣的侦探站在一盏闪烁的路灯下,冰冷的雨水浸湿了他的肩膀。在他的身后,一家荒凉酒吧的霓虹灯招牌在一个水坑中反射出孤独的光芒。光线刺眼而严酷,营造出一种戏剧化、阴沉的氛围。
模型在接到上面指令之后,它读到的是一个完整的故事片段,他会去理解元素之间的关系、互动和情感。
这样生成的结果,画面会充满故事感,你几乎能感受到侦探的孤独。构图和光影也很专业,模型知道路灯是主光源,霓虹灯是辅助光源。最后,高对比度、黑色电影风格也被编织在整个场景中,风格非常统一。
综上:
模型非常擅长连贯的、有叙事感的描述,一段生动的故事能生成更连贯和更高质量的图片。
3、纯文本生成图片场景(常用)
3.1 照片级写实场景
要生成这种类型的图片,需要你像一个摄影师一样思考。
像摄影师一样思考,意味着你需要了解一些跟摄影相关的专业术语,这样才能生成符合你要求的图片。
举例:
比如你现在想要生成一张图片,但是此时你不是让 AI 帮你生成,而是给一个摄影师打电话,让他帮你拍一张照片。
在电话里面你跟摄影师说,「帮我拍张照片」。
作为一名专业的摄影师,他听到你的要求之后肯定会有疑惑:
-
是拍什么样的人?他在干什么?(主体与动作)
-
在什么地方拍?白天还是晚上?光线怎么样?(环境与光线)
-
是拍全身照还是拍半身照?还是拍脸部特写?(拍摄类型)
-
想用什么样的镜头类型?背景是清晰的还是模糊的?(相机与镜头)
-
你想拍的这张照片最后想呈现出来一种什么样的感觉?是开心的还是严肃的?是横拍还是竖拍?(构图与氛围)
下面挨个来解释一下这些专业术语对我们生成图片的帮助:
3.1.1 拍摄类型
也就是相机离拍摄画面有多远,这决定了画面的取景范围,主体在画面中占多大比例?
1️⃣ 特写
聚焦于一个细节,通常是人脸。用于表达强烈的情感。
案例:
一个孩子眼睛的特写,里面反射着宇宙。
2️⃣ 肖像
主要拍摄人物的肩膀以上或者半身,重点是人物的面部表情和特征
案例:
一位自信的女CEO在她的办公室里的肖像照。
3️⃣ 全景
拍摄广阔的风景或者宏大的场景,人物在其中显示的很小,用于展示环境
案例:
日出时分,安徽黄山上一个孤独徒步者的远景。
4️⃣ 其他的一些术语
-
微距: 拍摄极小的物体,如昆虫的复眼、水滴。
-
鸟瞰视角: 从正上方往下拍。
-
低角度拍摄: 从下往上拍,能让主体显得高大雄伟。
3.1.2 主体与动作
也就是照片里面要拍谁,他在干什么?
这块可以关注两个点:
1️⃣ 不仅仅是名词
不要只说生成一个男人或者一个女人,而是要描述他的身份、衣着、年龄、神态。例如,「一位中国明朝时期穿着粗布围裙、头发花白的制瓷工匠」
2️⃣ 赋予动作
不要什么动作都不说,让他傻站着,给他一个具体的有故事性的动作,不要说,「拿着瓷器」,而是「正在仔细地、专注地检查一个刚刚做好的青花瓷」
案例:
一位中国明朝时期穿着粗布围裙、头发花白的制瓷工匠,正在仔细地、专注地检查一个刚刚做好的青花瓷。
3.1.3 环境与光线
也就是你知道照片在哪里拍?光从哪里进来?光线决定照片的氛围和质感。
1️⃣ 环境
提供背景和故事发生地。不要只说「一个房间」,而是「一个充满禅意的、阳光普照的日式工作室,架子上摆满了陶器」。
2️⃣ 光线
这是提升照片质感的关键。
光线类型:
-
柔光
-
硬光
光线时间:
-
黄金时刻: 日出后或日落前的一小时,光线是金色的,非常温暖柔和
-
蓝色时刻: 日出前或日落后的一小段时间,天空是深蓝色,适合拍城市夜景。
光源方向:
-
侧光: 从侧面打来的光,能凸显物体的纹理和轮廓。
-
逆光: 从主体背后打来的光,能在主体边缘形成美丽的轮廓光。
案例:温暖治愈的午后(侧光 + 柔和光 + 黄金时刻)
一张照片级写实的人像照片,一位年轻女子舒适地蜷缩在窗边的扶手椅上。她正专注地读着一本厚厚的书,身边放着一杯冒着热气的拿铁咖啡。午后黄金时刻的柔和光线从侧面的大窗户洒进来,照亮了她脸颊的轮廓和空气中漂浮的微尘。 光线在书页和咖啡杯的陶瓷表面上形成了温暖的光泽。背景是一个温馨的、略微虚化的客厅,可以看到书架和绿植。整个画面充满了宁静和惬意的氛围。竖版构图。
3.1.4 相机与镜头
告诉 AI 具体的摄影器材参数,能让 AI 更精准的模拟出专业摄影的效果。
1️⃣ 镜头焦距
-
85mm / 50mm 镜头: 常用的人像镜头,能产生自然的视角和漂亮的背景虚化。
-
35mm 镜头: 广角镜头,能拍进更多的环境,适合拍人文街景。
-
长焦镜头: 能压缩空间,把远处的景物拉近,背景虚化更强烈。
2️⃣ 光圈/背景虚化
直接说背景虚化是最简单最有效的方式,这能让主体从杂乱的背景中脱颖而出,画面更有重点。
案例 1:50mm 人像镜头
一张充满故事感的街头摄影肖像。一个穿着红色棉袄、戴着虎头帽的可爱中国小女孩,在北京冬日午后的胡同里,开心地咬着一串晶莹剔oter的冰糖葫芦,脸上洋溢着满足的笑容。使用 50mm 定焦镜头拍摄,视角自然亲切,营造出轻微的背景虚化(bokeh)效果,使得身后灰色的砖墙、斑驳的木门和远处模糊的灯笼都恰到好处地烘托了氛围,而没有抢走焦点。阳光从侧面温暖地照在孩子的脸上,让糖葫芦看起来更加诱人。
案例 2:35mm 广角镜头
一张充满诗意的电影感风景照片。在烟雨朦胧的江南水乡,一位身穿素雅旗袍的女子撑着一把油纸伞,正走过一座古老的石拱桥。采用 35mm 广角镜头拍摄,将小桥、潺潺的流水、两岸白墙黛瓦的徽派建筑以及沿岸的柳树都纳入画面中,展现了广阔而宁静的意境。细雨在空气中形成了薄雾,让远处的景物若隐若现。整个画面的色调是柔和的青色和灰色,充满了中国水墨画的质感。
案例 3:55mm 长焦镜头
一张极具情感冲击力的特写肖像。一位年轻的藏族少女,脸颊上有两抹高原红,眼神清澈明亮。她温柔地抱着一只白色的小羊羔,背景是雄伟的雪山。使用 85mm 人像镜头在较大光圈下拍摄,创造出强烈的背景虚化(bokeh)和空间压缩感,使得宏伟的雪山变得模糊而柔和,仿佛就在少女身后不远处。焦点清晰地落在少女的眼睛和她怀里小羊的绒毛上。阳光明亮,天空湛蓝,画面纯净而神圣
3.1.5 构图与氛围
这是照片的艺术加工部分,也就是你的照片拍出来是什么形状的(构图)?横版还是竖版?还是方形?还有照片整体给人什么样的一个感觉(氛围)?
1️⃣ 氛围
直接用形容词告诉AI你想要的感觉。
比如说可以是,宁静和大师级的氛围、神秘和悬疑的氛围、充满活力和欢乐的氛围
2️⃣ 构图/宽高比
决定你的照片是横的、竖的还是方的。
-
竖版构图 : 适合拍单人肖像。
-
横版构图 : 适合拍风景或多人场景。
-
方形构图 : 适合社交媒体,如Instagram。
案例 1:宁静氛围 + 竖版构图:
一张充满禅意的国风艺术照片。在清晨薄雾笼罩的翠绿竹林深处,一位身穿白色汉服、长发束起的文人雅士,端坐于一块青石上,正在抚弄膝上的古琴。阳光透过竹叶的缝隙,洒下斑驳的光影。整个画面的氛围是宁静致远的,充满了 profound peace(深邃的平和感)**。**采用竖版构图,强调了竹子的挺拔和人物的专注,构图简洁而富有诗意。
案例 2:热闹氛围 + 横版构图:
一幅描绘唐代长安城繁华夜市的数字油画。街道上人头攒动,穿着各式唐装的市民、西域商人和仕女们在琳琅满目的摊位前流连。街道两旁是雕梁画栋的唐式建筑,挂满了大红灯笼,将整个夜空照得亮如白昼。空气中仿佛弥漫着食物的香气和人们的欢声笑语。画面的整体氛围充满了热闹的活力和盛世的繁华。采用宽幅的横版构图,以全景视角展现了这条永不落幕的长安街。
案例 3:慵懒惬意氛围 + 方形构图:
一张温暖的摄影作品。一只胖乎乎的橘猫,在中国古典园林的一个雕花木窗(窗棂)上蜷缩着睡觉。午后的阳光透过窗棂,在它橘色的皮毛上投下美丽的光影格。窗外是模糊的几竿翠竹和一块太湖石。整个画面的氛围是极致的慵 懒和惬意。采用方形构图,使画面看起来非常和谐、稳定,像一幅生活小品画。
3.1.6 组合起来
可以把上面提到的 5 个部分都组合起来使用,这样你就能从一个模糊的想法,变成一个精确的、充满艺术指导的指令,AI 就能生成一张堪比专业摄影师作品的照片。
我们把拍摄类型、主体与动作、环境、光线、相机/镜头、氛围和构图都融合在一起,目标是生成一张堪比专业摄影大片的作品。
案例:
一张照片级写实的[半身肖像],主角是一位[白发苍苍、眼神专注的中国书法家,身穿深色中式对襟衫。他刚刚在宣纸上写完一个气韵生动的“龙”字,此刻正手持毛笔,略微倾身,仔细审视着纸上未干的墨迹]。场景是一个[充满书卷气的传统中式书房,背景是一个放满线装古籍的红木博古架]。光线来自[一束柔和的午后阳光,从侧面的雕花木窗斜射进来,在空气中形成了“丁达尔效应”,照亮了漂浮的微尘],光线也勾勒出他侧脸和白发的轮廓。这张照片[使用85mm人像镜头拍摄,背景被虚化成奶油般柔和的光斑 (creamy bokeh)],所有焦点都集中在人物和他刚完成的作品上。整体[氛围沉静而充满智慧]。采用[竖版构图]
3.2 生成贴纸和插画【gzh:和平本记】
要生成这种类型的图片,需要你从一个艺术家的角度去思考。当你想要插画或者卡通图片的时候,你需要描述的是图片的特征,比如风格、线条、上色方式等等,就不能和我们上面生成照片那样,去描述现实世界的光圈和镜头了
举例:
比如说你现在想要生成一组开心小熊猫贴纸,那你需要向艺术家一样去描述,生成你想要的非写实风格图像。
-
我要什么?(一张卡哇伊风格的贴纸。)
-
画什么内容?( 一只戴帽子、吃竹叶的开心小熊猫。)
-
用什么技法画? (轮廓要粗要干净,上色用卡通那种一块一块的。)
-
用什么颜色?背景呢?(颜色要鲜艳,背景必须是纯白的。)
3.2.1 风格
也就是这幅画是什么流派的?他是最重要的一步骤,为整个图片的基调定性。
类似于你想要让一位画家帮你画一幅画。那你是想要印象派的画作,还是想要水墨画呢?需要提前说好。
1️⃣ 卡哇伊风格 (Kawaii-style)
源自日本特制,一种可爱的艺术风格。
案例:
一张[卡哇伊风格的贴纸],画的是[一只胖乎乎的熊猫宝宝,它正用双臂抱着一个热气腾腾的小笼包,脸上是开心又满足的表情,有着一双闪闪发光的大眼睛]。
2️⃣ 其他常见的风格词
Anime style
(日式动漫风格)
Disney style
(迪士尼风格)
Sticker style
(贴纸风格,通常意味着有白边)
Flat illustration
(扁平插画)
Watercolor painting
(水彩画)
Pixel art
(像素艺术)
案例1:迪士尼风格
一张[Disney style的贴纸],画的是[一只胖乎乎的熊猫宝宝,它正用双臂抱着一个热气腾腾的小笼包,脸上是开心又满足的表情,有着一双闪闪发光的大眼睛]。
案例2:水彩画风格
一张[水彩画风格的贴纸],画的是[一只胖乎乎的熊猫宝宝,它正用双臂抱着一个热气腾腾的小笼包,脸上是开心又满足的表情,有着一双闪闪发光的大眼睛]。
Tips:
「风格」是最高级别的指令,它会影响到后面的所有元素。
3.2.1 特征
也就是画里的主角有什么特别之处?这里就是描述具体的画面内容了,包含主体和它的独特细节。
1️⃣ 主体
一只开心的小熊猫
2️⃣ 独特特征
-
戴着一顶小小的竹帽
-
正在咀嚼一片绿色的竹叶
-
腰间还挂着一只酒壶
案例:
一张[卡哇伊风格的贴纸],画的是一只开心的小熊猫,戴着一顶小小的竹帽,正在咀嚼一片绿色的竹叶,腰间还挂着一只酒壶
Tips:
加入细节和独特特征,能让你的小熊猫独一无二,充满故事性和趣味性。如果没有这些独特的特征,它只是一只普通的熊猫。
3.2.3 线条与阴影
这里你可以把它理解成画家是怎么样去画轮廓和上色的?
这是插画风格的核心技术细节,直接决定了图片的画风是细腻还是粗犷,是立体还是扁平。
1️⃣ 线条
画画时用的轮廓线,不同的线条画法会带来完全不同的感觉。
粗线条,干净的轮廓(Bold, clean outlines),大多数漫画和动画采用的风格,我们看的很多漫画书或者动画片,角色边缘都有一圈清晰的黑线,这种风格就非常适合做贴纸,因为它能够让主体从任何背景中凸显出来。
2️⃣ 阴影/上色
勾勒好轮廓线后,下一步就是上色了。上色的方式也直接决定了画面的质感。
卡通着色 (Simple cel-shading): 这个词很关键,这是一种非常重要的上色技术,它的特点是没有平滑的颜色渐变,而是用大块的、边界分明的纯色来表现光影。
具体操作:
-
先用一个基础色把整个区域填满
-
然后,在需要表现阴影的地方,直接用一个更深的颜色画出阴影的形状。
-
亮部(高光)和暗部(阴影)之间没有中间过渡色,只有一条清晰的分界线。
案例:
一张[经典的中国动画风格插画],主角是[身穿标志性盔甲的美猴王孙悟空。他正双手捧着一个碩大的仙桃,开心地大口吃着,脸上带着调皮又淘气的神情]。这张插画的线条必须是[粗大且富有表现力的水墨轮廓线,风格类似传统连环画]。上色方式采用[平涂的大色块和简单的卡通着色法来表现阴影],完全避免使用照片般的平滑渐变。色彩要[鲜艳明亮,让人联想起经典动画的色调]。背景是[简洁的淡奶油色]
Tips:
当你在提示词里加入 simple cel-shading
,你就是在告诉AI,请用动画片的方式来上色。不要给我平滑的、照片一样的光影渐变。我需要的是大色块、硬边缘的阴影。
3.2.4 调色板与背景
这幅画用什么颜色?背景是什么?如果把你自己想象成一个服装设计师的话,调色板就是你为这一季服装挑选的主色系,背景就像模特走秀的 T 台背景
1️⃣ 调色板
调色板不仅仅是用什么颜色,他是在设定一套色彩规则,让整个画面所有颜色搭配起来和谐统一,并且传达出特定的情感。
因为颜色本身是有情绪的,红色可以代表热情或者危险,蓝色可以代表宁静或者忧郁等等。
鲜艳的调色板 (a vibrant color palette):这个指令告诉AI使用饱和度高、明亮的颜色,让整个画面看起来充满活力和积极的感觉,符合可爱、开心的主题。
这个调色板指令非常适合用于儿童插画、节日贺卡、卡通形象,因为它能够营造出一种积极、乐观、充满能量的氛围。
所以调色板指令相当于告诉 AI 一个情绪滤镜,让他知道这幅画整体要呈现出什么样的色彩滤镜。
2️⃣ 背景
背景必须要是白色,这是一个非常重要且具体的指令,因为对于制作贴纸来说,白色背景意味着:
-
易于抠图: 如果你想把这个图案打印出来或者用在其他设计中,白色背景非常容易去除。
-
突出主体: 简单的背景能让彩色的主体更加醒目。
案例:
一张[现代波普艺术风格的插画],内容是[一个经典的京剧脸谱,具体为英雄人物关羽的脸谱]。整个设计采用[干净利落的图形化线条和平涂色块,没有任何写实的阴影或渐变]。重点在于色彩:插画使用[一套大胆且高对比度的调色板,以鲜艳的亮红色和深邃的黑色为主色调,并用金色和白色进行细节勾勒]。为了突出主体,[背景必须是坚实、纯净的白色],让复杂的脸谱图案能够戏剧性地跳脱出来。
Tips:
在生成贴纸、Logo、产品图或任何需要二次利用的图形时,鲜艳的调色板 (vibrant color palette)
+纯白背景 (white background)
是一个黄金组合。它可以保证你的作品在视觉上吸引人,又能在实际应用中极其方便。
3.3 图片中生成文字【gzh:和平本记】
要想在图片中生成精准的文字,需要你向平面设计师一样去思考。一个设计师在做 LOGO 或者海报的时候,会考虑3个核心问题:
-
写什么?
-
用什么字体?
-
整体看起来怎么样?
AI 同样也需要你提供这些信息。
3.3.1 明确文本内容
到底要写哪几个字?这是最基础,也是最容易出错的一步。AI 需要知道逐字逐句的文本内容。
错误的做法:
给我一个咖啡店的 LOGO,名字叫做 hepingfly的咖啡
这里 AI 可能会尝试翻译 hepingfly,可能会生成「和平飞的咖啡」「hepingfly coffee」 结果充满了不确定性。
正确的做法:
直接用英文的引号""
把你想要生成的内容括起来
给我一个咖啡店的 LOGO,名字叫做 "hepingfly coffee"
这个引号就是在告诉 AI,给我原封不动的生成引号里面的这串字符,可以极大提高文字内容的准确性。
案例:
Tips:
对于任何你想精准生成的文本,使用引号括起来是最可靠的方法
3.3.2 字体风格
同样是 「hepingfly」这个名字,用宋体、黑体还是手写体,给人的感觉是完全不一样的。字体本身就是一种设计语言,你必须要告诉 AI,你想要一个什么样的字体感觉。
错误做法:
给这张图片加上文字"hepingfly"
这时候 AI 会随机选择一种他认为合适的文字。这个字体有可能太严肃、太花哨,不符合图片的整体调性。
正确做法:
用描述性的词语来定义字体风格
比如说,可以使用现代、极简的无衬线字体。
其他常用字体风格描述词:
Serif font
(衬线字体): 感觉更传统、典雅、正式,适合书籍、报纸。
Script / Cursive font
(手写体): 感觉优雅、个性化、不拘一格。
Bold font
(粗体): 感觉有力、醒目。
Elegant font
(优雅的字体)。
Playful font
(俏皮的字体)。
Vintage / Retro font
(复古字体)。
案例:
为一个名为"茶与时光"的高端中式茶饮品牌设计一个Logo。Logo需要包含中文"茶与时光"和英文 "Tea and Time"。文字请使用一种优雅的宋体风格衬线字体 (elegant, Song Ti style serif font),笔画带有精致的装饰感,体现传统书法的韵味。整体设计简洁、对称,以深绿色和金色作为主色调,营造出一种宁静而奢华的感觉。
Tips:
用形容词或专业术语(如sans-serif)来描述你想要的字体风格。
3.3.3 整体设计
这个 Logo 最终要用在哪里?整体感觉如何?
你需要为 AI 提供上下文,告诉他这个设计的最终目的和整体的视觉要求
错误做法:
生成一个带"hepingfly tea"字样的圆形图案。
这种虽然指定了形状,但是 AI 不知道这个图案的用途,可能会画的很复杂,或者颜色很奇怪
正确做法:
描述他的用途和视觉风格。
为一间茶室创建一个现代的、极简的 Logo,配色方案是黑白
-
为一间茶室,这个上下文很重要,AI 的大脑里面存储了成千上万个茶室的 Logo 样式,他会立刻联想到一些经典元素,并在此基础上进行创作。
-
现代、极简,强调整体的设计哲学
-
黑白配色,这是一个明确的视觉指令,限制了颜色的使用,确保 LOGO 的简洁和高级感。
案例:
请为一个名为“茶与时光”的儿童花果茶品牌设计一个可爱的卡通吉祥物Logo。 我需要一个充满童趣和活力的卡通风格设计 (playful and energetic cartoon style)。Logo可以是一个拟人化的、正在微笑的“茶叶小精灵”抱着一个大大的时钟。整体配色方案请使用明亮、甜美的糖果色 (bright and sweet candy color scheme),比如柠檬黄、草莓粉和天空蓝。这个Logo最终会用在儿童饮料的包装上。
Tips:
解释你的意图和目的,并设定好整体的视觉规则(如配色)。
3.4 生成产品与商业摄影图
生成这类图片需要像一个摄影师(专业的商业摄影师)一样思考和沟通。当你为一个商业广告拍摄产品时,你需要考虑的不仅仅是好看,还需要考虑如何通过光影、背景、角度来凸显产品的价值、质感和吸引力。
3.4.1 专业布光
如何用灯光去塑造产品,这是商业摄影的灵魂,也是让一张普通照片和一张大片拉开差距的关键。
也就是说光「有光」是不够的,你还需要告诉我 AI 用什么样的光?怎么打光?
通常使用的指令:三点式柔光箱布光 (a three-point softbox setup)
三点式布光,是摄影棚里面最经典、最专业的布光方法,由三盏灯组成:
-
主光: 主要的光源,负责照亮产品,塑造其基本形态。
-
补光: 放在主光的另一侧,亮度较弱,用于填充和柔化主光产生的浓重阴影,让暗部细节显现出来。
-
轮廓光/背光 : 放在产品的后方或侧后方,用于勾勒产品的边缘,让它从背景中分离出来,增加立体感。
案例:
一张高分辨率的、在影棚环境下拍摄的经典宜兴紫砂茶壶产品照。茶壶摆放在一个深色的、有岁月痕-迹的中式木质茶盘上。 布光是这张照片的灵魂:采用一套精密的三点式柔光箱布光。一盏主光柔和地照亮茶壶的正面;一盏补光巧妙地揭示了阴影区域的细节,避免死黑;最关键的是,一束清晰的轮廓光 (rim light) 从茶壶的后上方打来,精准地勾勒出壶盖、壶嘴和壶肩的优美曲线,使其轮廓从深色背景中脱颖而出,立体感十足。 拍摄角度为略微仰视的四分之三视角,以彰显茶壶的庄重感。照片要求极致写实,焦点必须清晰地对准紫砂泥料上那种独特的、细腻的颗粒质感。
Tips:
当你对 AI 说,使用三点式柔光箱布光 (a three-point softbox setup),你其实是在下达一个非常专业的指令,「请用专业影棚里最经典的方法来给我打光,我不要随便的自然光。我需要产品被均匀照亮,阴影柔和,轮廓清晰,充满立体感」,AI 能够立刻 get 到你想要的是一张商业级别的棚拍大片。
3.4.2 背景
产品放在什么上面?背景的选择直接影响产品的“人设”和定位。
为不同的产品选择合适的背景,关键在于学会一种联想与搭配的思维方式,可以遵循下面3个步骤来跟 AI 沟通:
1️⃣ 定义你的产品“人设”
在选择背景之前,先用几个关键词来定义你的产品想要呈现给消费者的形象或感觉。这是你所有决策的出发点。
-
例子A:一款高科技运动耳机
-
人设关键词: 动感、未来、精准、防水、专业。
-
-
例子B:一瓶手工制作的蜂蜜
-
人设关键词: 自然、纯净、温暖、有机、田园。
-
-
例子C:一支复古风格的钢笔
-
人设关键词: 典雅、怀旧、文艺、匠心、沉稳。
-
2️⃣ 围绕“人设”,联想匹配的背景材质和场景
现在你可以根据你定义的人设关键词,开始进行头脑风暴,联想哪些材质 、环境 或元素能够强化这种人设。
针对例子A:高科技运动耳机 (动感,未来,专业)
-
材质联想:
-
碳纤维 (Carbon fiber surface) -> 科技感、轻量化
-
拉丝金属 (Brushed metal plate) -> 精准、冷峻
-
带有水珠的黑色岩石 (Black volcanic rock with water droplets) -> 防水、坚固、户外感
-
霓虹灯光轨 (On a surface with neon light trails) -> 动感、速度、赛博朋克
-
-
场景联想:
-
在现代健身房的器械上 (On a modern gym machine) -> 专业、运动场景
-
在一个未来主义的、极简的白色空间里 (In a futuristic, minimalist white room) -> 未来科技感
-
3️⃣ 将你的选择清晰的描述给 AI
把你头脑风暴出的最佳搭配,用具体、描述性的语言写进你的提示词里。
案例:
一张高分辨率的**商业广告产品照片**,主角是一对**设计时尚、线条流畅的哑光黑色无线耳机**。 **[背景]** 这对耳机被精心摆放在**一块深灰色、湿润的火山岩板上**。岩石表面粗糙不平,布满了**闪闪发光的细小水珠**,直观地展示了耳机的IPX7级防水性能。 **[布光]** 采用**影棚内的三点式布光法**,但风格偏向硬朗。一道**锐利的侧光 (hard side light)** 扫过耳机的表面,勾勒出其精准的边缘和品牌Logo的微弱反光。补光很弱,以保持画面的高对比度和神秘感。 **[拍摄角度]** 采用**略微俯视的特写角度 (a slightly high-angle, close-up shot)**,让观众可以清晰地看到产品的设计细节和岩石上的水珠。 **[焦点与细节]** 照片要求极致写实,**焦点清晰地对准耳机外壳上的一颗晶莹的水珠**,可以看见水珠反射出的微弱光芒。背景是深邃、失焦的黑色。
3.4.3 拍摄角度
从哪个方向拍?拍摄角度决定了观众如何看待这个产品,能突出产品的哪些特征?
常用指令:略微俯视的45度角 (a slightly elevated 45-degree shot)
为什么是45度角?
这在产品摄影中被称为四分之三视角,是一个黄金角度。它能同时展示产品的多个面,这是向消费者展示产品信息最全面、最美观的角度之一。
案例 1:平视角度
一张精致的中国丝绸团扇的产品照。扇面半透明,有手绘翠鸟,扇柄为黑檀木带流苏。拍摄角度是直视的、平视的正面视角。团扇竖直靠在一个纯净的深灰色背景上
案例2:俯瞰角度
一张精致的中国丝绸团扇的产品照,平放在一个深色表面上。扇面半透明,有手绘翠鸟,扇柄为黑檀木带流苏。拍摄角度是垂直向下的、鸟瞰视角。构图极简。
案例3:四分之三黄金视角,全面且立体(推荐)
一张高品质的、在影棚拍摄的精致中国丝绸团扇 (Tuan Shan) 产品照。扇面是半透明的丝绸,上面有精美的手绘翠鸟,扇柄是光泽温润的紫檀木,并系有丝质流苏。团扇优雅地斜靠在一个深色背景前。 [核心指令] 拍摄角度是略微俯视的四分之三视角 (a slightly elevated 3/4 view),这个角度完美地同时展示了扇面的精美画作、扇子本身的厚度、以及紫檀木扇柄的光滑质感和立体造型。光线柔和,清晰地突出了丝绸的半透明质感和木柄的纹理。
通过上面3个案例一对比,你就知道为什么「四分之三视角」在产品摄影中如此备受推崇。因为它是在展示清晰和表现立体之间找到了一个最完美的平衡点。
3.4.4 焦点
画面里面最清晰的部分是什么?焦点是画面的视觉中心,是你想让观众第一眼就注意到的地方。
案例:
一张充满食欲的美食特写照片。一个金黄酥脆的葡式蛋挞,表面带着完美的焦糖斑点,摆放在一个质朴的陶瓷盘子上。 清晨柔和的阳光从侧面窗户洒入,照亮了整个场景。蛋挞已经被一把小勺子轻轻地从中间划开,露出了内部嫩黄、微微颤动的蛋奶馅。 [核心指令 - 焦点] 照片采用微距镜头拍摄,焦点极其锐利地对准了蛋挞被划开的切面上,那一小滴即将滴落、晶莹剔透的半流质蛋奶馅 (the glistening, semi-liquid custard filling oozing out)。蛋挞酥脆的外皮和远处的背景则处于柔和的失焦状态。 这张照片的目的是捕捉第一口的诱惑瞬间,充满了温暖和甜蜜的氛围。
3.5 生成极简与留白设计【gzh:和平本记】
极简与留白设计,它的核心灵魂是,负空间 (Negative Space)。对于任何需要做 PPT 、海报、网站banner、书籍封面等需要后期配文的设计来说,都是极其重要。
什么是负空间?
想象一张白纸上画了一个黑色的圆。
-
正空间: 就是那个黑色的圆本身,也就是画面的主体。
-
负空间 : 就是黑色圆周围所有白色的、空无一物的区域。
在传统观念里,我们可能只关注那个黑色的圆画得好不好。但在设计中,负空间和正空间同等重要,甚至更重要。
在这个下面这个经典的“鲁宾之杯”图形中,你可以看到一个杯子(正空间),也可以看到两个人脸的侧影(由负空间构成)
为什么负空间很重要?
-
突出主体: 大量的留白(负空间)像一个巨大的、安静的舞台,能让你的主角(正空间)立刻成为全场的焦点。如果舞台上挤满了东西,主角反而不显眼了。
-
引导视线: 空旷的空间可以像一条无形的路径,引导观众的眼睛从一个元素移动到另一个元素。
-
提供呼吸感: 一个塞得满满的画面会让人感到压抑、喘不过气。大量的负空间能让设计“呼吸”,给人一种轻松、开阔、高级的感觉。
-
为内容留出空间: 这正是这个知识点的核心应用!负空间就是你预留给未来要添加的标题、Logo、文字说明的地方。
如何用 AI 生成带有负空间的图片?
AI默认可能会倾向于生成一个主体占据大部分画面的饱满构图。所以,你需要非常明确地告诉它,你想要一个空的画面。
我们的目标: 生成一张干净、极简的背景图,以便我以后可以在上面加上公司Logo和宣传语。
3.5.1 主体与位置,定义正空间并把它推到角落
错误做法:帮我生成一片红枫叶
这样 AI 可能直接会把枫叶放在画面的正中央,并且画的很大,占满整个屏幕,这样你就没办法加其他的元素了。
正确做法:明确指定主体的大小、形态和位置。
一片单一的、精致的红枫叶,位于画面的右下角
对于画面右下角这个指令是创造负空间的关键!通过把主体推到画面的一个角落或边缘,你自然就在画面的其他区域(比如左上角和中间)创造出了大片的、可供利用的负空间。
其他位置指令: in the top-left corner
(在左上角), along the bottom edge
(沿着底部边缘)。
案例:
一幅极简主义的现代国风 (Guofeng) 插画。 [主体与位置] 一枝单一的、形态优雅的水墨风格梅花,带着几朵含苞待放的粉色花蕾,从画面的左上角优雅地伸展进来,斜向右下。梅花的枝干是用充满书法韵味的黑色墨水画的。 [背景] 背景是一大片空旷的、带有淡淡米黄色的宣纸,纸张的微妙纹理清晰可见。 [意图] 整个构图在画面的右侧和下半部分留出了巨大的负空间(留白),非常适合用来添加标题、诗句或Logo。光线柔和,氛围宁静而富有诗意。
3.5.2 背景
通过背景去强调负空间的空与大
错误做法:在一个白色画布上
这个描述不够强烈,AI 可能还是会把主体画得很大。
正确做法:用强烈的形容词来描述背景的空旷感。
背景是一块巨大、空旷的灰白色画布
或者你可以直接告诉 AI 你的意图,例如:「为文字创造大量的负空间」,这时候 AI 就会主动去优化构图,确保留出足够且合适的空白区域。
案例:
一幅极简主义的中国水墨山水画。 [主体与位置] 在画面的遥远天际线上,一座孤零零的小山峰的剪影穿过一片云海。在画面的最下方前景处,一艘极小的渔船在平静无波的水面上若隐若现。 [背景 - 核心指令] 这幅画的绝大部分构图(超过80%)都被一片巨大、空旷、宁静的空间所占据**,这个空间由淡淡的薄雾、黎明时分的灰色天空和镜面般的水面无缝融合而成。 [意图 - 核心指令] 这种构图创造了巨量的负空间(留白),其目的在于唤起一种深刻的孤独感和内心的宁静。整个画面的笔触非常少,意境深远。
3.6 生成漫画/故事板
你需要把自己想象成一个漫画家,在脑海中构思好一个具体的分镜,然后把这个分镜的每一个元素都清晰的描绘给 AI
3.6.1 艺术风格
这本漫画是什么画风的?这一步会决定整个分镜的视觉语言。是热血少年漫,还是唯美古风?
案例:
一张高质量的、精细的现代中国国漫风格插画。 [艺术风格-核心] 这种风格的特点是拥有锐利且充满动感的线条艺术、鲜艳且高对比度的数字上色,以及受动漫影响但极具戏剧感的角色设计。 [角色与动作] 画面主角是一位英俊的银发年轻道士,他穿着一件改良过的、充满未来感的道袍,上面绣着发光的蓝色电路纹路。他双手正在结一个复杂的手印,一个由能量构成的、发着幽幽蓝光的八卦图正悬浮在他掌前。 [背景] 背景设定在一个下着雨的、充满霓虹灯的未来中国都市的夜晚街道。空气中可以看到全息投影的中文广告牌,远处的空中可以看到模糊的飞行器。 [情绪氛围] 整体氛围酷炫、神秘,充满了赛博朋克的能量感。
3.6.2 前景与背景
镜头里有什么?谁在前,谁在后?这是分镜的构图部分。你需要清晰地规划出画面中的层次感。
-
前景: 离镜头最近,通常是画面的焦点。
-
背景: 离镜头较远,用来交代环境和氛围。
案例:
一张充满电影感的、高细节的武侠风格数字绘画。 [前景] 在画面的左侧近前景,是一位女刺客的肩膀和背影。她身穿深色劲装,手中紧握着一对乌黑的短匕。阳光穿过竹林,在她身上投下斑驳的光影,细节丰富。 [中景] 在她和敌人之间的空间里,有几片竹叶正在空中缓缓飘落。 [背景] 在画面的背景深处,一片竹林空地上,站着一位身穿华丽银甲、气势逼人的武士。他手持一把巨大的偃月刀,目光如炬,死死地盯着前景的刺客。他身后的背景是一片无尽的、高耸入云的翠绿竹林。 整个画面充满了一触即发的紧张对峙感。
3.6.3 情绪氛围
这个分镜想表达什么样的感觉?这是分镜的灵魂。通过描述光影和整体感觉,来引导AI渲染出正确的情绪。
案例:
一张半写实的、充满氛围感的现代国风概念艺术数字绘画。 场景在一座破败古寺的殿堂里,时值深夜。一位面容略显苍白的年轻书生坐在一张旧木桌旁,惊讶地抬起头。在他面前,站着一位绝美的白发女子,狐狸耳朵若隐若现,她身穿一袭白丝长袍。窗外大雨滂沱。 [情绪氛围 - 核心] 光线: 整个场景的唯一光源来自两个地方:一是桌上那一支温暖而摇曳的蜡烛,二是窗外透进来的冰冷、幽蓝的月光。冷暖两种光线形成了强烈的明暗对比,在大殿里投下了长长的、不断舞动的阴影。 感觉: 整张画的氛围是神秘的、令人着迷的,同时又夹杂着一丝丝诡异。有一种禁忌之恋和超自然奇观交织的感觉。
4、高级技巧与最佳实践【gzh:和平本记】
下面会分享 5 个专业技巧,这些技巧能让你对生成结果有更强的控制力。
4.1 描述越具体越好
1️⃣ 核心思想
AI 它不是你肚子里面的蛔虫,没有心领神会的能力,你给他模糊的指令,他就只能返回给你模糊的结果。
2️⃣ 示例
模糊指令:帮我生成一幅铠甲
具体指令:华丽的精灵板甲,蚀刻着银色叶脉图案,带有高领和猎鹰翅膀形状的肩甲。
3️⃣ 通用技巧
拆解你的想象。 把你脑中的画面拆分成材质、形状、颜色、纹理、风格等多个细节,然后把这些细节都告诉AI。
案例 1:模糊指令
一条中国龙
案例 2: 具体指令
一幅极具冲击力的神话生物数字绘画。 主角是一条威严的、蜿-蜒盘旋的中国龙 (Loong)。 [头部细节] 它的头部像骆驼,长着一对雄伟的、分叉的鹿角。一对长长的、如鲶鱼般的金色胡须 (whiskers) 从它的鼻子两侧飘动。它的眼睛是燃烧的金色,表情庄重而威严。 [身体细节] 它的身体修长如蛇,覆盖着成千上万片精致的、闪闪发光的金色鱼鳞。在它的脊背上,有一排更加尖锐的鳍状突起。 [爪子细节] 它的四只爪子强健有力,如同鹰爪,紧紧抓住一团雷云。 [环境与氛围] 这条龙正在黑暗的、雷电交加的暴风云海中穿行。一道道紫色的闪电在它身边划过,照亮了它金色的鳞片。整个画面充满了史诗般的力量感和神圣的压迫感。
4.2 修复角色一致性
在多轮对话(迭代)中,AI可能会忘记角色最初的设定,导致细节发生改变(比如眼睛颜色变了,衣服款式变了)。
1️⃣ 场景复现:
-
你:画一个红发蓝眼的女孩,穿着格子裙。(AI生成图1)
-
你:很好,让她笑一下。 (AI生成图2,但头发变成棕色了)
-
你:让她跳起来。(AI生成图3,眼睛变成绿色了)
这就是「角色漂移」。因为在后续指令中,你没有重复角色的核心特征,AI的注意力就只放在「笑」和「跳」上,慢慢地就把「红发蓝眼」给忘了。
2️⃣ 修复方法:
1)重新开一个对话,假设你跟 AI 一共聊了10轮,在第 7 轮的时候出现角色不一致了,这时候你把第六轮生成的图拿着,新开一个对话,然后把它当成垫图,继续下面的对话
2)提取角色身份证,在同一个对话中,你可以重新提交一次完整的角色身份证,例如,上面的例子,「我们重来。我想要那个红发、蓝眼、穿着格子裙的女孩。现在,让她带着开心的表情跳起来。」
3️⃣ 通用技巧
把你角色的核心外貌描述(发型、发色、瞳色、关键服饰、特殊标记等)存成一个模板,在每次需要生成这个角色的新图片时,都把这个模板加在你的指令前面。
4.3 提供背景和意图
1️⃣ 核心思想
跟 AI 说清楚你为什么要这张图,能帮助它做出更符合需求的创意决策。
例如:别只说「做饭」,要说「给女朋友做情人节晚餐」
2️⃣ 示例
无意图指令:创建一个Logo
有意图指令:为一个定位高端、极简风格、目标客户是职业女性的护肤品牌创建一个Logo
3️⃣ 通用技巧
在你的指令前加一句,(我需要一张用于...),比如(用于儿童书封面)
案例:
[意图声明] 我需要一张图片,用作中国新年(春节)家庭团聚晚宴的邀请函封面。这张图片的核心目的是唤起一种温暖、幸福和对“回家”的怀旧之情。
[场景描述] 这是一张充满氛围感的夜景照片。视角是从一扇古色古香的、带有霜花的木窗向外看。[主体] 窗外,一个精致的、亮着暖黄色光芒的红纸灯笼正悬挂在屋檐下,灯笼的流苏在寒风中微微摆动。透过灯笼的光,可以看到天空中正飘着细密的雪花。背景是模糊的、远处邻居家透出的点点灯火。整个画面焦点柔和,充满了迎接归家亲人的温馨与期待感。
4.4 迭代和优化
1️⃣ 核心思想
别想一口吃个胖子,不要指望一次就能生成完美图片。把AI当成你的私人设计师,通过多轮沟通来逐步完善。
2️⃣ 示例
-
第一轮: 一个骑士站在城堡前 -> 得到一个基础构图。
-
第二轮(迭代): 这是个不错的开始。现在,把骑士的盔甲变成黑色,天空变成暴风雨天。 -> 调整颜色和氛围。
-
第三轮(优化): 完美。最后一件事,能在城堡后面加一道闪电让它更戏剧化吗?-> 增加点睛之笔。
3️⃣ 通用技巧
学会用肯定+修改的句式与AI对话,比如「这个很好,但是...」、「我喜欢这个方向,我们能把...改一下吗?」。
4.5 使用语义否定
1️⃣ 核心思想
AI在处理「不」、「没有」这类否定词时,有时会感到困惑,甚至会把「不要」的东西画出来。用正向、肯定的语言去描述你想要的「状态」,效果更好。举个例子,不说「不许动」,要说「保持安静」
2️⃣ 示例
一条没有车的街道
AI 会首先识别到车,然后再去处理没有,这个过程很容易短路,结果反而画出了一辆车。
语义否定:
一条空旷、荒无人烟的街道,没有任何交通的迹象。
3️⃣ 通用技巧
思考一下「不要X」的反面是什么状态,然后去描述那个状态。
-
不要笑 vs 一张严肃、沉思的脸
-
没有树 vs 一片广阔、开阔的草原
案例:
一幅中国传统水-墨风格的山水画 (Shanshui)。 [正向描述] 画面描绘了一片原始的、未经人类涉足的自然景观 。高耸的山脉被厚厚的、原始的森林所覆盖,山间云雾缭绕。一条纯净的河流从山谷中静静流过,河岸边只有自然的岩石和古老的树木。 整个画面展现的是一种完全原始、人迹罕至的荒野之美。氛围宁静、庄严,充满了道家思想中对自然的敬畏。
更多推荐
所有评论(0)