如何为Veo 3撰写提示语以获得最佳效果

某中心推出的Veo 3可以根据文本提示生成带有音频的视频。音频内容可以是对话、画外音、音效和音乐。

首先了解基础知识。精心设计的提示语是生成优质视频的关键。在提示语中用平实的语言描述得越具体,Veo 3就越容易理解并生成你想要的视频。

尝试在提示语中包含以下视觉元素:

  • 主体:场景中是谁或是什么——人物、动物、物体或风景。
  • 背景:主体在哪里?室内?城市街道?森林?
  • 动作:你的主体在走路、跳跃、转头吗?
  • 风格:你追求视觉美学效果(电影感、动画、定格动画等)。
  • 摄像机运动:描述摄像机如何移动:航拍、平视、俯拍或低角度。
  • 构图:镜头如何取景:广角镜头、特写等。
  • 氛围:情绪和灯光。你可以说“暖色调”、“蓝光”或“夜晚”。

你还需要包含音频元素,下文将更详细地介绍。

以下是一个基本提示语与详细提示语的示例对比:

  • 基本提示:一个男人接起一台转盘电话
  • 详细提示:一个摇晃的滑动变焦镜头从模糊的远景拉近到一个电影感的特写:一个绝望的男人,穿着破旧的绿色风衣,从一面粗糙的砖墙上拿起一台转盘电话,笼罩在一块绿色霓虹招牌诡异的光芒中。变焦揭示了他脸上刻画的紧张和绝望,他挣扎着在电话中说话。浅景深聚焦在他紧锁的眉头和黑色的转盘电话上,将背景模糊成一片霓虹色彩和模糊的阴影,营造出一种紧迫感和孤立感。

第二个提示语包含了结构性元素,以引导Veo 3朝着我们试图创建的场景发展。

你的浏览器不支持视频标签。
基本提示生成视频
你的浏览器不支持视频标签。
详细提示生成视频

每次更改你的提示语

如果你熟悉像Midjourney或Flux这样的模型,你会知道运行相同的提示语几次(即使用不同的种子)会得到相当程度的变化。

Veo 3则不同。对于相同的提示语,即使是相当简单的提示,Veo 3也会输出非常相似的结果。你可能会看到相同长相的人穿着相同的衣服,出现在相似的地方。如果你生成的输出有轻微错误,比如连贯性或音频故障,这非常有用——你可以运行不同的种子来获得你想要的结果。但如果你处于探索模式,希望看到各种可能性,那么多次运行相同的提示语是在浪费资金。

在下面的示例中,我们用不同的种子运行了两次提示语“一个女人在笑”。注意她看起来一模一样,穿着相同的衣服,以相同的方式笑,房间也一样,她甚至戴着相同的耳环。一个模型能如此一致是不寻常的。

你的浏览器不支持视频标签。
第一个视频
你的浏览器不支持视频标签。</视频>
第二个视频

如果你还不确定自己想要什么,可以从几个大体不同的提示语开始。如果你知道想要某些元素,那么就对那些元素进行具体描述。

在这个视频中,我们可以明显做的是开始尝试描述:

  • 女人的外貌(发色、发型、肤色)
  • 她的穿着
  • 她在哪里
  • 她如何笑
  • 她为什么笑

以下是几个例子:

  • 一个女人长时间大声地笑,她在办公室会议中,事后感到尴尬。
  • 一个女人安静地笑,她在家看电视节目。

角色一致性

通常,在使用没有起始帧或场景成分的视频模型时,角色一致性很难保持。这些功能即将在Veo 3中推出。

与此同时,由于相似的提示语会产生相似的角色,如果你在多次生成中保持角色详细提示描述的一致性,通常会得到一个长相相同的人。这意味着你可以保留一个角色描述列表,并在不同的提示语中逐字重复它们:

John,一个40多岁的男人,棕色短发,穿着蓝色夹克和眼镜,看起来若有所思。

这些描述越独特和具体,Veo 3在单独生成的场景之间保持视觉连续性的效果就越好。创建具有确切措辞的角色参考表以确保一致性。

你的浏览器不支持视频标签。
John视频示例1
你的浏览器不支持视频标签。
John视频示例2

提示音频

由于Veo 3会为每个视频生成音频,你也需要为你想要听到的音频进行提示。考虑以下元素:

  • 人物在说什么(对话)
  • 场景的环境噪音(繁忙街道、繁忙办公室、繁忙咖啡馆等的声音)
  • 场景外的音效或噪音(如电话铃声)
  • 场景可能需要的任何音乐(紧张的电影配乐、欢快的流行歌曲等)。

提示对话并避免字幕

你用Veo 3创建的角色可以非常生动。他们会说话、讲笑话、打手势,有时还能表演。但如果你想让他们说话,你需要进行提示。

你可以用两种不同的方式提示对话:

  • 明确地:“一个男人说:我的名字是Ben”
  • 隐含地:“一个男人告诉我们他的名字”

这两种方式都会生成一个男人说话的视频,第一种会使用你要求的确切词语,第二种会让模型决定如何表达,在这种情况下,模型会为你决定一个名字。

编写你自己的对话

如果你明确要表达的内容,尽量保持对话简短。内容应该能在约8秒内说完。
如果你试图塞入太多内容,最终可能会导致角色说话速度过快。如果你要求他们说的太少,可能会得到尴尬的沉默或角色说出无意义的AI胡言乱语(如下面的第二个例子)。没有明确的指导,模型将无法编造它需要的所有词语。

你的浏览器不支持视频标签。
对话过长示例
你的浏览器不支持视频标签。
对话过短示例

让Veo 3编写对话脚本

如果你不擅长写对话,隐含的对话提示会有所帮助。你也可以转录你喜欢的输出,以便在以后的提示中使用。
在这里,我们让Veo 3创建一个单口喜剧演员在音乐节上讲笑话的视频,首先我们让Veo 3决定笑话内容。第二个视频我们让Veo 3尝试讲出我们在提示语中放入的笑话。

你的浏览器不支持视频标签。
隐含笑话提示
你的浏览器不支持视频标签。
明确笑话提示

你可以尝试的一些提示语,看看Veo 3在对话方面的多样性:

  • 一个单口喜剧演员讲一个笑话
  • 两个人讨论一部电影
  • 一个男人在电话里争吵
  • 一个女人讲述她的生活故事

正确发音

有时你会发现模型发音不正确。处理这个问题最简单的方法是按发音拼写单词。在开头的例子中,我们的播客主持人说:

Read on to get fofr and Shridar’s guidance on making videos

但为了得到我们名字的正确发音,我们不得不将提示语改为:

Read on to get foh-fur’s and Shreedar’s guidance on making videos

谁说了什么

当你提示多个角色之间的对话时,有时会发现Veo 3会混淆谁说了什么。当角色描述相似,并且对Veo 3来说哪个角色是哪个模糊不清时,这种情况很常见。
尽量在你的提示语中明确谁在说话:

  • 穿粉色衣服的女人说:但我才是穿粉色的那个人
  • 戴眼镜的男人回答:不,我才是戴眼镜的那个人

避免输出中出现字幕

Veo 3肯定是在大量带有硬编码字幕的视频上训练的,因为在输出中经常看到拼写错误和不正确的字幕。它们经常毁掉一次生成,但有几种简单的方法可以避免它们:

  1. 将你想听到的说话内容放在冒号后面,例如:“一个男人说:我的名字是Ben”,而不是放在引号里,例如:“一个男人说:‘我的名字是Ben’”。
  2. 在提示语中加入“(无字幕)”,否定性指令在Veo 3提示语中效果很好。
  3. 如果其他方法都失败了,不断重复说“不要字幕。不要字幕!”。

错误的背景音频(或不需要的现场演播室观众案例)

如果你没有在视频中定义你想听到的背景音频,那么Veo 3需要自己推断,通常这没问题,但有时会出错。现场演播室观众是一种常见的幻觉。有时这是你想要的,比如虚假的情景喜剧。但通常额外的笑声与场景不匹配。Veo 3甚至在制作上面的例子时也这样做过,以下是一个不合适的演播室观众毁掉一次生成的例子:

你的浏览器不支持视频标签。
不需要的演播室观众背景笑声示例

避免这种情况最简单的方法是明确提示你期望听到的音频。在本例中,我们通过添加“远处乐队的声音、嘈杂的人群、繁忙节日场地的环境背景”来修正生成,以获得输出中正确的感觉。

提示音乐

就像视频的其他部分一样,如果你想要场景中有音乐,你需要在提示语中包含它。
同样,你可以明确描述你想听到的音乐的类型、风格和情绪。或者你可以更模糊一些,让Veo 3决定。

风格

开箱即用的Veo 3通常会生成看起来制作精良的实景视频,比如流畅的专业演示、商业广告或音乐视频。
如果你想让它偏离这种风格,你需要在提示语中包含一个风格。以下是Veo 3知道如何生成的一些风格示例,提示语是:

以[风格名称]风格:一个留着胡子的男人穿着法兰绒衬衫和破旧的牛仔裤,盘腿坐在闪烁的篝火旁,琥珀色的火光在安静森林空地上撒满松针的地面上投下柔和、舞动的阴影。在他对面,就在火光边缘之外,站着一只巨大的灰熊,平静而静止,它的皮毛映照着温暖的光芒,眼睛反射着火焰,带着诡异的智慧。两人握手,就像老朋友一样。

你会注意到,不仅视频的外观发生了变化,角色移动和互动的方式也发生了变化。
在每一个示例中,音频保持非常相似,我们没有对音频进行不同的提示,它在不同风格之间变化不大。

你的浏览器不支持视频标签。
原始风格
你的浏览器不支持视频标签。
乐高风格
你的浏览器不支持视频标签。
黏土动画风格
你的浏览器不支持视频标签。
南方公园风格
你的浏览器不支持视频标签。
皮克斯动画风格
你的浏览器不支持视频标签。
8位复古风格
你的浏览器不支持视频标签。
图画小说风格
你的浏览器不支持视频标签。
折纸风格
你的浏览器不支持视频标签。
辛普森一家风格
你的浏览器不支持视频标签。
蓝图风格
你的浏览器不支持视频标签。
动漫风格
你的浏览器不支持视频标签。
大理石风格

摄像机运动

正如你所料,就像其他视频模型一样,Veo 3对常见的摄像机运动提示反应良好。使用以下这些术语,你可以控制视频中的动作:

  • 平视
  • 高角度
  • 虫视
  • 推拉镜头
  • 变焦镜头
  • 摇摄镜头
  • 跟踪镜头

你的浏览器不支持视频标签。
变焦推进
你的浏览器不支持视频标签。
变焦拉出
你的浏览器不支持视频标签。
左右摇摄
你的浏览器不支持视频标签。
推拉镜头

自拍风格视频

Veo 3在制作看起来真实的自拍视频方面出奇地好。发现某些短语似乎能持续解锁这种行为。
以“一段自拍视频,内容是…”开头比仅仅描述一个拿着相机的人效果要好得多。
让手臂可见是保持真实感的关键。大猩猩的例子很好地展示了这一点:“将相机举在一臂远的地方。他长长的、有力的手臂在画面中清晰可见。”正是这一点让它看起来像真正的自拍,而不是特写镜头。
自然的眼神移动也有很大帮助。东京的例子展示了这一点:“偶尔看向相机,然后转身指向有趣的摊位。”这种自然的扫视行为比直接盯着相机效果更好。

以下是两个展示其工作原理的例子:

  1. 一段自拍视频,一位旅行博主正在探索东京繁华的街头市场。她穿着一件复古牛仔夹克,眼中充满兴奋。午后的阳光在 vendor 摊位之间创造出美丽的阴影。她一边说话一边品尝不同的街头小吃,偶尔看向相机,然后转身指向有趣的摊位。图像略有颗粒感,看起来非常像胶片。她带着英国口音说:“好吧,你来东京一定要试试这个地方。这里的章鱼烧绝对令人难以置信,摊主刚刚告诉我这是他家三代传承的手艺。”她以竖起大拇指结束。

  2. 一个手持自拍风格的镜头,从一只在茂密丛林中的大猩猩的视角拍摄。一只巨大的银背大猩猩将相机举在一臂远的地方。他长长的、有力的手臂在画面中清晰可见,他的脸被完美地框住。大猩猩说:“我只是在测试这个功能是否真的有效,我稍后会在TikTok上发布它,基本上感觉挺可爱的可能稍后删除”(嘴唇在动,好像在说话)

你的浏览器不支持视频标签。
东京旅行博主自拍
你的浏览器不支持视频标签。
大猩猩自拍

东京例子还表明:添加“图像略有颗粒感,看起来非常像胶片”似乎能将输出推离那种过于干净的AI外观。最终感觉更像是用手机实际拍摄的东西。

如何用Veo 3制作竖屏视频

目前Veo 3本身不支持竖屏视频,只支持16:9的横屏。但是,你可以使用像Luma的Reframe Video这样的模型,获取一个横屏视频并进行外绘。
Reframe video允许你传入任何视频(最长30秒),并将其外绘为指定纵横比的新视频。所有输出将为720p。

你的浏览器不支持视频标签。
一个被重新框定为9:16竖屏视频的Veo 3视频

Veo 3对竖屏视频的原生支持即将推出。

物理效果

Veo 3擅长模拟逼真的物理效果,在应用不同风格的同时保持适当的运动和交互。该模型保留了物体的自然运动,确保即使转化为不同的艺术风格,坠落、弹跳和流体运动等基于物理的动画也保持物理准确性。

你的浏览器不支持视频标签。
乐高风格物理
你的浏览器不支持视频标签。
折纸风格物理
你的浏览器不支持视频标签。
铬金风格物理
你的浏览器不支持视频标签。
油漆风格物理

升级至4k和60fps

默认情况下,Veo 3输出1280p x 720p的视频。建议使用Topaz Lab的Video Upscaler将视频提升至4k分辨率和每秒60帧。

最后总结

平淡的视频和出色的视频之间的区别在于你的提示语。使用Veo 3时,你不仅仅是在描述发生了什么,你是在导演一个场景。高质量的视频将融合主体、背景、动作、摄像机工作、音频和情绪。像电影制作人一样思考,Veo 3将跟随你的引导。

最后一个提示语示例:

一个播客节目,一个女人穿着灰色毛衣,深棕色凌乱的头发盘成发髻,发丝勾勒着脸庞。她在一个有粉红色和金色向上照明的房间里。无字幕。她在做结束语,对着麦克风说话时直视镜头(无字幕!):这就是我们指南的结尾,希望你觉得有用。欢迎在Replicate上尝试Veo 3,别忘了在X上关注我们。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐