精通Veo 3提示语：生成高质量AI视频与音频的实用指南

平淡的视频和出色的视频之间的区别在于你的提示语。使用Veo 3时，你不仅仅是在描述发生了什么，你是在导演一个场景。高质量的视频将融合主体、背景、动作、摄像机工作、音频和情绪。像电影制作人一样思考，Veo 3将跟随你的引导。最后一个提示语示例：一个播客节目，一个女人穿着灰色毛衣，深棕色凌乱的头发盘成发髻，发丝勾勒着脸庞。她在一个有粉红色和金色向上照明的房间里。无字幕。她在做结束语，对着麦克风说话时直

codeshare1135

493人浏览 · 2026-01-12 08:04:55

codeshare1135 · 2026-01-12 08:04:55 发布

如何为Veo 3撰写提示语以获得最佳效果

某中心推出的Veo 3可以根据文本提示生成带有音频的视频。音频内容可以是对话、画外音、音效和音乐。

首先了解基础知识。精心设计的提示语是生成优质视频的关键。在提示语中用平实的语言描述得越具体，Veo 3就越容易理解并生成你想要的视频。

尝试在提示语中包含以下视觉元素：

主体：场景中是谁或是什么——人物、动物、物体或风景。
背景：主体在哪里？室内？城市街道？森林？
动作：你的主体在走路、跳跃、转头吗？
风格：你追求视觉美学效果（电影感、动画、定格动画等）。
摄像机运动：描述摄像机如何移动：航拍、平视、俯拍或低角度。
构图：镜头如何取景：广角镜头、特写等。
氛围：情绪和灯光。你可以说“暖色调”、“蓝光”或“夜晚”。

你还需要包含音频元素，下文将更详细地介绍。

以下是一个基本提示语与详细提示语的示例对比：

基本提示：一个男人接起一台转盘电话
详细提示：一个摇晃的滑动变焦镜头从模糊的远景拉近到一个电影感的特写：一个绝望的男人，穿着破旧的绿色风衣，从一面粗糙的砖墙上拿起一台转盘电话，笼罩在一块绿色霓虹招牌诡异的光芒中。变焦揭示了他脸上刻画的紧张和绝望，他挣扎着在电话中说话。浅景深聚焦在他紧锁的眉头和黑色的转盘电话上，将背景模糊成一片霓虹色彩和模糊的阴影，营造出一种紧迫感和孤立感。

第二个提示语包含了结构性元素，以引导Veo 3朝着我们试图创建的场景发展。

你的浏览器不支持视频标签。
基本提示生成视频
你的浏览器不支持视频标签。
详细提示生成视频

每次更改你的提示语

如果你熟悉像Midjourney或Flux这样的模型，你会知道运行相同的提示语几次（即使用不同的种子）会得到相当程度的变化。

Veo 3则不同。对于相同的提示语，即使是相当简单的提示，Veo 3也会输出非常相似的结果。你可能会看到相同长相的人穿着相同的衣服，出现在相似的地方。如果你生成的输出有轻微错误，比如连贯性或音频故障，这非常有用——你可以运行不同的种子来获得你想要的结果。但如果你处于探索模式，希望看到各种可能性，那么多次运行相同的提示语是在浪费资金。

在下面的示例中，我们用不同的种子运行了两次提示语“一个女人在笑”。注意她看起来一模一样，穿着相同的衣服，以相同的方式笑，房间也一样，她甚至戴着相同的耳环。一个模型能如此一致是不寻常的。

你的浏览器不支持视频标签。
第一个视频
你的浏览器不支持视频标签。</视频>
第二个视频

如果你还不确定自己想要什么，可以从几个大体不同的提示语开始。如果你知道想要某些元素，那么就对那些元素进行具体描述。

在这个视频中，我们可以明显做的是开始尝试描述：

女人的外貌（发色、发型、肤色）
她的穿着
她在哪里
她如何笑
她为什么笑

以下是几个例子：

一个女人长时间大声地笑，她在办公室会议中，事后感到尴尬。
一个女人安静地笑，她在家看电视节目。

角色一致性

通常，在使用没有起始帧或场景成分的视频模型时，角色一致性很难保持。这些功能即将在Veo 3中推出。

与此同时，由于相似的提示语会产生相似的角色，如果你在多次生成中保持角色详细提示描述的一致性，通常会得到一个长相相同的人。这意味着你可以保留一个角色描述列表，并在不同的提示语中逐字重复它们：

John，一个40多岁的男人，棕色短发，穿着蓝色夹克和眼镜，看起来若有所思。

这些描述越独特和具体，Veo 3在单独生成的场景之间保持视觉连续性的效果就越好。创建具有确切措辞的角色参考表以确保一致性。

你的浏览器不支持视频标签。
John视频示例1
你的浏览器不支持视频标签。
John视频示例2

提示音频

由于Veo 3会为每个视频生成音频，你也需要为你想要听到的音频进行提示。考虑以下元素：

人物在说什么（对话）
场景的环境噪音（繁忙街道、繁忙办公室、繁忙咖啡馆等的声音）
场景外的音效或噪音（如电话铃声）
场景可能需要的任何音乐（紧张的电影配乐、欢快的流行歌曲等）。

提示对话并避免字幕

你用Veo 3创建的角色可以非常生动。他们会说话、讲笑话、打手势，有时还能表演。但如果你想让他们说话，你需要进行提示。

你可以用两种不同的方式提示对话：

明确地：“一个男人说：我的名字是Ben”
隐含地：“一个男人告诉我们他的名字”

这两种方式都会生成一个男人说话的视频，第一种会使用你要求的确切词语，第二种会让模型决定如何表达，在这种情况下，模型会为你决定一个名字。

编写你自己的对话

如果你明确要表达的内容，尽量保持对话简短。内容应该能在约8秒内说完。
如果你试图塞入太多内容，最终可能会导致角色说话速度过快。如果你要求他们说的太少，可能会得到尴尬的沉默或角色说出无意义的AI胡言乱语（如下面的第二个例子）。没有明确的指导，模型将无法编造它需要的所有词语。

你的浏览器不支持视频标签。
对话过长示例
你的浏览器不支持视频标签。
对话过短示例

让Veo 3编写对话脚本

如果你不擅长写对话，隐含的对话提示会有所帮助。你也可以转录你喜欢的输出，以便在以后的提示中使用。
在这里，我们让Veo 3创建一个单口喜剧演员在音乐节上讲笑话的视频，首先我们让Veo 3决定笑话内容。第二个视频我们让Veo 3尝试讲出我们在提示语中放入的笑话。

你的浏览器不支持视频标签。
隐含笑话提示
你的浏览器不支持视频标签。
明确笑话提示

你可以尝试的一些提示语，看看Veo 3在对话方面的多样性：

一个单口喜剧演员讲一个笑话
两个人讨论一部电影
一个男人在电话里争吵
一个女人讲述她的生活故事

正确发音

有时你会发现模型发音不正确。处理这个问题最简单的方法是按发音拼写单词。在开头的例子中，我们的播客主持人说：

Read on to get fofr and Shridar’s guidance on making videos

但为了得到我们名字的正确发音，我们不得不将提示语改为：

Read on to get foh-fur’s and Shreedar’s guidance on making videos

谁说了什么

当你提示多个角色之间的对话时，有时会发现Veo 3会混淆谁说了什么。当角色描述相似，并且对Veo 3来说哪个角色是哪个模糊不清时，这种情况很常见。
尽量在你的提示语中明确谁在说话：

穿粉色衣服的女人说：但我才是穿粉色的那个人
戴眼镜的男人回答：不，我才是戴眼镜的那个人

避免输出中出现字幕

Veo 3肯定是在大量带有硬编码字幕的视频上训练的，因为在输出中经常看到拼写错误和不正确的字幕。它们经常毁掉一次生成，但有几种简单的方法可以避免它们：

将你想听到的说话内容放在冒号后面，例如：“一个男人说：我的名字是Ben”，而不是放在引号里，例如：“一个男人说：‘我的名字是Ben’”。
在提示语中加入“（无字幕）”，否定性指令在Veo 3提示语中效果很好。
如果其他方法都失败了，不断重复说“不要字幕。不要字幕！”。

错误的背景音频（或不需要的现场演播室观众案例）

如果你没有在视频中定义你想听到的背景音频，那么Veo 3需要自己推断，通常这没问题，但有时会出错。现场演播室观众是一种常见的幻觉。有时这是你想要的，比如虚假的情景喜剧。但通常额外的笑声与场景不匹配。Veo 3甚至在制作上面的例子时也这样做过，以下是一个不合适的演播室观众毁掉一次生成的例子：

你的浏览器不支持视频标签。
不需要的演播室观众背景笑声示例

避免这种情况最简单的方法是明确提示你期望听到的音频。在本例中，我们通过添加“远处乐队的声音、嘈杂的人群、繁忙节日场地的环境背景”来修正生成，以获得输出中正确的感觉。

提示音乐

就像视频的其他部分一样，如果你想要场景中有音乐，你需要在提示语中包含它。
同样，你可以明确描述你想听到的音乐的类型、风格和情绪。或者你可以更模糊一些，让Veo 3决定。

风格

开箱即用的Veo 3通常会生成看起来制作精良的实景视频，比如流畅的专业演示、商业广告或音乐视频。
如果你想让它偏离这种风格，你需要在提示语中包含一个风格。以下是Veo 3知道如何生成的一些风格示例，提示语是：

以[风格名称]风格：一个留着胡子的男人穿着法兰绒衬衫和破旧的牛仔裤，盘腿坐在闪烁的篝火旁，琥珀色的火光在安静森林空地上撒满松针的地面上投下柔和、舞动的阴影。在他对面，就在火光边缘之外，站着一只巨大的灰熊，平静而静止，它的皮毛映照着温暖的光芒，眼睛反射着火焰，带着诡异的智慧。两人握手，就像老朋友一样。

你会注意到，不仅视频的外观发生了变化，角色移动和互动的方式也发生了变化。
在每一个示例中，音频保持非常相似，我们没有对音频进行不同的提示，它在不同风格之间变化不大。

你的浏览器不支持视频标签。
原始风格
你的浏览器不支持视频标签。
乐高风格
你的浏览器不支持视频标签。
黏土动画风格
你的浏览器不支持视频标签。
南方公园风格
你的浏览器不支持视频标签。
皮克斯动画风格
你的浏览器不支持视频标签。
8位复古风格
你的浏览器不支持视频标签。
图画小说风格
你的浏览器不支持视频标签。
折纸风格
你的浏览器不支持视频标签。
辛普森一家风格
你的浏览器不支持视频标签。
蓝图风格
你的浏览器不支持视频标签。
动漫风格
你的浏览器不支持视频标签。
大理石风格

摄像机运动

正如你所料，就像其他视频模型一样，Veo 3对常见的摄像机运动提示反应良好。使用以下这些术语，你可以控制视频中的动作：

平视
高角度
虫视
推拉镜头
变焦镜头
摇摄镜头
跟踪镜头

你的浏览器不支持视频标签。
变焦推进
你的浏览器不支持视频标签。
变焦拉出
你的浏览器不支持视频标签。
左右摇摄
你的浏览器不支持视频标签。
推拉镜头

自拍风格视频

Veo 3在制作看起来真实的自拍视频方面出奇地好。发现某些短语似乎能持续解锁这种行为。
以“一段自拍视频，内容是…”开头比仅仅描述一个拿着相机的人效果要好得多。
让手臂可见是保持真实感的关键。大猩猩的例子很好地展示了这一点：“将相机举在一臂远的地方。他长长的、有力的手臂在画面中清晰可见。”正是这一点让它看起来像真正的自拍，而不是特写镜头。
自然的眼神移动也有很大帮助。东京的例子展示了这一点：“偶尔看向相机，然后转身指向有趣的摊位。”这种自然的扫视行为比直接盯着相机效果更好。

以下是两个展示其工作原理的例子：

一段自拍视频，一位旅行博主正在探索东京繁华的街头市场。她穿着一件复古牛仔夹克，眼中充满兴奋。午后的阳光在 vendor 摊位之间创造出美丽的阴影。她一边说话一边品尝不同的街头小吃，偶尔看向相机，然后转身指向有趣的摊位。图像略有颗粒感，看起来非常像胶片。她带着英国口音说：“好吧，你来东京一定要试试这个地方。这里的章鱼烧绝对令人难以置信，摊主刚刚告诉我这是他家三代传承的手艺。”她以竖起大拇指结束。
一个手持自拍风格的镜头，从一只在茂密丛林中的大猩猩的视角拍摄。一只巨大的银背大猩猩将相机举在一臂远的地方。他长长的、有力的手臂在画面中清晰可见，他的脸被完美地框住。大猩猩说：“我只是在测试这个功能是否真的有效，我稍后会在TikTok上发布它，基本上感觉挺可爱的可能稍后删除”（嘴唇在动，好像在说话）

你的浏览器不支持视频标签。
东京旅行博主自拍
你的浏览器不支持视频标签。
大猩猩自拍

东京例子还表明：添加“图像略有颗粒感，看起来非常像胶片”似乎能将输出推离那种过于干净的AI外观。最终感觉更像是用手机实际拍摄的东西。

如何用Veo 3制作竖屏视频

目前Veo 3本身不支持竖屏视频，只支持16:9的横屏。但是，你可以使用像Luma的Reframe Video这样的模型，获取一个横屏视频并进行外绘。
Reframe video允许你传入任何视频（最长30秒），并将其外绘为指定纵横比的新视频。所有输出将为720p。

你的浏览器不支持视频标签。
一个被重新框定为9:16竖屏视频的Veo 3视频

Veo 3对竖屏视频的原生支持即将推出。

物理效果

Veo 3擅长模拟逼真的物理效果，在应用不同风格的同时保持适当的运动和交互。该模型保留了物体的自然运动，确保即使转化为不同的艺术风格，坠落、弹跳和流体运动等基于物理的动画也保持物理准确性。

你的浏览器不支持视频标签。
乐高风格物理
你的浏览器不支持视频标签。
折纸风格物理
你的浏览器不支持视频标签。
铬金风格物理
你的浏览器不支持视频标签。
油漆风格物理

升级至4k和60fps

默认情况下，Veo 3输出1280p x 720p的视频。建议使用Topaz Lab的Video Upscaler将视频提升至4k分辨率和每秒60帧。

最后总结

平淡的视频和出色的视频之间的区别在于你的提示语。使用Veo 3时，你不仅仅是在描述发生了什么，你是在导演一个场景。高质量的视频将融合主体、背景、动作、摄像机工作、音频和情绪。像电影制作人一样思考，Veo 3将跟随你的引导。

最后一个提示语示例：

一个播客节目，一个女人穿着灰色毛衣，深棕色凌乱的头发盘成发髻，发丝勾勒着脸庞。她在一个有粉红色和金色向上照明的房间里。无字幕。她在做结束语，对着麦克风说话时直视镜头（无字幕！）：这就是我们指南的结尾，希望你觉得有用。欢迎在Replicate上尝试Veo 3，别忘了在X上关注我们。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

零基础入门：用 Python 写一个简单的 AI 文本分类器

【代码】零基础入门：用 Python 写一个简单的 AI 文本分类器。

2048 AI社区

大数据领域HBase的跨集群数据复制方案

若集群因故障宕机，业务数据可能永久丢失；跨地域业务（如北京与上海双中心）需要实时同步数据；数据分析集群需要从生产集群“按需拉取”数据。本文将聚焦HBase跨集群数据复制，覆盖原理讲解（WAL日志、复制对等体）、方案对比（原生复制 vs 第三方工具）、实战配置（从搭建到监控）及生产环境最佳实践。用“快递分拨中心”类比HBase复制核心概念；解析HBase原生复制的底层流程（含Mermaid流程图）；

2048 AI社区

DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT

Xiaotao Hu1,2\mathrm { { H u ^ { 1 , 2 } } }Hu1,2 * Wei Yin2∗†\mathrm { Y i n ^ { 2 } \ast \dagger }Yin2∗† Mingkai Jia1,2 Junyuan Deng1,2 Xiaoyang Guo2 Qian Zhang2 Xiaoxiao Long1 ‡ Ping Tan11 The Hong