Sora 2 导演级提示词框架:将创意精准转化为视觉叙事
【摘要】建立一套工程化的结构化提示词标准,将模糊的创意需求精确转译为Sora 2可稳定执行的镜头级指令,是实现高质量AI视频叙事的关键路径。
【摘要】建立一套工程化的结构化提示词标准,将模糊的创意需求精确转译为Sora 2可稳定执行的镜头级指令,是实现高质量AI视频叙事的关键路径。
引言
Sora 2的出现,将AI视频生成的能力推向了前所未有的高度。然而,强大的生成能力并未自动带来高质量的叙事内容。当前多数创作者仍停留在“对话式”或“灵感式”的提示词阶段,其产出结果充满了随机性。视频风格的无预警漂移、角色形象的频繁突变、叙事逻辑的内在断裂,这些问题共同构成了一道阻碍AI视频进入严肃创作领域的壁垒。
问题的根源在于,我们将Sora 2错误地定位为一个“创意伙伴”,而非一个需要精确指令的“渲染引擎”。要跨越这道壁垒,我们必须进行一次彻底的思维转变。创作者需要从“对话者”的角色,升级为“虚拟导演”。提示词(Prompt)也不再是简单的自然语言描述,而是一份结构严谨、逻辑闭环、可被机器无歧义解析的**“技术需求文档”与“分镜执行脚本”**。
本指南旨在提出并详述一套专为Sora 2漫剧类视频设计的结构化提示词框架。它并非一组简单的写作技巧,而是一套可复现、可扩展的工程化方法论。其核心目标是将创作者的艺术构想,通过标准化的数据结构,精准无损地传递给生成模型,从而实现对最终视频在风格、角色、叙事、镜头等维度的强力约束与稳定控制。这篇万字长文,将成为你驾驭Sora 2进行严肃创作的终极手册。
💠 一、框架设计哲学:从不确定性到工程化交付

在深入技术细节之前,理解本框架背后的设计哲学至关重要。它决定了我们如何组织信息、定义边界以及管理创作流程。
1.1 定位:指令集而非描述
传统提示词的本质是“描述”,它向模型描绘一个期望的画面,模型则基于其概率分布进行“猜测”与“创作”。这种方式在生成静态图像时尚可接受,但在要求时序连贯、逻辑严密的视频叙事中,其不确定性是致命的。
本框架将提示词重新定位为**“指令集”(Instruction Set)**。每一个字段、每一个参数,都是对Sora 2内部渲染管线中某个环节的直接干预。我们追求的不是“诗意的描绘”,而是“精确的定义”。这种转变要求我们放弃模糊的形容词,转向具体、可量化的参数描述。例如,不说“一个悲伤的氛围”,而是定义“冷色调、低饱和度、侧逆光、慢速推镜头”。
这种思维转变,本质上是将创意工作流,从艺术创作的范畴,部分地迁移到软件工程的范畴。 我们如同在为一个复杂的API设计输入参数,输入的精确性直接决定了输出的可靠性。
1.2 核心原则:分层解耦与正交控制
一个复杂的系统需要清晰的结构。本框架遵循分层解耦的设计原则,将一个完整的视频项目拆解为多个相互独立但又彼此关联的控制层。
-
全局层 (Global Layer): 定义贯穿整个视频的普适性规则。这包括画幅、帧率等元数据,以及整体的艺术风格、色调等视觉基准。全局层的设定为所有镜头提供了一个统一的“世界观”。
-
资产层 (Asset Layer): 独立管理视频中的核心“资产”,主要是角色、场景和关键道具。通过建立资产库,我们能确保这些元素在不同镜头间保持严格的一致性,这是解决“角色突变”等问题的关键。
-
叙事层 (Narrative Layer): 即分镜脚本。这一层负责将故事拆解为独立的、按时序排列的镜头单元(Shot)。每个镜头单元内部再进行进一步的解耦,将画面、动作、声音、镜头语言等元素分离开来,实现正交控制。
正交控制意味着,理论上我们可以独立修改某一镜头的光照参数,而不会影响其角色的动作;或者调整角色的对白,而无需重新定义整个场景。这种设计极大地提升了修改效率与创作灵活性。
1.3 目标:可预测、可复现、可扩展
本框架的最终交付目标,是让AI视频生成过程具备三个核心的工程化特质。
-
可预测性 (Predictability): 在输入一份结构化提示词后,创作者应对输出结果有一个清晰的、符合逻辑的预期。AI的“自由发挥”应被严格限制在预设的边界之内。
-
可复现性 (Reproducibility): 相同的提示词输入,应能稳定地生成高度相似的输出结果。这是将AI视频纳入工业化生产流程的基础。
-
可扩展性 (Scalability): 框架本身应具备良好的扩展能力。无论是增加新的角色,还是引入更复杂的视觉效果(VFX)或多语言音轨,都可以在现有结构上平滑地增加新字段或新模块,而不会破坏整体框架的稳定性。
💠 二、结构化标准详解:一份给Sora 2的终极导演手册

现在,我们将这套框架转化为一份你可以直接复制、修改和使用的“导演手册”模板。这份手册极其详尽,覆盖了从项目启动到最终渲染的每一个环节。请按照以下结构,逐项填写你的创意内容。
2.1 第一部分:全局设定(整部影片的基调与规则)
在开始写具体镜头前,先完成这份“全局设定清单”。它就像电影开拍前的筹备会,确保所有部门(在这里是Sora 2的各个功能模块)步调一致。这份清单的完成度,直接决定了你影片的下限。
【全局设定清单】
1. 项目基本信息 (Metadata)
这部分定义了视频文件的“物理属性”,是最基础的技术规格。
-
项目标题 (Title):
[在此填写你的项目名称,例如:厨房的意外协奏曲]-
作用: 用于项目管理和识别,虽然不直接影响生成画面,但保持规范是良好习惯。
-
-
一句话梗概 (Logline):
[用一句话概括你的故事,例如:一个冒失青年在AI助手旁观下,试图优雅做早餐却引发滑稽灾难。]-
作用: 帮助你聚焦故事核心,同时可能作为Sora 2理解整体叙事意图的上下文参考。
-
-
目标时长 (Target Length):
[填写数字,例如:15秒]-
作用: 设定视频总长度,Sora 2会以此为依据,调整每个镜头的生成时长和整体节奏。
-
-
画面比例 (Aspect Ratio):
[选择一项:16:9 (标准横屏) / 9:16 (竖屏短视频) / 1:1 (方形社交媒体) / 2.35:1 (宽银幕电影感)]-
作用: 决定构图的基础。不同的比例会极大地影响画面的叙事感。
-
-
视频帧率 (Frame Rate / FPS):
[选择一项:24fps (电影感,动态模糊更明显) / 30fps (标准视频流畅度) / 60fps (高流畅度,适合动作场面)]-
作用: 影响视频的流畅度和视觉风格。24fps是营造电影感的常用选择。
-
-
整体基调 (Tone & Mood):
[用关键词描述影片的情绪氛围,例如:温馨逗趣 / 悬疑惊悚 / 浪漫治愈 / 史诗宏大 / 废土荒凉]-
作用: 这是一个非常重要的全局参数,会影响Sora 2在色彩、光影、镜头节奏等方面的整体倾向。
-
2. 全局视觉风格 (Global Visual Style) - 你的美术总监手册
这部分是影片的“美术圣经”。在这里定义的规则,将成为所有镜头的默认视觉标准。
-
核心艺术风格 (Art Style):
[描述你想要的画风,例如:日式赛璐璐动画 / 吉卜力工作室风格 / 新海诚风格 / 美式复古漫画 / 迪士尼经典2D动画风格 / 扁平化矢量插画 / 水墨国风]-
深度解析: 这是最高优先级的视觉指令。描述越精确越好,可以引用知名工作室或导演的风格作为参照。
-
-
线条处理 (Line Art):
[描述线条特征,例如:简洁流畅的细线,轮廓清晰 / 粗犷有力的轮廓线,带有笔触感 / 无描边风格 / 彩色线条]-
深度解析: 线条是2D动画风格的灵魂。线条的粗细、平滑度、有无断线等细节,都会显著影响画风。
-
-
上色与阴影 (Shading & Coloring):
[描述上色风格,例如:明快平涂,无渐变 / 柔和的赛璐璐二分阴影 / 带有水彩质感的柔和过渡 / 硬朗的二分阴影,高对比度]-
深度解析: 阴影的画法是区分不同日漫风格的关键。是简单的色块(平涂),还是有柔和过渡的“厚涂”感?
-
-
主色调方案 (Color Palette):
[描述色彩感觉,例如:以明黄色和天蓝色为主的高饱和度暖色调 / 莫兰迪低饱和度高级灰 / 赛博朋克霓虹色(青色与品红) / 黑白电影,仅保留一种强调色(如红色)]-
深度解析: 色彩是情绪的直接表达。定义主色调和辅助色,能确保影片情绪的连贯性。
-
-
基础光照风格 (Lighting Style):
[描述光线类型,例如:明亮的清晨窗边自然光,光线柔和 / 正午顶光,阴影硬朗 / 工作室三点布光,轮廓清晰 / 伦勃朗光,具有戏剧性 / 黄金时刻的暖色调光线]-
深度解析: 光照不仅影响画面明暗,更塑造氛围和立体感。全局光照风格为所有场景打下基础。
-
3. 全局规则与约束 (Global Constraints & Rules) - 你的片场纪律
这是给Sora 2立下的“死规矩”,用以对抗AI的随机性,确保逻辑的严密和内容的安全。
-
必须遵守 (Must-Have Rules): 这是正面清单,强制Sora 2在每个镜头中都必须执行。
-
规则1:
[写下必须贯穿始终的规则,例如:小明的黄色小鸡围裙在所有镜头中必须存在且样式统一] -
规则2:
[例如:小明的黑框眼镜不可摘下,且镜片无反光] -
规则3:
[例如:AI助手的圆形外观不可改变,始终保持悬浮状态] -
深度解析: 这是解决角色、道具一致性问题的核心武器。 对于不想让AI“自由发挥”的核心设定,全部写在这里。
-
-
禁止出现 (Forbidden Elements / Negative Prompts): 这是负面清单,告诉Sora 2什么东西绝对不能画。
-
禁令1:
[写下不希望出现的元素,例如:不出现任何形式的明火灶台] -
禁令2:
[例如:画面中不出现任何现实世界的文字或品牌Logo] -
禁令3:
[例如:避免任何血腥、暴力或令人不适的画面] -
深度解析: 负向提示对于规避版权风险、控制内容分级、排除干扰元素非常有效。
-
-
数理逻辑约束 (Logic & Number Rules): 这是逻辑清单,专门用来校正AI在数学和物理逻辑上的“天真”。
-
逻辑1:
[写下关于数量、顺序的硬性规定,例如:场景中被操作的鸡蛋数量始终为1] -
逻辑2:
[例如:角色手指必须为5根,且手部结构正常] -
逻辑3:
[例如:镜子或水面中的反射必须与实体保持一致] -
深度解析: AI在处理精确数量、物理反射、复杂手势等方面是重灾区。显式地声明这些逻辑规则,能大幅提升生成质量。
-
2.2 第二部分:核心资产库(演员与场景的详细档案)
为你的“演员”和“拍摄场地”建立详细的档案。Sora 2在拍摄每个镜头时,都会回来查阅这份档案,以确保形象不会出错。这份档案越详细,你的角色就越“活”,越不容易“崩”。
【核心资产库】
1. 角色表 (Character Sheets)
为每个角色创建一份独立的、详尽的档案。
角色一
-
姓名/代号 (Name):
[例如:小明] -
年龄与人设 (Age & Persona):
[例如:23岁,一个自信但冒失、热爱生活的年轻人] -
核心外观描述 (Visual Features) - 这是最重要的部分!
-
体型与面部:
[例如:身材偏瘦,身高约175cm,黑短发略带凌乱感,戴着无度数的圆形黑框眼镜,面部线条柔和。] -
标志性服装:
[例如:始终穿着一件印有卡通小鸡图案的黄色围裙,内穿纯白色圆领T恤,下身是浅蓝色牛仔裤。] -
关键细节:
[例如:左手手腕上戴着一个简单的黑色运动手环。]
-
-
习惯性动作/表情 (Behavior Traits):
[例如:思考时会习惯性地用食指推一下眼镜;兴奋或惊讶时,眼睛会夸张地睁大;手势丰富,幅度较大。] -
声音特征 (Voice Spec):
[例如:活泼的青年男声,音调略高,语速中等偏快,说话时充满活力。]
角色二
-
姓名/代号 (Name):
[例如:AI助手-蛋蛋] -
人设 (Persona):
[例如:呆萌、爱吐槽的观察者,逻辑至上但偶尔会流露出人性化的无奈。] -
核心外观描述 (Visual Features):
-
主体:
[例如:一个直径约30厘米的白色悬浮球体,表面是光滑的哑光材质。] -
交互界面:
[例如:球体中央有一块可显示各种像素表情的圆形LED屏幕,例如-_-||, ^_^, O_O等。] -
运动方式:
[例如:通过无声的反重力引擎悬浮在空中,移动平滑,会通过轻微晃动和旋转来表达情绪。]
-
-
声音特征 (Voice Spec):
[例如:中性、略带机械感的电子合成音,语调平缓,但在吐槽时会故意模仿人类的叹气声。]
[如果还有更多角色,请按此格式继续添加...]
2. 场景与道具库 (Locations & Props Library)
-
主要场景 (Location):
[场景名称,例如:小明的现代厨房]-
整体描述:
[例如:一个开放式设计的厨房,与客厅相连。主色调为白色和原木色。拥有一个宽大的中岛台,材质为白色大理石。] -
关键元素:
[例如:背景墙上有一排白色橱柜;窗户是落地窗,可以看到窗外的城市高楼;中岛台上放着一台胶囊咖啡机和一个水果篮。] -
环境氛围:
[例如:整体风格明亮、整洁,但角落里堆放的书籍和绿植又增添了生活气息。]
-
-
关键道具 (Prop):
[道具名称,例如:鸡蛋]-
描述:
[例如:普通的白色外壳鸡蛋,大小均匀。]
-
-
关键道具 (Prop):
[道具名称,例如:盛蛋碗]-
描述:
[例如:一个透明的玻璃碗,碗口直径约15厘米。]
-
2.3 第三部分:音频规划(声音设计蓝图)
在构思画面的同时,就要想好声音。一个专业的创作者,会把声音和画面放在同等重要的位置。
【音频规划】
-
背景音乐风格 (BGM Style):
[描述BGM感觉,例如:轻快、俏皮的尤克里里或木吉他独奏,旋律简单重复,带有喜剧色彩。] -
关键音效列表 (SFX List):
[列出必须出现的、对叙事有重要作用的音效。]-
音效1:
蛋壳清脆的碎裂声 -
音效2:
液体溅射到物体表面的声音 -
音效3:
机器人发出的电子叹息音效 -
音效4:
背景中持续的、轻微的城市环境白噪音
-
-
对白语言 (Dialogue Language):
[例如:中文普通话] -
口型同步要求 (Lipsync Level):
[选择一项:高 (要求口-型与音节精确匹配) / 中 (大致匹配即可) / 低 (无需口型动画)]-
深度解析: 高精度的口型同步对模型要求极高,如果不是对话密集型影片,选择“中”或“低”可以降低生成难度,提高成功率。
-
2.4 第四部分:结构化分镜脚本(导演的终极拍摄清单)
这是执行的核心。将你的故事拆分成一个个镜头,并为每个镜头填写下面的“拍摄卡”。这份拍摄卡就是你与Sora 2沟通的唯一语言,它的详尽程度,决定了你对最终画面的掌控力。
【分镜脚本】
🎬 镜头 S1
-
镜头唯一编号 (ID):
S1 -
预计时长 (Duration):
[例如:5.0秒] -
场景描述 (Scene):
[描述具体环境,例如:小明的现代厨房,清晨的阳光透过巨大的落地窗洒在中岛台上,空气中漂浮着微尘,环境明亮而宁静。] -
本镜目标/意图 (Intent):
[一句话说明这个镜头的作用,例如:建立角色自信、略带炫耀的初始状态,为后续的喜剧反差做足铺垫。] -
综合画面描述 (Description):
[用一两句话概括整个镜头,作为AI的“第一印象”,例如:一个穿着滑稽围裙的年轻人,在洒满阳光的厨房里,自信满满地准备展示他的厨艺。] -
动作与表演 (Action):
[详细描述角色做什么、表情如何。必须严格参考角色表!例如:主角小明,站在中岛台前,他先是深吸一口气,脸上带着一丝得意的微笑。他用左手从水果篮旁拿起一个鸡蛋,在空中抛了一下又稳稳接住。然后,他眼神专注地看着鸡蛋,右手做出一个准备单手敲击的姿势。] -
摄影机指令 (Camera) - 这是技术核心!
-
景别 (Shot Type):
[选择:MS (中景),从腰部以上拍摄,能看清角色的上半身动作和表情。] -
机位角度 (Angle):
[选择:Eye-level (平视),给予观众平等的、亲近的感觉。] -
镜头运动 (Movement):
[选择:Static (固定机位),保持画面的稳定,让观众聚焦于角色的表演。] -
镜头焦段 (Lens):
[选择:Standard (标准焦段,约50mm),提供接近人眼所见的自然透视。] -
构图与焦点 (Framing & Focus):
[描述构图,例如:Center-framed (居中构图),角色位于画面中央。Shallow focus (浅景深),焦点精确地在小明身上,背景的橱柜和窗户略微虚化,突出主体。]
-
-
对白 (Dialogue):
-
角色:
[例如:小明] -
台词:
[例如:“完美的一天,从完美的单手打蛋开始!”] -
情绪/语气:
[例如:自信、略带炫耀,语调上扬]
-
-
声音备注 (Audio Notes):
[当前镜头特殊的声音需求,例如:环境音:窗外隐约的鸟鸣声和远处城市的低语。小明拿起鸡蛋时,需要有轻微的物体接触音。] -
转场到下一镜 (Transition Out):
[例如:Cut (硬切),保持节奏的明快。]
🎬 镜头 S2
-
镜头唯一编号 (ID):
S2 -
预计时长 (Duration):
[例如:7.0秒] -
场景描述 (Scene):
[例如:同一个厨房,但现在中岛台和地面上溅有明显的蛋液,打破了之前的整洁。] -
本镜目标/意图 (Intent):
[例如:制造核心的喜剧冲突和笑点,通过角色的窘迫和AI助手的反应形成对比。] -
综合画面描述 (Description):
[例如:打蛋计划彻底失败,蛋液溅了年轻人一脸,他当场石化,而他的机器人助手在背景中无语旁观,形成强烈的喜剧效果。] -
动作与表演 (Action):
[例如:小明保持着左手握着碎蛋壳的姿势,右手还停在半空。他的脸上和眼镜镜片上都沾着黏稠的蛋黄和蛋清。他的表情从自信瞬间转为极度震惊和呆滞,眼睛睁大,嘴巴微张成“O”形。在画面的左后方,AI助手-蛋蛋悬浮在半空,其LED屏幕上显示一个无奈的汗颜表情(类似-_-||),并以一个非常缓慢的频率,轻微地左右晃动它的球形身体,模仿人类摇头的动作。] -
摄影机指令 (Camera):
-
景别 (Shot Type):
[例如:MCU (中近景),从胸部以上拍摄,重点突出角色的面部表情和上半身的狼狈状态。] -
机位角度 (Angle):
[例如:Slightly low-angle (轻微的仰视角度),稍微夸大角色的震惊感和滑稽感。] -
镜头运动 (Movement):
[例如:Subtle handheld shake (模仿手持拍摄的轻微、快速的晃动),在蛋壳破碎的瞬间发生,用以增强冲击感和喜剧效果。] -
镜头焦段 (Lens):
[例如:Wide (广角焦段,约28mm),让角色面部有轻微的透视畸变,增加夸张感,同时能将背景的AI助手也纳入清晰的景深范围。] -
构图与焦点 (Framing & Focus):
[例如:Rule of thirds (三分法构图),小明的脸占据画面右侧三分之一的视觉焦点。Deep focus (深景深),确保前景的小明和后景的AI助手都保持清晰,以展现二者的互动关系。]
-
-
对白 (Dialogue):
-
角色:
[例如:小明] -
台词:
[例如:“呃……计划有变。”] -
情绪/语气:
[例如:尴尬、石化,声音低沉,几乎是从牙缝里挤出来的。]
-
-
声音备注 (Audio Notes):
[例如:关键音效:在动作发生的确切瞬间,需要有一个非常清脆响亮的蛋壳碎裂声,紧接着是“噗嗤”一声液体溅射声。在小明说完台词后,响起AI助手的电子叹息音效。] -
视觉特效备注 (VFX Notes):
[例如:蛋液溅射的物理动态需要有夸张的动漫效果,可以有几滴蛋液在空中划出清晰的抛物线弧线,并带有一点点高光效果。] -
转场到下一镜 (Transition Out):
[例如:Fade to black (淡出到黑色),给笑点留出回味的时间,作为故事的收尾。]
[如果还有更多镜头,请按此“拍摄卡”格式继续添加...]
💠 三、工作流、审查与高级议题
3.1 迭代式创作流程
不要试图一次性写完所有细节。推荐的工作流程如下:
-
第一轮(搭骨架): 先快速填写所有镜头的“动作与表演”部分,把故事讲顺。
-
第二轮(定美术): 完成“全局设定”和“资产库”,让视觉风格和角色形象定下来。
-
第三轮(加镜头): 为每个镜头仔细设计“摄影机指令”,思考如何用镜头讲故事。
-
第四轮(填声音): 最后加入“对白”和“声音备注”。
-
生成与修改: 将写好的“导演手册”提交给Sora 2,生成视频。根据结果,回来修改手册中的对应项,反复迭代,直到满意为止。
3.2 质量验收清单 (Quality Checklist)
生成视频后,使用以下清单进行系统性评估,以指导后续的微调工作。
-
[ ] 角色一致性:
-
所有镜头中,角色的外观(发型、服装、配饰)是否与角色表严格一致?
-
角色的行为习惯、表情风格是否符合其
persona设定?
-
-
[ ] 风格统一性:
-
整部影片的艺术风格、色调、光影是否遵循了全局视觉风格的定义?
-
是否存在某个镜头风格突然“跳戏”的情况?
-
-
[ ] 叙事与逻辑连贯性:
-
镜头之间的转场是否流畅?故事发展是否符合逻辑?
-
道具、场景的状态变化是否合理?(例如,S1的完整鸡蛋在S2变成了碎蛋壳和蛋液)
-
全局约束(特别是
numeric_logic)是否被严格遵守?
-
-
[ ] 音画同步与质量:
-
对白口型同步是否达到
lipsync_level的要求? -
音效是否在正确的时间点触发?背景音乐的情绪是否与画面匹配?
-
-
[ ] 镜头语言有效性:
-
每个镜头的
camera参数是否被准确执行? -
最终的镜头语言是否有效地传达了
intent中设定的叙事意图?
-
结论
从混乱的自然语言描述,走向严谨的结构化指令,是释放Sora 2全部潜能、推动AI视频进入专业创作领域的必然路径。本指南提供的这份“导演手册”模板,其核心并非一系列僵化的规则,而是一种工程化的思维方式。它要求创作者将艺术构想进行逻辑拆解,将模糊感受转化为精确参数,从而在人与AI之间建立起一条高带宽、低损耗的沟通桥梁。
通过定义清晰的全局规则、管理独立的数字资产、并以结构化的分镜脚本驱动整个生成过程,我们能够最大限度地消除不确定性,实现对最终叙事作品的稳定控制。这不仅关乎效率,更关乎创作的尊严——确保技术真正服务于创意,而非让创意被技术的随机性所绑架。未来的AI叙事,将属于那些既懂艺术,又懂工程的“虚拟导演”。
附录:结构化提示词框架技术参数词典
本附录为希望深入理解每个字段技术细节的专业读者,提供一份详尽的参数说明与示例。
A.1 全局设定 (Global Settings)
A.1.1 元数据 (Metadata)
|
字段 (Field) |
数据类型 |
描述 |
常用示例 |
|---|---|---|---|
|
|
String |
项目标题,用于标识和管理。 |
"厨房的意外协奏曲" |
|
|
String |
一句话故事梗概,凝练核心剧情。 |
"一个冒失青年在AI助手旁观下,试图优雅做早餐却引发滑稽灾难。" |
|
|
Integer |
目标视频总时长(秒)。 |
|
|
|
String |
画面宽高比,决定构图。 |
|
|
|
Integer |
帧率 (Frames Per Second),影响流畅度。 |
|
|
|
String |
整体基调与情绪。 |
|
|
|
Boolean |
是否包含音频轨道。 |
|
A.1.2 全局视觉风格 (Global Visual Style)
|
字段 (Field) |
数据类型 |
描述 |
常用示例 |
|---|---|---|---|
|
|
String |
核心艺术流派。 |
|
|
|
String |
线条处理方式。 |
|
|
|
String |
上色与阴影风格。 |
|
|
|
String |
主色调方案。 |
|
|
|
String |
基础光照模型。 |
|
A.1.3 全局约束与规则 (Global Constraints & Rules)
-
must_have(强制包含): 列表形式,定义每个镜头都必须遵守的正面约束。这是确保核心元素(如角色特征)跨镜头一致性的关键。-
示例:
["小明的黄色小鸡围裙在所有镜头中必须存在且样式统一", "AI助手的圆形外观不可改变"]
-
-
avoid(负向提示): 列表形式,定义全局范围内禁止出现的元素。-
示例:
["不出现任何现实世界的汽车品牌", "避免血腥或暴力画面"]
-
-
numeric_logic(数理逻辑约束): 列表形式,用于定义对数量、顺序等有严格要求的逻辑。AI在处理数字和计数时常出错,显式声明能有效规避。-
示例:
["场景中操作的鸡蛋数量始终为1", "角色手指必须为5根"]
-
A.2 核心资产库 (Core Asset Library)
A.2.1 角色表 (Character Sheet)
|
字段 (Field) |
数据类型 |
描述 |
示例 (角色:小明) |
|---|---|---|---|
|
|
String |
角色唯一标识符。 |
|
|
|
Integer |
年龄。 |
|
|
|
String |
性格与人设。 |
|
|
|
String |
核心外观描述,必须详尽且稳定。 |
|
|
|
String |
习惯性动作或表情。 |
|
|
|
String |
声音特征描述。 |
|
A.2.2 场景与道具库 (Locations & Props Library)
-
场景 (Locations):
-
name: "现代厨房" -
description: "开放式设计,白色橱柜,中岛台,窗外是城市景观。整体风格明亮、整洁但有生活气息。"
-
-
道具 (Props):
-
name: "AI助手" -
description: "一个直径约30厘米的白色悬浮球体,中央有一块可显示不同像素表情的圆形LED屏幕。"
-
A.3 音频规划 (Audio Plan)
|
字段 (Field) |
数据类型 |
描述 |
常用示例 |
|---|---|---|---|
|
|
String |
背景音乐风格。 |
|
|
|
Array[String] |
关键音效列表。 |
|
|
|
String |
对白语言。 |
|
|
|
String |
口型同步精度要求。 |
|
A.4 结构化分镜 (Structured Shots)
A.4.1 单个分镜单元核心字段
|
字段 (Field) |
描述与作用 |
|---|---|
|
|
镜头唯一编号。例如 |
|
|
镜头预计时长(秒)。用于控制叙事节奏。 |
|
|
场景描述。引用资产库中的场景,并补充当前镜头特有的环境细节。 |
|
|
镜头意图。说明该镜头在叙事中的功能,如“建立角色性格”、“制造笑点”。 |
|
|
综合画面描述。用自然语言简要概括整个镜头的内容。 |
|
|
摄影机参数。一个包含对镜头语言精确控制的嵌套结构。 |
|
|
主体与动作。描述角色或物体的具体行为、表情变化、交互细节。 |
|
|
对白。一个包含说话人、台词、情绪、语速的结构化列表。 |
|
|
音频备注。当前镜头特定的环境音或音效需求。 |
|
|
视觉效果备注。需要特殊处理的视觉效果,如粒子、光效等。 |
|
|
转场方式。定义该镜头如何过渡到下一个镜头,如 |
A.4.2 摄影机参数 (camera) 深度解析
|
子字段 (Sub-field) |
数据类型 |
描述 |
可选值/示例 |
|---|---|---|---|
|
|
String |
景别。决定主体在画面中的大小。 |
|
|
|
String |
机位角度。 |
|
|
|
String |
镜头运动。 |
|
|
|
String |
镜头焦段。影响景深和透视。 |
|
|
|
String |
焦点控制。 |
|
|
|
String |
构图。 |
|
📢💻 【省心锐评】
抛弃“咏唱”,拥抱“架构”。将AI视频创作从玄学变为工程,是其走向工业化生产的唯一通路。这套框架,就是通往稳定、可控叙事的脚手架。
更多推荐



所有评论(0)