【摘要】建立一套工程化的结构化提示词标准,将模糊的创意需求精确转译为Sora 2可稳定执行的镜头级指令,是实现高质量AI视频叙事的关键路径。

引言

Sora 2的出现,将AI视频生成的能力推向了前所未有的高度。然而,强大的生成能力并未自动带来高质量的叙事内容。当前多数创作者仍停留在“对话式”或“灵感式”的提示词阶段,其产出结果充满了随机性。视频风格的无预警漂移、角色形象的频繁突变、叙事逻辑的内在断裂,这些问题共同构成了一道阻碍AI视频进入严肃创作领域的壁垒。

问题的根源在于,我们将Sora 2错误地定位为一个“创意伙伴”,而非一个需要精确指令的“渲染引擎”。要跨越这道壁垒,我们必须进行一次彻底的思维转变。创作者需要从“对话者”的角色,升级为“虚拟导演”。提示词(Prompt)也不再是简单的自然语言描述,而是一份结构严谨、逻辑闭环、可被机器无歧义解析的**“技术需求文档”“分镜执行脚本”**。

本指南旨在提出并详述一套专为Sora 2漫剧类视频设计的结构化提示词框架。它并非一组简单的写作技巧,而是一套可复现、可扩展的工程化方法论。其核心目标是将创作者的艺术构想,通过标准化的数据结构,精准无损地传递给生成模型,从而实现对最终视频在风格、角色、叙事、镜头等维度的强力约束与稳定控制。这篇万字长文,将成为你驾驭Sora 2进行严肃创作的终极手册。

💠 一、框架设计哲学:从不确定性到工程化交付

在深入技术细节之前,理解本框架背后的设计哲学至关重要。它决定了我们如何组织信息、定义边界以及管理创作流程。

1.1 定位:指令集而非描述

传统提示词的本质是“描述”,它向模型描绘一个期望的画面,模型则基于其概率分布进行“猜测”与“创作”。这种方式在生成静态图像时尚可接受,但在要求时序连贯、逻辑严密的视频叙事中,其不确定性是致命的。

本框架将提示词重新定位为**“指令集”(Instruction Set)**。每一个字段、每一个参数,都是对Sora 2内部渲染管线中某个环节的直接干预。我们追求的不是“诗意的描绘”,而是“精确的定义”。这种转变要求我们放弃模糊的形容词,转向具体、可量化的参数描述。例如,不说“一个悲伤的氛围”,而是定义“冷色调、低饱和度、侧逆光、慢速推镜头”。

这种思维转变,本质上是将创意工作流,从艺术创作的范畴,部分地迁移到软件工程的范畴。 我们如同在为一个复杂的API设计输入参数,输入的精确性直接决定了输出的可靠性。

1.2 核心原则:分层解耦与正交控制

一个复杂的系统需要清晰的结构。本框架遵循分层解耦的设计原则,将一个完整的视频项目拆解为多个相互独立但又彼此关联的控制层。

  • 全局层 (Global Layer): 定义贯穿整个视频的普适性规则。这包括画幅、帧率等元数据,以及整体的艺术风格、色调等视觉基准。全局层的设定为所有镜头提供了一个统一的“世界观”。

  • 资产层 (Asset Layer): 独立管理视频中的核心“资产”,主要是角色、场景和关键道具。通过建立资产库,我们能确保这些元素在不同镜头间保持严格的一致性,这是解决“角色突变”等问题的关键。

  • 叙事层 (Narrative Layer): 即分镜脚本。这一层负责将故事拆解为独立的、按时序排列的镜头单元(Shot)。每个镜头单元内部再进行进一步的解耦,将画面、动作、声音、镜头语言等元素分离开来,实现正交控制。

正交控制意味着,理论上我们可以独立修改某一镜头的光照参数,而不会影响其角色的动作;或者调整角色的对白,而无需重新定义整个场景。这种设计极大地提升了修改效率与创作灵活性。

1.3 目标:可预测、可复现、可扩展

本框架的最终交付目标,是让AI视频生成过程具备三个核心的工程化特质。

  • 可预测性 (Predictability): 在输入一份结构化提示词后,创作者应对输出结果有一个清晰的、符合逻辑的预期。AI的“自由发挥”应被严格限制在预设的边界之内。

  • 可复现性 (Reproducibility): 相同的提示词输入,应能稳定地生成高度相似的输出结果。这是将AI视频纳入工业化生产流程的基础。

  • 可扩展性 (Scalability): 框架本身应具备良好的扩展能力。无论是增加新的角色,还是引入更复杂的视觉效果(VFX)或多语言音轨,都可以在现有结构上平滑地增加新字段或新模块,而不会破坏整体框架的稳定性。

💠 二、结构化标准详解:一份给Sora 2的终极导演手册

现在,我们将这套框架转化为一份你可以直接复制、修改和使用的“导演手册”模板。这份手册极其详尽,覆盖了从项目启动到最终渲染的每一个环节。请按照以下结构,逐项填写你的创意内容。

2.1 第一部分:全局设定(整部影片的基调与规则)

在开始写具体镜头前,先完成这份“全局设定清单”。它就像电影开拍前的筹备会,确保所有部门(在这里是Sora 2的各个功能模块)步调一致。这份清单的完成度,直接决定了你影片的下限。

【全局设定清单】

1. 项目基本信息 (Metadata)

这部分定义了视频文件的“物理属性”,是最基础的技术规格。

  • 项目标题 (Title): [在此填写你的项目名称,例如:厨房的意外协奏曲]

    • 作用: 用于项目管理和识别,虽然不直接影响生成画面,但保持规范是良好习惯。

  • 一句话梗概 (Logline): [用一句话概括你的故事,例如:一个冒失青年在AI助手旁观下,试图优雅做早餐却引发滑稽灾难。]

    • 作用: 帮助你聚焦故事核心,同时可能作为Sora 2理解整体叙事意图的上下文参考。

  • 目标时长 (Target Length): [填写数字,例如:15秒]

    • 作用: 设定视频总长度,Sora 2会以此为依据,调整每个镜头的生成时长和整体节奏。

  • 画面比例 (Aspect Ratio): [选择一项:16:9 (标准横屏) / 9:16 (竖屏短视频) / 1:1 (方形社交媒体) / 2.35:1 (宽银幕电影感)]

    • 作用: 决定构图的基础。不同的比例会极大地影响画面的叙事感。

  • 视频帧率 (Frame Rate / FPS): [选择一项:24fps (电影感,动态模糊更明显) / 30fps (标准视频流畅度) / 60fps (高流畅度,适合动作场面)]

    • 作用: 影响视频的流畅度和视觉风格。24fps是营造电影感的常用选择。

  • 整体基调 (Tone & Mood): [用关键词描述影片的情绪氛围,例如:温馨逗趣 / 悬疑惊悚 / 浪漫治愈 / 史诗宏大 / 废土荒凉]

    • 作用: 这是一个非常重要的全局参数,会影响Sora 2在色彩、光影、镜头节奏等方面的整体倾向。

2. 全局视觉风格 (Global Visual Style) - 你的美术总监手册

这部分是影片的“美术圣经”。在这里定义的规则,将成为所有镜头的默认视觉标准。

  • 核心艺术风格 (Art Style): [描述你想要的画风,例如:日式赛璐璐动画 / 吉卜力工作室风格 / 新海诚风格 / 美式复古漫画 / 迪士尼经典2D动画风格 / 扁平化矢量插画 / 水墨国风]

    • 深度解析: 这是最高优先级的视觉指令。描述越精确越好,可以引用知名工作室或导演的风格作为参照。

  • 线条处理 (Line Art): [描述线条特征,例如:简洁流畅的细线,轮廓清晰 / 粗犷有力的轮廓线,带有笔触感 / 无描边风格 / 彩色线条]

    • 深度解析: 线条是2D动画风格的灵魂。线条的粗细、平滑度、有无断线等细节,都会显著影响画风。

  • 上色与阴影 (Shading & Coloring): [描述上色风格,例如:明快平涂,无渐变 / 柔和的赛璐璐二分阴影 / 带有水彩质感的柔和过渡 / 硬朗的二分阴影,高对比度]

    • 深度解析: 阴影的画法是区分不同日漫风格的关键。是简单的色块(平涂),还是有柔和过渡的“厚涂”感?

  • 主色调方案 (Color Palette): [描述色彩感觉,例如:以明黄色和天蓝色为主的高饱和度暖色调 / 莫兰迪低饱和度高级灰 / 赛博朋克霓虹色(青色与品红) / 黑白电影,仅保留一种强调色(如红色)]

    • 深度解析: 色彩是情绪的直接表达。定义主色调和辅助色,能确保影片情绪的连贯性。

  • 基础光照风格 (Lighting Style): [描述光线类型,例如:明亮的清晨窗边自然光,光线柔和 / 正午顶光,阴影硬朗 / 工作室三点布光,轮廓清晰 / 伦勃朗光,具有戏剧性 / 黄金时刻的暖色调光线]

    • 深度解析: 光照不仅影响画面明暗,更塑造氛围和立体感。全局光照风格为所有场景打下基础。

3. 全局规则与约束 (Global Constraints & Rules) - 你的片场纪律

这是给Sora 2立下的“死规矩”,用以对抗AI的随机性,确保逻辑的严密和内容的安全。

  • 必须遵守 (Must-Have Rules): 这是正面清单,强制Sora 2在每个镜头中都必须执行。

    • 规则1:[写下必须贯穿始终的规则,例如:小明的黄色小鸡围裙在所有镜头中必须存在且样式统一]

    • 规则2:[例如:小明的黑框眼镜不可摘下,且镜片无反光]

    • 规则3:[例如:AI助手的圆形外观不可改变,始终保持悬浮状态]

    • 深度解析: 这是解决角色、道具一致性问题的核心武器。 对于不想让AI“自由发挥”的核心设定,全部写在这里。

  • 禁止出现 (Forbidden Elements / Negative Prompts): 这是负面清单,告诉Sora 2什么东西绝对不能画。

    • 禁令1:[写下不希望出现的元素,例如:不出现任何形式的明火灶台]

    • 禁令2:[例如:画面中不出现任何现实世界的文字或品牌Logo]

    • 禁令3:[例如:避免任何血腥、暴力或令人不适的画面]

    • 深度解析: 负向提示对于规避版权风险、控制内容分级、排除干扰元素非常有效。

  • 数理逻辑约束 (Logic & Number Rules): 这是逻辑清单,专门用来校正AI在数学和物理逻辑上的“天真”。

    • 逻辑1:[写下关于数量、顺序的硬性规定,例如:场景中被操作的鸡蛋数量始终为1]

    • 逻辑2:[例如:角色手指必须为5根,且手部结构正常]

    • 逻辑3:[例如:镜子或水面中的反射必须与实体保持一致]

    • 深度解析: AI在处理精确数量、物理反射、复杂手势等方面是重灾区。显式地声明这些逻辑规则,能大幅提升生成质量。

2.2 第二部分:核心资产库(演员与场景的详细档案)

为你的“演员”和“拍摄场地”建立详细的档案。Sora 2在拍摄每个镜头时,都会回来查阅这份档案,以确保形象不会出错。这份档案越详细,你的角色就越“活”,越不容易“崩”。

【核心资产库】

1. 角色表 (Character Sheets)

为每个角色创建一份独立的、详尽的档案。

角色一

  • 姓名/代号 (Name): [例如:小明]

  • 年龄与人设 (Age & Persona): [例如:23岁,一个自信但冒失、热爱生活的年轻人]

  • 核心外观描述 (Visual Features) - 这是最重要的部分!

    • 体型与面部: [例如:身材偏瘦,身高约175cm,黑短发略带凌乱感,戴着无度数的圆形黑框眼镜,面部线条柔和。]

    • 标志性服装: [例如:始终穿着一件印有卡通小鸡图案的黄色围裙,内穿纯白色圆领T恤,下身是浅蓝色牛仔裤。]

    • 关键细节: [例如:左手手腕上戴着一个简单的黑色运动手环。]

  • 习惯性动作/表情 (Behavior Traits): [例如:思考时会习惯性地用食指推一下眼镜;兴奋或惊讶时,眼睛会夸张地睁大;手势丰富,幅度较大。]

  • 声音特征 (Voice Spec): [例如:活泼的青年男声,音调略高,语速中等偏快,说话时充满活力。]

角色二

  • 姓名/代号 (Name): [例如:AI助手-蛋蛋]

  • 人设 (Persona): [例如:呆萌、爱吐槽的观察者,逻辑至上但偶尔会流露出人性化的无奈。]

  • 核心外观描述 (Visual Features):

    • 主体: [例如:一个直径约30厘米的白色悬浮球体,表面是光滑的哑光材质。]

    • 交互界面: [例如:球体中央有一块可显示各种像素表情的圆形LED屏幕,例如-_-||, ^_^, O_O等。]

    • 运动方式: [例如:通过无声的反重力引擎悬浮在空中,移动平滑,会通过轻微晃动和旋转来表达情绪。]

  • 声音特征 (Voice Spec): [例如:中性、略带机械感的电子合成音,语调平缓,但在吐槽时会故意模仿人类的叹气声。]

[如果还有更多角色,请按此格式继续添加...]

2. 场景与道具库 (Locations & Props Library)
  • 主要场景 (Location): [场景名称,例如:小明的现代厨房]

    • 整体描述: [例如:一个开放式设计的厨房,与客厅相连。主色调为白色和原木色。拥有一个宽大的中岛台,材质为白色大理石。]

    • 关键元素: [例如:背景墙上有一排白色橱柜;窗户是落地窗,可以看到窗外的城市高楼;中岛台上放着一台胶囊咖啡机和一个水果篮。]

    • 环境氛围: [例如:整体风格明亮、整洁,但角落里堆放的书籍和绿植又增添了生活气息。]

  • 关键道具 (Prop): [道具名称,例如:鸡蛋]

    • 描述: [例如:普通的白色外壳鸡蛋,大小均匀。]

  • 关键道具 (Prop): [道具名称,例如:盛蛋碗]

    • 描述: [例如:一个透明的玻璃碗,碗口直径约15厘米。]

2.3 第三部分:音频规划(声音设计蓝图)

在构思画面的同时,就要想好声音。一个专业的创作者,会把声音和画面放在同等重要的位置。

【音频规划】

  • 背景音乐风格 (BGM Style): [描述BGM感觉,例如:轻快、俏皮的尤克里里或木吉他独奏,旋律简单重复,带有喜剧色彩。]

  • 关键音效列表 (SFX List): [列出必须出现的、对叙事有重要作用的音效。]

    • 音效1:蛋壳清脆的碎裂声

    • 音效2:液体溅射到物体表面的声音

    • 音效3:机器人发出的电子叹息音效

    • 音效4:背景中持续的、轻微的城市环境白噪音

  • 对白语言 (Dialogue Language): [例如:中文普通话]

  • 口型同步要求 (Lipsync Level): [选择一项:高 (要求口-型与音节精确匹配) / 中 (大致匹配即可) / 低 (无需口型动画)]

    • 深度解析: 高精度的口型同步对模型要求极高,如果不是对话密集型影片,选择“中”或“低”可以降低生成难度,提高成功率。

2.4 第四部分:结构化分镜脚本(导演的终极拍摄清单)

这是执行的核心。将你的故事拆分成一个个镜头,并为每个镜头填写下面的“拍摄卡”。这份拍摄卡就是你与Sora 2沟通的唯一语言,它的详尽程度,决定了你对最终画面的掌控力。

【分镜脚本】

🎬 镜头 S1

  • 镜头唯一编号 (ID): S1

  • 预计时长 (Duration): [例如:5.0秒]

  • 场景描述 (Scene): [描述具体环境,例如:小明的现代厨房,清晨的阳光透过巨大的落地窗洒在中岛台上,空气中漂浮着微尘,环境明亮而宁静。]

  • 本镜目标/意图 (Intent): [一句话说明这个镜头的作用,例如:建立角色自信、略带炫耀的初始状态,为后续的喜剧反差做足铺垫。]

  • 综合画面描述 (Description): [用一两句话概括整个镜头,作为AI的“第一印象”,例如:一个穿着滑稽围裙的年轻人,在洒满阳光的厨房里,自信满满地准备展示他的厨艺。]

  • 动作与表演 (Action): [详细描述角色做什么、表情如何。必须严格参考角色表!例如:主角小明,站在中岛台前,他先是深吸一口气,脸上带着一丝得意的微笑。他用左手从水果篮旁拿起一个鸡蛋,在空中抛了一下又稳稳接住。然后,他眼神专注地看着鸡蛋,右手做出一个准备单手敲击的姿势。]

  • 摄影机指令 (Camera) - 这是技术核心!

    • 景别 (Shot Type): [选择:MS (中景),从腰部以上拍摄,能看清角色的上半身动作和表情。]

    • 机位角度 (Angle): [选择:Eye-level (平视),给予观众平等的、亲近的感觉。]

    • 镜头运动 (Movement): [选择:Static (固定机位),保持画面的稳定,让观众聚焦于角色的表演。]

    • 镜头焦段 (Lens): [选择:Standard (标准焦段,约50mm),提供接近人眼所见的自然透视。]

    • 构图与焦点 (Framing & Focus): [描述构图,例如:Center-framed (居中构图),角色位于画面中央。Shallow focus (浅景深),焦点精确地在小明身上,背景的橱柜和窗户略微虚化,突出主体。]

  • 对白 (Dialogue):

    • 角色: [例如:小明]

    • 台词: [例如:“完美的一天,从完美的单手打蛋开始!”]

    • 情绪/语气: [例如:自信、略带炫耀,语调上扬]

  • 声音备注 (Audio Notes): [当前镜头特殊的声音需求,例如:环境音:窗外隐约的鸟鸣声和远处城市的低语。小明拿起鸡蛋时,需要有轻微的物体接触音。]

  • 转场到下一镜 (Transition Out): [例如:Cut (硬切),保持节奏的明快。]

🎬 镜头 S2

  • 镜头唯一编号 (ID): S2

  • 预计时长 (Duration): [例如:7.0秒]

  • 场景描述 (Scene): [例如:同一个厨房,但现在中岛台和地面上溅有明显的蛋液,打破了之前的整洁。]

  • 本镜目标/意图 (Intent): [例如:制造核心的喜剧冲突和笑点,通过角色的窘迫和AI助手的反应形成对比。]

  • 综合画面描述 (Description): [例如:打蛋计划彻底失败,蛋液溅了年轻人一脸,他当场石化,而他的机器人助手在背景中无语旁观,形成强烈的喜剧效果。]

  • 动作与表演 (Action): [例如:小明保持着左手握着碎蛋壳的姿势,右手还停在半空。他的脸上和眼镜镜片上都沾着黏稠的蛋黄和蛋清。他的表情从自信瞬间转为极度震惊和呆滞,眼睛睁大,嘴巴微张成“O”形。在画面的左后方,AI助手-蛋蛋悬浮在半空,其LED屏幕上显示一个无奈的汗颜表情(类似-_-||),并以一个非常缓慢的频率,轻微地左右晃动它的球形身体,模仿人类摇头的动作。]

  • 摄影机指令 (Camera):

    • 景别 (Shot Type): [例如:MCU (中近景),从胸部以上拍摄,重点突出角色的面部表情和上半身的狼狈状态。]

    • 机位角度 (Angle): [例如:Slightly low-angle (轻微的仰视角度),稍微夸大角色的震惊感和滑稽感。]

    • 镜头运动 (Movement): [例如:Subtle handheld shake (模仿手持拍摄的轻微、快速的晃动),在蛋壳破碎的瞬间发生,用以增强冲击感和喜剧效果。]

    • 镜头焦段 (Lens): [例如:Wide (广角焦段,约28mm),让角色面部有轻微的透视畸变,增加夸张感,同时能将背景的AI助手也纳入清晰的景深范围。]

    • 构图与焦点 (Framing & Focus): [例如:Rule of thirds (三分法构图),小明的脸占据画面右侧三分之一的视觉焦点。Deep focus (深景深),确保前景的小明和后景的AI助手都保持清晰,以展现二者的互动关系。]

  • 对白 (Dialogue):

    • 角色: [例如:小明]

    • 台词: [例如:“呃……计划有变。”]

    • 情绪/语气: [例如:尴尬、石化,声音低沉,几乎是从牙缝里挤出来的。]

  • 声音备注 (Audio Notes): [例如:关键音效:在动作发生的确切瞬间,需要有一个非常清脆响亮的蛋壳碎裂声,紧接着是“噗嗤”一声液体溅射声。在小明说完台词后,响起AI助手的电子叹息音效。]

  • 视觉特效备注 (VFX Notes): [例如:蛋液溅射的物理动态需要有夸张的动漫效果,可以有几滴蛋液在空中划出清晰的抛物线弧线,并带有一点点高光效果。]

  • 转场到下一镜 (Transition Out): [例如:Fade to black (淡出到黑色),给笑点留出回味的时间,作为故事的收尾。]

[如果还有更多镜头,请按此“拍摄卡”格式继续添加...]

💠 三、工作流、审查与高级议题

3.1 迭代式创作流程

不要试图一次性写完所有细节。推荐的工作流程如下:

  1. 第一轮(搭骨架): 先快速填写所有镜头的“动作与表演”部分,把故事讲顺。

  2. 第二轮(定美术): 完成“全局设定”和“资产库”,让视觉风格和角色形象定下来。

  3. 第三轮(加镜头): 为每个镜头仔细设计“摄影机指令”,思考如何用镜头讲故事。

  4. 第四轮(填声音): 最后加入“对白”和“声音备注”。

  5. 生成与修改: 将写好的“导演手册”提交给Sora 2,生成视频。根据结果,回来修改手册中的对应项,反复迭代,直到满意为止。

3.2 质量验收清单 (Quality Checklist)

生成视频后,使用以下清单进行系统性评估,以指导后续的微调工作。

  • [ ] 角色一致性:

    • 所有镜头中,角色的外观(发型、服装、配饰)是否与角色表严格一致?

    • 角色的行为习惯、表情风格是否符合其persona设定?

  • [ ] 风格统一性:

    • 整部影片的艺术风格、色调、光影是否遵循了全局视觉风格的定义?

    • 是否存在某个镜头风格突然“跳戏”的情况?

  • [ ] 叙事与逻辑连贯性:

    • 镜头之间的转场是否流畅?故事发展是否符合逻辑?

    • 道具、场景的状态变化是否合理?(例如,S1的完整鸡蛋在S2变成了碎蛋壳和蛋液)

    • 全局约束(特别是numeric_logic)是否被严格遵守?

  • [ ] 音画同步与质量:

    • 对白口型同步是否达到lipsync_level的要求?

    • 音效是否在正确的时间点触发?背景音乐的情绪是否与画面匹配?

  • [ ] 镜头语言有效性:

    • 每个镜头的camera参数是否被准确执行?

    • 最终的镜头语言是否有效地传达了intent中设定的叙事意图?

结论

从混乱的自然语言描述,走向严谨的结构化指令,是释放Sora 2全部潜能、推动AI视频进入专业创作领域的必然路径。本指南提供的这份“导演手册”模板,其核心并非一系列僵化的规则,而是一种工程化的思维方式。它要求创作者将艺术构想进行逻辑拆解,将模糊感受转化为精确参数,从而在人与AI之间建立起一条高带宽、低损耗的沟通桥梁。

通过定义清晰的全局规则、管理独立的数字资产、并以结构化的分镜脚本驱动整个生成过程,我们能够最大限度地消除不确定性,实现对最终叙事作品的稳定控制。这不仅关乎效率,更关乎创作的尊严——确保技术真正服务于创意,而非让创意被技术的随机性所绑架。未来的AI叙事,将属于那些既懂艺术,又懂工程的“虚拟导演”。

附录:结构化提示词框架技术参数词典

本附录为希望深入理解每个字段技术细节的专业读者,提供一份详尽的参数说明与示例。

A.1 全局设定 (Global Settings)

A.1.1 元数据 (Metadata)

字段 (Field)

数据类型

描述

常用示例

title

String

项目标题,用于标识和管理。

"厨房的意外协奏曲"

logline

String

一句话故事梗概,凝练核心剧情。

"一个冒失青年在AI助手旁观下,试图优雅做早餐却引发滑稽灾难。"

target_length_sec

Integer

目标视频总时长(秒)。

15

aspect_ratio

String

画面宽高比,决定构图。

"16:9" (横屏), "9:16" (竖屏), "1:1", "2.35:1"

fps

Integer

帧率 (Frames Per Second),影响流畅度。

24 (电影感), 30 (标准视频), 60 (高流畅度)

tone_mood

String

整体基调与情绪。

"温馨逗趣", "悬疑惊悚", "浪漫治愈"

use_audio

Boolean

是否包含音频轨道。

true / false

A.1.2 全局视觉风格 (Global Visual Style)

字段 (Field)

数据类型

描述

常用示例

art_style

String

核心艺术流派。

"日式赛璐璐动画", "美式复古漫画", "扁平化矢量插画", "吉卜力风格"

line_art

String

线条处理方式。

"简洁细线", "粗犷轮廓线", "无描边", "彩色线条"

shading

String

上色与阴影风格。

"明快平涂", "柔和过渡", "硬朗二分阴影"

color_palette

String

主色调方案。

"高饱和度暖色调", "莫兰迪低饱和色系", "赛博朋克霓虹色"

lighting_style

String

基础光照模型。

"清晨柔和自然光", "正午硬光", "工作室三点布光", "伦勃朗光"

A.1.3 全局约束与规则 (Global Constraints & Rules)
  • must_have (强制包含): 列表形式,定义每个镜头都必须遵守的正面约束。这是确保核心元素(如角色特征)跨镜头一致性的关键。

    • 示例: ["小明的黄色小鸡围裙在所有镜头中必须存在且样式统一", "AI助手的圆形外观不可改变"]

  • avoid (负向提示): 列表形式,定义全局范围内禁止出现的元素。

    • 示例: ["不出现任何现实世界的汽车品牌", "避免血腥或暴力画面"]

  • numeric_logic (数理逻辑约束): 列表形式,用于定义对数量、顺序等有严格要求的逻辑。AI在处理数字和计数时常出错,显式声明能有效规避。

    • 示例: ["场景中操作的鸡蛋数量始终为1", "角色手指必须为5根"]

A.2 核心资产库 (Core Asset Library)

A.2.1 角色表 (Character Sheet)

字段 (Field)

数据类型

描述

示例 (角色:小明)

name

String

角色唯一标识符。

"小明"

age

Integer

年龄。

23

persona

String

性格与人设。

"自信但冒失的年轻人"

visual_features

String

核心外观描述,必须详尽且稳定。

"黑短发,戴圆形黑框眼镜,身材偏瘦。标志性服装是印有卡通小鸡的黄色围裙。"

behavior_traits

String

习惯性动作或表情。

"思考时会扶眼镜,手势夸张"

voice_spec

String

声音特征描述。

"青年男性声线,语速偏快,略带活力"

A.2.2 场景与道具库 (Locations & Props Library)
  • 场景 (Locations):

    • name: "现代厨房"

    • description: "开放式设计,白色橱柜,中岛台,窗外是城市景观。整体风格明亮、整洁但有生活气息。"

  • 道具 (Props):

    • name: "AI助手"

    • description: "一个直径约30厘米的白色悬浮球体,中央有一块可显示不同像素表情的圆形LED屏幕。"

A.3 音频规划 (Audio Plan)

字段 (Field)

数据类型

描述

常用示例

bgm_style

String

背景音乐风格。

"轻快、俏皮的木吉他独奏", "宏大的管弦乐"

sfx_list

Array[String]

关键音效列表。

["蛋壳碎裂声", "机器人电子叹息声", "平底锅滋滋声"]

dialogue_lang

String

对白语言。

"中文普通话", "英语", "日语"

lipsync_level

String

口型同步精度要求。

"高" (精确匹配), "中" (大致匹配), "低" (无需同步)

A.4 结构化分镜 (Structured Shots)

A.4.1 单个分镜单元核心字段

字段 (Field)

描述与作用

id

镜头唯一编号。例如 S1, S2。用于标识和串联。

duration

镜头预计时长(秒)。用于控制叙事节奏。

scene

场景描述。引用资产库中的场景,并补充当前镜头特有的环境细节。

intent

镜头意图。说明该镜头在叙事中的功能,如“建立角色性格”、“制造笑点”。

description

综合画面描述。用自然语言简要概括整个镜头的内容。

camera

摄影机参数。一个包含对镜头语言精确控制的嵌套结构。

action

主体与动作。描述角色或物体的具体行为、表情变化、交互细节。

dialogue

对白。一个包含说话人、台词、情绪、语速的结构化列表。

audio_notes

音频备注。当前镜头特定的环境音或音效需求。

vfx_notes

视觉效果备注。需要特殊处理的视觉效果,如粒子、光效等。

transition_out

转场方式。定义该镜头如何过渡到下一个镜头,如 Cut, Fade

A.4.2 摄影机参数 (camera) 深度解析

子字段 (Sub-field)

数据类型

描述

可选值/示例

shot_type

String

景别。决定主体在画面中的大小。

"ELS" (大远景), "LS" (远景), "MS" (中景), "MCU" (中近景), "CU" (近景), "ECU" (特写)

angle

String

机位角度

"Eye-level" (平视), "High-angle" (俯视), "Low-angle" (仰视), "Dutch-angle" (斜角)

movement

String

镜头运动

"Static" (固定), "Pan" (摇), "Tilt" (俯仰), "Dolly" (推拉), "Track" (跟拍), "Crane" (升降)

lens

String

镜头焦段。影响景深和透视。

"Wide" (广角), "Standard" (标准), "Telephoto" (长焦)

focus

String

焦点控制

"Deep focus" (深景深), "Shallow focus" (浅景深), "Rack focus" (焦点转移)

framing

String

构图

"Center-framed" (居中构图), "Rule of thirds" (三分法构图), "Over-the-shoulder" (过肩镜头)

📢💻 【省心锐评】

抛弃“咏唱”,拥抱“架构”。将AI视频创作从玄学变为工程,是其走向工业化生产的唯一通路。这套框架,就是通往稳定、可控叙事的脚手架。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐