Sora 2 导演级提示词框架：将创意精准转化为视觉叙事

【摘要】建立一套工程化的结构化提示词标准，将模糊的创意需求精确转译为Sora 2可稳定执行的镜头级指令，是实现高质量AI视频叙事的关键路径。

InterGPT

514人浏览 · 2025-11-18 14:58:10

InterGPT · 2025-11-18 14:58:10 发布

【摘要】建立一套工程化的结构化提示词标准，将模糊的创意需求精确转译为Sora 2可稳定执行的镜头级指令，是实现高质量AI视频叙事的关键路径。

引言

Sora 2的出现，将AI视频生成的能力推向了前所未有的高度。然而，强大的生成能力并未自动带来高质量的叙事内容。当前多数创作者仍停留在“对话式”或“灵感式”的提示词阶段，其产出结果充满了随机性。视频风格的无预警漂移、角色形象的频繁突变、叙事逻辑的内在断裂，这些问题共同构成了一道阻碍AI视频进入严肃创作领域的壁垒。

问题的根源在于，我们将Sora 2错误地定位为一个“创意伙伴”，而非一个需要精确指令的“渲染引擎”。要跨越这道壁垒，我们必须进行一次彻底的思维转变。创作者需要从“对话者”的角色，升级为“虚拟导演”。提示词（Prompt）也不再是简单的自然语言描述，而是一份结构严谨、逻辑闭环、可被机器无歧义解析的**“技术需求文档”与“分镜执行脚本”**。

本指南旨在提出并详述一套专为Sora 2漫剧类视频设计的结构化提示词框架。它并非一组简单的写作技巧，而是一套可复现、可扩展的工程化方法论。其核心目标是将创作者的艺术构想，通过标准化的数据结构，精准无损地传递给生成模型，从而实现对最终视频在风格、角色、叙事、镜头等维度的强力约束与稳定控制。这篇万字长文，将成为你驾驭Sora 2进行严肃创作的终极手册。

💠 一、框架设计哲学：从不确定性到工程化交付

在深入技术细节之前，理解本框架背后的设计哲学至关重要。它决定了我们如何组织信息、定义边界以及管理创作流程。

1.1 定位：指令集而非描述

传统提示词的本质是“描述”，它向模型描绘一个期望的画面，模型则基于其概率分布进行“猜测”与“创作”。这种方式在生成静态图像时尚可接受，但在要求时序连贯、逻辑严密的视频叙事中，其不确定性是致命的。

本框架将提示词重新定位为**“指令集”（Instruction Set）**。每一个字段、每一个参数，都是对Sora 2内部渲染管线中某个环节的直接干预。我们追求的不是“诗意的描绘”，而是“精确的定义”。这种转变要求我们放弃模糊的形容词，转向具体、可量化的参数描述。例如，不说“一个悲伤的氛围”，而是定义“冷色调、低饱和度、侧逆光、慢速推镜头”。

这种思维转变，本质上是将创意工作流，从艺术创作的范畴，部分地迁移到软件工程的范畴。 我们如同在为一个复杂的API设计输入参数，输入的精确性直接决定了输出的可靠性。

1.2 核心原则：分层解耦与正交控制

一个复杂的系统需要清晰的结构。本框架遵循分层解耦的设计原则，将一个完整的视频项目拆解为多个相互独立但又彼此关联的控制层。

全局层 (Global Layer)： 定义贯穿整个视频的普适性规则。这包括画幅、帧率等元数据，以及整体的艺术风格、色调等视觉基准。全局层的设定为所有镜头提供了一个统一的“世界观”。
资产层 (Asset Layer)： 独立管理视频中的核心“资产”，主要是角色、场景和关键道具。通过建立资产库，我们能确保这些元素在不同镜头间保持严格的一致性，这是解决“角色突变”等问题的关键。
叙事层 (Narrative Layer)： 即分镜脚本。这一层负责将故事拆解为独立的、按时序排列的镜头单元（Shot）。每个镜头单元内部再进行进一步的解耦，将画面、动作、声音、镜头语言等元素分离开来，实现正交控制。

正交控制意味着，理论上我们可以独立修改某一镜头的光照参数，而不会影响其角色的动作；或者调整角色的对白，而无需重新定义整个场景。这种设计极大地提升了修改效率与创作灵活性。

1.3 目标：可预测、可复现、可扩展

本框架的最终交付目标，是让AI视频生成过程具备三个核心的工程化特质。

可预测性 (Predictability)： 在输入一份结构化提示词后，创作者应对输出结果有一个清晰的、符合逻辑的预期。AI的“自由发挥”应被严格限制在预设的边界之内。
可复现性 (Reproducibility)： 相同的提示词输入，应能稳定地生成高度相似的输出结果。这是将AI视频纳入工业化生产流程的基础。
可扩展性 (Scalability)： 框架本身应具备良好的扩展能力。无论是增加新的角色，还是引入更复杂的视觉效果（VFX）或多语言音轨，都可以在现有结构上平滑地增加新字段或新模块，而不会破坏整体框架的稳定性。

💠 二、结构化标准详解：一份给Sora 2的终极导演手册

现在，我们将这套框架转化为一份你可以直接复制、修改和使用的“导演手册”模板。这份手册极其详尽，覆盖了从项目启动到最终渲染的每一个环节。请按照以下结构，逐项填写你的创意内容。

2.1 第一部分：全局设定（整部影片的基调与规则）

在开始写具体镜头前，先完成这份“全局设定清单”。它就像电影开拍前的筹备会，确保所有部门（在这里是Sora 2的各个功能模块）步调一致。这份清单的完成度，直接决定了你影片的下限。

【全局设定清单】

1. 项目基本信息 (Metadata)

这部分定义了视频文件的“物理属性”，是最基础的技术规格。

项目标题 (Title)： [在此填写你的项目名称，例如：厨房的意外协奏曲]
- 作用： 用于项目管理和识别，虽然不直接影响生成画面，但保持规范是良好习惯。
一句话梗概 (Logline)： [用一句话概括你的故事，例如：一个冒失青年在AI助手旁观下，试图优雅做早餐却引发滑稽灾难。]
- 作用： 帮助你聚焦故事核心，同时可能作为Sora 2理解整体叙事意图的上下文参考。
目标时长 (Target Length)： [填写数字，例如：15秒]
- 作用： 设定视频总长度，Sora 2会以此为依据，调整每个镜头的生成时长和整体节奏。
画面比例 (Aspect Ratio)： [选择一项：16:9 (标准横屏) / 9:16 (竖屏短视频) / 1:1 (方形社交媒体) / 2.35:1 (宽银幕电影感)]
- 作用： 决定构图的基础。不同的比例会极大地影响画面的叙事感。
视频帧率 (Frame Rate / FPS)： [选择一项：24fps (电影感，动态模糊更明显) / 30fps (标准视频流畅度) / 60fps (高流畅度，适合动作场面)]
- 作用： 影响视频的流畅度和视觉风格。24fps是营造电影感的常用选择。
整体基调 (Tone & Mood)： [用关键词描述影片的情绪氛围，例如：温馨逗趣 / 悬疑惊悚 / 浪漫治愈 / 史诗宏大 / 废土荒凉]
- 作用： 这是一个非常重要的全局参数，会影响Sora 2在色彩、光影、镜头节奏等方面的整体倾向。

2. 全局视觉风格 (Global Visual Style) - 你的美术总监手册

这部分是影片的“美术圣经”。在这里定义的规则，将成为所有镜头的默认视觉标准。

核心艺术风格 (Art Style)： [描述你想要的画风，例如：日式赛璐璐动画 / 吉卜力工作室风格 / 新海诚风格 / 美式复古漫画 / 迪士尼经典2D动画风格 / 扁平化矢量插画 / 水墨国风]
- 深度解析： 这是最高优先级的视觉指令。描述越精确越好，可以引用知名工作室或导演的风格作为参照。
线条处理 (Line Art)： [描述线条特征，例如：简洁流畅的细线，轮廓清晰 / 粗犷有力的轮廓线，带有笔触感 / 无描边风格 / 彩色线条]
- 深度解析： 线条是2D动画风格的灵魂。线条的粗细、平滑度、有无断线等细节，都会显著影响画风。
上色与阴影 (Shading & Coloring)： [描述上色风格，例如：明快平涂，无渐变 / 柔和的赛璐璐二分阴影 / 带有水彩质感的柔和过渡 / 硬朗的二分阴影，高对比度]
- 深度解析： 阴影的画法是区分不同日漫风格的关键。是简单的色块（平涂），还是有柔和过渡的“厚涂”感？
主色调方案 (Color Palette)： [描述色彩感觉，例如：以明黄色和天蓝色为主的高饱和度暖色调 / 莫兰迪低饱和度高级灰 / 赛博朋克霓虹色（青色与品红） / 黑白电影，仅保留一种强调色（如红色）]
- 深度解析： 色彩是情绪的直接表达。定义主色调和辅助色，能确保影片情绪的连贯性。
基础光照风格 (Lighting Style)： [描述光线类型，例如：明亮的清晨窗边自然光，光线柔和 / 正午顶光，阴影硬朗 / 工作室三点布光，轮廓清晰 / 伦勃朗光，具有戏剧性 / 黄金时刻的暖色调光线]
- 深度解析： 光照不仅影响画面明暗，更塑造氛围和立体感。全局光照风格为所有场景打下基础。

3. 全局规则与约束 (Global Constraints & Rules) - 你的片场纪律

这是给Sora 2立下的“死规矩”，用以对抗AI的随机性，确保逻辑的严密和内容的安全。

必须遵守 (Must-Have Rules): 这是正面清单，强制Sora 2在每个镜头中都必须执行。
- 规则1：[写下必须贯穿始终的规则，例如：小明的黄色小鸡围裙在所有镜头中必须存在且样式统一]
- 规则2：[例如：小明的黑框眼镜不可摘下，且镜片无反光]
- 规则3：[例如：AI助手的圆形外观不可改变，始终保持悬浮状态]
- 深度解析： 这是解决角色、道具一致性问题的核心武器。 对于不想让AI“自由发挥”的核心设定，全部写在这里。
禁止出现 (Forbidden Elements / Negative Prompts): 这是负面清单，告诉Sora 2什么东西绝对不能画。
- 禁令1：[写下不希望出现的元素，例如：不出现任何形式的明火灶台]
- 禁令2：[例如：画面中不出现任何现实世界的文字或品牌Logo]
- 禁令3：[例如：避免任何血腥、暴力或令人不适的画面]
- 深度解析： 负向提示对于规避版权风险、控制内容分级、排除干扰元素非常有效。
数理逻辑约束 (Logic & Number Rules): 这是逻辑清单，专门用来校正AI在数学和物理逻辑上的“天真”。
- 逻辑1：[写下关于数量、顺序的硬性规定，例如：场景中被操作的鸡蛋数量始终为1]
- 逻辑2：[例如：角色手指必须为5根，且手部结构正常]
- 逻辑3：[例如：镜子或水面中的反射必须与实体保持一致]
- 深度解析： AI在处理精确数量、物理反射、复杂手势等方面是重灾区。显式地声明这些逻辑规则，能大幅提升生成质量。

2.2 第二部分：核心资产库（演员与场景的详细档案）

为你的“演员”和“拍摄场地”建立详细的档案。Sora 2在拍摄每个镜头时，都会回来查阅这份档案，以确保形象不会出错。这份档案越详细，你的角色就越“活”，越不容易“崩”。

【核心资产库】

1. 角色表 (Character Sheets)

为每个角色创建一份独立的、详尽的档案。

角色一

姓名/代号 (Name)： [例如：小明]
年龄与人设 (Age & Persona)： [例如：23岁，一个自信但冒失、热爱生活的年轻人]
核心外观描述 (Visual Features) - 这是最重要的部分！
- 体型与面部： [例如：身材偏瘦，身高约175cm，黑短发略带凌乱感，戴着无度数的圆形黑框眼镜，面部线条柔和。]
- 标志性服装： [例如：始终穿着一件印有卡通小鸡图案的黄色围裙，内穿纯白色圆领T恤，下身是浅蓝色牛仔裤。]
- 关键细节： [例如：左手手腕上戴着一个简单的黑色运动手环。]
习惯性动作/表情 (Behavior Traits)： [例如：思考时会习惯性地用食指推一下眼镜；兴奋或惊讶时，眼睛会夸张地睁大；手势丰富，幅度较大。]
声音特征 (Voice Spec)： [例如：活泼的青年男声，音调略高，语速中等偏快，说话时充满活力。]

角色二

姓名/代号 (Name)： [例如：AI助手-蛋蛋]
人设 (Persona)： [例如：呆萌、爱吐槽的观察者，逻辑至上但偶尔会流露出人性化的无奈。]
核心外观描述 (Visual Features)：
- 主体： [例如：一个直径约30厘米的白色悬浮球体，表面是光滑的哑光材质。]
- 交互界面： [例如：球体中央有一块可显示各种像素表情的圆形LED屏幕，例如-_-||, ^_^, O_O等。]
- 运动方式： [例如：通过无声的反重力引擎悬浮在空中，移动平滑，会通过轻微晃动和旋转来表达情绪。]
声音特征 (Voice Spec)： [例如：中性、略带机械感的电子合成音，语调平缓，但在吐槽时会故意模仿人类的叹气声。]

[如果还有更多角色，请按此格式继续添加...]

2. 场景与道具库 (Locations & Props Library)

主要场景 (Location)： [场景名称，例如：小明的现代厨房]
- 整体描述： [例如：一个开放式设计的厨房，与客厅相连。主色调为白色和原木色。拥有一个宽大的中岛台，材质为白色大理石。]
- 关键元素： [例如：背景墙上有一排白色橱柜；窗户是落地窗，可以看到窗外的城市高楼；中岛台上放着一台胶囊咖啡机和一个水果篮。]
- 环境氛围： [例如：整体风格明亮、整洁，但角落里堆放的书籍和绿植又增添了生活气息。]
关键道具 (Prop)： [道具名称，例如：鸡蛋]
- 描述： [例如：普通的白色外壳鸡蛋，大小均匀。]
关键道具 (Prop)： [道具名称，例如：盛蛋碗]
- 描述： [例如：一个透明的玻璃碗，碗口直径约15厘米。]

2.3 第三部分：音频规划（声音设计蓝图）

在构思画面的同时，就要想好声音。一个专业的创作者，会把声音和画面放在同等重要的位置。

【音频规划】

背景音乐风格 (BGM Style)： [描述BGM感觉，例如：轻快、俏皮的尤克里里或木吉他独奏，旋律简单重复，带有喜剧色彩。]
关键音效列表 (SFX List)： [列出必须出现的、对叙事有重要作用的音效。]
- 音效1：蛋壳清脆的碎裂声
- 音效2：液体溅射到物体表面的声音
- 音效3：机器人发出的电子叹息音效
- 音效4：背景中持续的、轻微的城市环境白噪音
对白语言 (Dialogue Language)： [例如：中文普通话]
口型同步要求 (Lipsync Level)： [选择一项：高 (要求口-型与音节精确匹配) / 中 (大致匹配即可) / 低 (无需口型动画)]
- 深度解析： 高精度的口型同步对模型要求极高，如果不是对话密集型影片，选择“中”或“低”可以降低生成难度，提高成功率。

2.4 第四部分：结构化分镜脚本（导演的终极拍摄清单）

这是执行的核心。将你的故事拆分成一个个镜头，并为每个镜头填写下面的“拍摄卡”。这份拍摄卡就是你与Sora 2沟通的唯一语言，它的详尽程度，决定了你对最终画面的掌控力。

【分镜脚本】

🎬 镜头 S1

镜头唯一编号 (ID)： S1
预计时长 (Duration)： [例如：5.0秒]
场景描述 (Scene)： [描述具体环境，例如：小明的现代厨房，清晨的阳光透过巨大的落地窗洒在中岛台上，空气中漂浮着微尘，环境明亮而宁静。]
本镜目标/意图 (Intent)： [一句话说明这个镜头的作用，例如：建立角色自信、略带炫耀的初始状态，为后续的喜剧反差做足铺垫。]
综合画面描述 (Description)： [用一两句话概括整个镜头，作为AI的“第一印象”，例如：一个穿着滑稽围裙的年轻人，在洒满阳光的厨房里，自信满满地准备展示他的厨艺。]
动作与表演 (Action)： [详细描述角色做什么、表情如何。必须严格参考角色表！例如：主角小明，站在中岛台前，他先是深吸一口气，脸上带着一丝得意的微笑。他用左手从水果篮旁拿起一个鸡蛋，在空中抛了一下又稳稳接住。然后，他眼神专注地看着鸡蛋，右手做出一个准备单手敲击的姿势。]
摄影机指令 (Camera) - 这是技术核心！
- 景别 (Shot Type)： [选择：MS (中景)，从腰部以上拍摄，能看清角色的上半身动作和表情。]
- 机位角度 (Angle)： [选择：Eye-level (平视)，给予观众平等的、亲近的感觉。]
- 镜头运动 (Movement)： [选择：Static (固定机位)，保持画面的稳定，让观众聚焦于角色的表演。]
- 镜头焦段 (Lens)： [选择：Standard (标准焦段，约50mm)，提供接近人眼所见的自然透视。]
- 构图与焦点 (Framing & Focus)： [描述构图，例如：Center-framed (居中构图)，角色位于画面中央。Shallow focus (浅景深)，焦点精确地在小明身上，背景的橱柜和窗户略微虚化，突出主体。]
对白 (Dialogue)：
- 角色： [例如：小明]
- 台词： [例如：“完美的一天，从完美的单手打蛋开始！”]
- 情绪/语气： [例如：自信、略带炫耀，语调上扬]
声音备注 (Audio Notes)： [当前镜头特殊的声音需求，例如：环境音：窗外隐约的鸟鸣声和远处城市的低语。小明拿起鸡蛋时，需要有轻微的物体接触音。]
转场到下一镜 (Transition Out)： [例如：Cut (硬切)，保持节奏的明快。]

🎬 镜头 S2

镜头唯一编号 (ID)： S2
预计时长 (Duration)： [例如：7.0秒]
场景描述 (Scene)： [例如：同一个厨房，但现在中岛台和地面上溅有明显的蛋液，打破了之前的整洁。]
本镜目标/意图 (Intent)： [例如：制造核心的喜剧冲突和笑点，通过角色的窘迫和AI助手的反应形成对比。]
综合画面描述 (Description)： [例如：打蛋计划彻底失败，蛋液溅了年轻人一脸，他当场石化，而他的机器人助手在背景中无语旁观，形成强烈的喜剧效果。]
动作与表演 (Action)： [例如：小明保持着左手握着碎蛋壳的姿势，右手还停在半空。他的脸上和眼镜镜片上都沾着黏稠的蛋黄和蛋清。他的表情从自信瞬间转为极度震惊和呆滞，眼睛睁大，嘴巴微张成“O”形。在画面的左后方，AI助手-蛋蛋悬浮在半空，其LED屏幕上显示一个无奈的汗颜表情(类似-_-||)，并以一个非常缓慢的频率，轻微地左右晃动它的球形身体，模仿人类摇头的动作。]
摄影机指令 (Camera)：
- 景别 (Shot Type)： [例如：MCU (中近景)，从胸部以上拍摄，重点突出角色的面部表情和上半身的狼狈状态。]
- 机位角度 (Angle)： [例如：Slightly low-angle (轻微的仰视角度)，稍微夸大角色的震惊感和滑稽感。]
- 镜头运动 (Movement)： [例如：Subtle handheld shake (模仿手持拍摄的轻微、快速的晃动)，在蛋壳破碎的瞬间发生，用以增强冲击感和喜剧效果。]
- 镜头焦段 (Lens)： [例如：Wide (广角焦段，约28mm)，让角色面部有轻微的透视畸变，增加夸张感，同时能将背景的AI助手也纳入清晰的景深范围。]
- 构图与焦点 (Framing & Focus)： [例如：Rule of thirds (三分法构图)，小明的脸占据画面右侧三分之一的视觉焦点。Deep focus (深景深)，确保前景的小明和后景的AI助手都保持清晰，以展现二者的互动关系。]
对白 (Dialogue)：
- 角色： [例如：小明]
- 台词： [例如：“呃……计划有变。”]
- 情绪/语气： [例如：尴尬、石化，声音低沉，几乎是从牙缝里挤出来的。]
声音备注 (Audio Notes)： [例如：关键音效：在动作发生的确切瞬间，需要有一个非常清脆响亮的蛋壳碎裂声，紧接着是“噗嗤”一声液体溅射声。在小明说完台词后，响起AI助手的电子叹息音效。]
视觉特效备注 (VFX Notes)： [例如：蛋液溅射的物理动态需要有夸张的动漫效果，可以有几滴蛋液在空中划出清晰的抛物线弧线，并带有一点点高光效果。]
转场到下一镜 (Transition Out)： [例如：Fade to black (淡出到黑色)，给笑点留出回味的时间，作为故事的收尾。]

[如果还有更多镜头，请按此“拍摄卡”格式继续添加...]

💠 三、工作流、审查与高级议题

3.1 迭代式创作流程

不要试图一次性写完所有细节。推荐的工作流程如下：

第一轮（搭骨架）： 先快速填写所有镜头的“动作与表演”部分，把故事讲顺。
第二轮（定美术）： 完成“全局设定”和“资产库”，让视觉风格和角色形象定下来。
第三轮（加镜头）： 为每个镜头仔细设计“摄影机指令”，思考如何用镜头讲故事。
第四轮（填声音）： 最后加入“对白”和“声音备注”。
生成与修改： 将写好的“导演手册”提交给Sora 2，生成视频。根据结果，回来修改手册中的对应项，反复迭代，直到满意为止。

3.2 质量验收清单 (Quality Checklist)

生成视频后，使用以下清单进行系统性评估，以指导后续的微调工作。

[ ] 角色一致性：
- 所有镜头中，角色的外观（发型、服装、配饰）是否与角色表严格一致？
- 角色的行为习惯、表情风格是否符合其persona设定？
[ ] 风格统一性：
- 整部影片的艺术风格、色调、光影是否遵循了全局视觉风格的定义？
- 是否存在某个镜头风格突然“跳戏”的情况？
[ ] 叙事与逻辑连贯性：
- 镜头之间的转场是否流畅？故事发展是否符合逻辑？
- 道具、场景的状态变化是否合理？（例如，S1的完整鸡蛋在S2变成了碎蛋壳和蛋液）
- 全局约束（特别是numeric_logic）是否被严格遵守？
[ ] 音画同步与质量：
- 对白口型同步是否达到lipsync_level的要求？
- 音效是否在正确的时间点触发？背景音乐的情绪是否与画面匹配？
[ ] 镜头语言有效性：
- 每个镜头的camera参数是否被准确执行？
- 最终的镜头语言是否有效地传达了intent中设定的叙事意图？

结论

从混乱的自然语言描述，走向严谨的结构化指令，是释放Sora 2全部潜能、推动AI视频进入专业创作领域的必然路径。本指南提供的这份“导演手册”模板，其核心并非一系列僵化的规则，而是一种工程化的思维方式。它要求创作者将艺术构想进行逻辑拆解，将模糊感受转化为精确参数，从而在人与AI之间建立起一条高带宽、低损耗的沟通桥梁。

通过定义清晰的全局规则、管理独立的数字资产、并以结构化的分镜脚本驱动整个生成过程，我们能够最大限度地消除不确定性，实现对最终叙事作品的稳定控制。这不仅关乎效率，更关乎创作的尊严——确保技术真正服务于创意，而非让创意被技术的随机性所绑架。未来的AI叙事，将属于那些既懂艺术，又懂工程的“虚拟导演”。

附录：结构化提示词框架技术参数词典

本附录为希望深入理解每个字段技术细节的专业读者，提供一份详尽的参数说明与示例。

A.1 全局设定 (Global Settings)

A.1.1 元数据 (Metadata)

字段 (Field)	数据类型	描述	常用示例
`title`	String	项目标题，用于标识和管理。	"厨房的意外协奏曲"
`logline`	String	一句话故事梗概，凝练核心剧情。	"一个冒失青年在AI助手旁观下，试图优雅做早餐却引发滑稽灾难。"
`target_length_sec`	Integer	目标视频总时长（秒）。	`15`
`aspect_ratio`	String	画面宽高比，决定构图。	`"16:9"` (横屏), `"9:16"` (竖屏), `"1:1"`, `"2.35:1"`
`fps`	Integer	帧率 (Frames Per Second)，影响流畅度。	`24` (电影感), `30` (标准视频), `60` (高流畅度)
`tone_mood`	String	整体基调与情绪。	`"温馨逗趣"`, `"悬疑惊悚"`, `"浪漫治愈"`
`use_audio`	Boolean	是否包含音频轨道。	`true` / `false`

A.1.2 全局视觉风格 (Global Visual Style)

字段 (Field)	数据类型	描述	常用示例
`art_style`	String	核心艺术流派。	`"日式赛璐璐动画"`, `"美式复古漫画"`, `"扁平化矢量插画"`, `"吉卜力风格"`
`line_art`	String	线条处理方式。	`"简洁细线"`, `"粗犷轮廓线"`, `"无描边"`, `"彩色线条"`
`shading`	String	上色与阴影风格。	`"明快平涂"`, `"柔和过渡"`, `"硬朗二分阴影"`
`color_palette`	String	主色调方案。	`"高饱和度暖色调"`, `"莫兰迪低饱和色系"`, `"赛博朋克霓虹色"`
`lighting_style`	String	基础光照模型。	`"清晨柔和自然光"`, `"正午硬光"`, `"工作室三点布光"`, `"伦勃朗光"`

A.1.3 全局约束与规则 (Global Constraints & Rules)

must_have (强制包含): 列表形式，定义每个镜头都必须遵守的正面约束。这是确保核心元素（如角色特征）跨镜头一致性的关键。
- 示例: ["小明的黄色小鸡围裙在所有镜头中必须存在且样式统一", "AI助手的圆形外观不可改变"]
avoid (负向提示): 列表形式，定义全局范围内禁止出现的元素。
- 示例: ["不出现任何现实世界的汽车品牌", "避免血腥或暴力画面"]
numeric_logic (数理逻辑约束): 列表形式，用于定义对数量、顺序等有严格要求的逻辑。AI在处理数字和计数时常出错，显式声明能有效规避。
- 示例: ["场景中操作的鸡蛋数量始终为1", "角色手指必须为5根"]

A.2 核心资产库 (Core Asset Library)

A.2.1 角色表 (Character Sheet)

字段 (Field)	数据类型	描述	示例 (角色：小明)
`name`	String	角色唯一标识符。	`"小明"`
`age`	Integer	年龄。	`23`
`persona`	String	性格与人设。	`"自信但冒失的年轻人"`
`visual_features`	String	核心外观描述，必须详尽且稳定。	`"黑短发，戴圆形黑框眼镜，身材偏瘦。标志性服装是印有卡通小鸡的黄色围裙。"`
`behavior_traits`	String	习惯性动作或表情。	`"思考时会扶眼镜，手势夸张"`
`voice_spec`	String	声音特征描述。	`"青年男性声线，语速偏快，略带活力"`

A.2.2 场景与道具库 (Locations & Props Library)

场景 (Locations):
- name: "现代厨房"
- description: "开放式设计，白色橱柜，中岛台，窗外是城市景观。整体风格明亮、整洁但有生活气息。"
道具 (Props):
- name: "AI助手"
- description: "一个直径约30厘米的白色悬浮球体，中央有一块可显示不同像素表情的圆形LED屏幕。"

A.3 音频规划 (Audio Plan)

字段 (Field)	数据类型	描述	常用示例
`bgm_style`	String	背景音乐风格。	`"轻快、俏皮的木吉他独奏"`, `"宏大的管弦乐"`
`sfx_list`	Array[String]	关键音效列表。	`["蛋壳碎裂声", "机器人电子叹息声", "平底锅滋滋声"]`
`dialogue_lang`	String	对白语言。	`"中文普通话"`, `"英语"`, `"日语"`
`lipsync_level`	String	口型同步精度要求。	`"高"` (精确匹配), `"中"` (大致匹配), `"低"` (无需同步)

A.4 结构化分镜 (Structured Shots)

A.4.1 单个分镜单元核心字段

字段 (Field)	描述与作用
`id`	镜头唯一编号。例如 `S1`, `S2`。用于标识和串联。
`duration`	镜头预计时长（秒）。用于控制叙事节奏。
`scene`	场景描述。引用资产库中的场景，并补充当前镜头特有的环境细节。
`intent`	镜头意图。说明该镜头在叙事中的功能，如“建立角色性格”、“制造笑点”。
`description`	综合画面描述。用自然语言简要概括整个镜头的内容。
`camera`	摄影机参数。一个包含对镜头语言精确控制的嵌套结构。
`action`	主体与动作。描述角色或物体的具体行为、表情变化、交互细节。
`dialogue`	对白。一个包含说话人、台词、情绪、语速的结构化列表。
`audio_notes`	音频备注。当前镜头特定的环境音或音效需求。
`vfx_notes`	视觉效果备注。需要特殊处理的视觉效果，如粒子、光效等。
`transition_out`	转场方式。定义该镜头如何过渡到下一个镜头，如 `Cut`, `Fade`。

A.4.2 摄影机参数 (`camera`) 深度解析

子字段 (Sub-field)	数据类型	描述	可选值/示例
`shot_type`	String	景别。决定主体在画面中的大小。	`"ELS"` (大远景), `"LS"` (远景), `"MS"` (中景), `"MCU"` (中近景), `"CU"` (近景), `"ECU"` (特写)
`angle`	String	机位角度。	`"Eye-level"` (平视), `"High-angle"` (俯视), `"Low-angle"` (仰视), `"Dutch-angle"` (斜角)
`movement`	String	镜头运动。	`"Static"` (固定), `"Pan"` (摇), `"Tilt"` (俯仰), `"Dolly"` (推拉), `"Track"` (跟拍), `"Crane"` (升降)
`lens`	String	镜头焦段。影响景深和透视。	`"Wide"` (广角), `"Standard"` (标准), `"Telephoto"` (长焦)
`focus`	String	焦点控制。	`"Deep focus"` (深景深), `"Shallow focus"` (浅景深), `"Rack focus"` (焦点转移)
`framing`	String	构图。	`"Center-framed"` (居中构图), `"Rule of thirds"` (三分法构图), `"Over-the-shoulder"` (过肩镜头)

📢💻 【省心锐评】

抛弃“咏唱”，拥抱“架构”。将AI视频创作从玄学变为工程，是其走向工业化生产的唯一通路。这套框架，就是通往稳定、可控叙事的脚手架。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

读懂核函数：`__global__`与`kernel_name`的深入解读

起初我以为这只是一句口号，直到我因为一个函数名的拼写错误调试了一下午后，我才明白，这两个看似简单的语法，其实是连接Host与Device世界的“规则契约”。从此，你不再是模糊地复制粘贴代码，而是清楚地知道，你写的每一行指令，将如何跨越架构的鸿沟，在专用的处理器上绽放出算力的光芒。在绝大多数情况下，它们都是成对出现的。当我们的应用程序运行时，核函数的代码并不是以源代码的形式存在的。当编译器看到这个关

2048 AI社区

Linux RAID

定义：独立磁盘冗余阵列（Redundant Array of Independent Disks），将多块磁盘组合为逻辑阵列，提升性能或提供数据冗余。实现方式软 RAID：通过mdadm工具 + 操作系统实现，无硬件成本，占用少量 CPU 资源（文档重点）；硬 RAID：依赖专用 RAID 卡，性能强但成本高；混合 RAID：介于软 / 硬之间，平衡性能与成本。