在 AIGC 视频(如 Sora, Runway, Pika, Kling 等)领域,“费片率”(Wasted Footage Rate)是最大的痛点。

针对 视频 CG 生成,原本的通用文本“五维量规”需要进行深度的领域化改造。我们不再关注“回答是否礼貌”,而是关注**“画面是否可生成”以及“是否会崩坏”**。

以下是专为 “视频生成脚本预审” 设计的全新五维量规及实战 Prompt。


一、 视频生成专用:五维评分量规 (Video Generation Rubric)

我们需要将通用的标准映射为视频生成的硬指标:

维度 新定义:视频生成视角 评分核心关注点(低分=必出废片)
1. 可视化性 (Visualizability) 文本转图像的确定性。脚本里是具体的“名词/动词”,还是抽象的“形容词/情感”? 低分特征:大量使用“宏大的历史感”、“悲伤的气氛”、“一种哲学的意味”。AI 无法直接画出“哲学”,这会导致画面随机堆砌,变成废片。
2. 物理与时空逻辑 (Physical Logic) 物体变形与运动规律。是否存在 AI 难以理解的复杂交互或物理冲突? 低分特征:复杂的肢体接触(如“十指紧扣”易粘连)、反物理运动(如“眼泪倒流回眼睛的同时人向前走”)、多主体混战。
3. 镜头语言明确度 (Camera Control) 视角的稳定性。是否指定了相机如何运动?是否存在冲突的运镜指令? 低分特征:运镜指令缺失(导致画面死板)或冲突(如“同时推镜头并向左摇并在空中旋转”),这会让 AI 晕头转向,画面撕裂。
4. 主体一致性 (Subject Consistency) 主角的特征描述。在视频持续时间内,主角特征是否容易突变? 低分特征:描述过于宽泛(如“一个帅哥” vs “一个穿着赛博朋克风衣、银色短发的20岁亚洲男性”)。描述越少,视频后半段脸崩或换装的概率越大。
5. 安全与合规性 (Safety & Policy) 平台审核通过率。是否包含 NSFW、暴力或特定平台(如抖音/Youtube)的敏感词? 低分特征:包含血腥、裸露擦边、政治敏感词。这会导致生成任务直接被拦截,浪费时间或账号权重。

二、 实战案例分析

让我们用这个新标准来审视一个用户的脚本。

❌ 案例 A:必定产生“废片”的脚本

用户输入
“展现出一种绝望中带着希望的感觉,镜头很疯狂地旋转,无数的人在跑,背景是未来的城市,然后突然变成了一朵花。”

LLM 裁判分析报告:

  • 可视化性 (1分):“绝望中带着希望”是抽象概念,AI 无法渲染。
  • 物理逻辑 (1分):“突然变成了一朵花”属于极其剧烈的主体突变,目前的视频模型很难平滑处理,容易生成恐怖谷效果。
  • 镜头语言 (2分):“疯狂地旋转”极易导致画面模糊晕眩,甚至引起观众不适。
  • 主体一致性 (1分):“无数的人”对于 AI 是灾难,面部和四肢大概率会全部扭曲熔化。
  • 结论高危废片。
✅ 案例 B:高质量 CG 脚本

用户输入
“赛博朋克风格街道,夜景,霓虹灯雨。中景镜头,锁定一名身穿黑色风衣的机器女性,她正从左向右行走。她的右眼是发光的红色机械眼。摄像机保持水平平移跟随(Truck Shot)。高分辨率,虚幻引擎5渲染风格。”

LLM 裁判分析报告:

  • 可视化性 (5分):全是具体的视觉名词(街道、雨、风衣、机械眼)。
  • 物理逻辑 (5分):简单的行走动作,单一主体,物理规律简单。
  • 镜头语言 (5分):明确指定了“Truck Shot”(平移跟随),AI 知道怎么动。
  • 主体一致性 (5分):特征描述极其具体(右眼红色机械眼),能锁住特征。
  • 结论有效成片。

三、 视频脚本预审 Prompt 模板 (JSON版)

您可以将此 Prompt 嵌入您的后端,当用户输入脚本时,先跑一遍这个,如果分数低,拒绝生成并提示用户修改,从而节省算力成本。

# Role
你是一名资深的 AI 视频生成专家(Prompt Engineer for Video Generation)。你的任务是预审用户的脚本,判断其是否能生成高质量的 CG 视频,从而避免产生“废片”。

# Evaluation Rubric (视频生成五维量规)
请对用户脚本进行风险评估(1-5分,5分为最安全/最佳):

1. **可视化程度 (Visualizability)**:
   - 描述的是具体的视觉元素(物体、颜色、光影)还是抽象概念?
   - 抽象概念越多,分数越低。

2. **物理/动作合理性 (Physics & Action)**:
   - 动作是否简单清晰?是否存在复杂的肢体交互(如吃面、接吻、打架)?
   - 是否包含难以实现的变形?复杂交互分数越低。

3. **镜头语言明确性 (Camera Control)**:
   - 是否指定了运镜方式(推、拉、摇、移)?
   - 运镜指令是否冲突?无运镜或冲突运镜分数低。

4. **画面复杂度控制 (Scene Complexity)**:
   - 画面元素是否过多?是否有“人山人海”等难以处理的群体描述?
   - 元素过多导致 AI 算力分散,细节崩坏风险高。

5. **风格与画质指令 (Style & Quality)**:
   - 是否指定了渲染风格(如 3D render, Cinematic, Anime)?
   - 风格缺失可能导致画面质感随机。

# Task
1. 分析用户输入的脚本。
2. 预测生成结果可能出现的**具体的崩坏现象**(Glitch Prediction)。
3. 给出评分和修改建议。

# Input Script
{user_script}

# Output Format (JSON Only)
{
  "scores": {
    "visualizability": <1-5>,
    "physics_action": <1-5>,
    "camera_control": <1-5>,
    "scene_complexity": <1-5>,
    "style_quality": <1-5>
  },
  "risk_assessment": {
    "is_waste_risk": <true/false>,  // 如果平均分低于3.5,或任意单项低于2,则为 true
    "predicted_glitches": ["例如:手部细节可能崩坏", "例如:运镜可能导致画面晕眩", "例如:抽象概念无法准确渲染"]
  },
  "refinement_suggestion": "<如果不合格,请给出一个优化后的、可直接用于生成的英文 Prompt>",
  "reason": "<简短的中文点评>"
}

四、 这个 Prompt 的“防废片”机制原理

  1. 拦截抽象词:如果检测到“温馨的感觉”,Prompt 会建议改为“暖色调灯光,壁炉,一家人微笑”。
  2. 拦截复杂肢体:如果检测到“双手编织毛衣”,系统会警告“手部崩坏风险高”,建议改为“毛衣的特写”或“中景展示上半身不动”。
  3. 强制运镜:如果用户没写运镜,LLM 可以自动在 refinement_suggestion 里补上 Static cameraSlow zoom in,保证视频稳定性。
建议

如果您正在开发这个系统,建议做两个功能:

  1. 红绿灯机制
  • 🟢 绿灯:直接调用视频生成 API。
  • 🔴 红灯:前端弹窗提示用户:“您的脚本包含‘抽象情感’描述,AI 可能画不出来,建议使用下方的优化版脚本。”
  1. 自动优化 (Auto-Refine):直接展示 JSON 中的 refinement_suggestion 给用户,让用户一键替换。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐