我们要把每一个创作决策拆解到可以直接执行的操作指令级别。

一、选题的第0天:用200元测试一个题材是否成立

1.1 测试前的准备清单(30分钟)

步骤1:写出故事的三句话版本

  • 第一句:主角是谁+初始状态(15字以内)
  • 第二句:遭遇什么冲突+获得什么能力(20字以内)
  • 第三句:用能力达成什么目标(15字以内)

错误示例:“一个少年在家族被欺负,后来变强了,打败所有人”

  • 问题:信息模糊,无法指导后续创作

正确示例:“废柴少爷林枫/家族大会被退婚/觉醒吞噬系统吞噬敌人修为/三个月内踩爆退婚者”

  • 为什么正确:有具体名字、具体场景、具体能力机制、具体时间目标

步骤2:画出情绪曲线图(15分钟)

拿一张A4纸,横轴是时间(按集数),纵轴是情绪强度(1-10分)

第1集的情绪设计:

  • 0-30秒:情绪值3分(日常场景,被欺负)
  • 30秒-1分钟:情绪值跌到1分(被退婚,全场嘲笑)
  • 1分钟-1分30秒:情绪值拉到7分(系统觉醒,金光特效)
  • 1分30秒-2分钟:情绪值冲到9分(当场吞噬一个嘲笑者的修为)

关键指标:

  • 情绪低谷不能超过40秒(用户会流失)
  • 第一个高潮必须在90秒内出现
  • 每集至少3个情绪波峰,波峰间隔不超过45秒

步骤3:列出必需场景清单(15分钟)

第1集需要的场景:

  1. 家族大厅(主场景,会反复使用)
  2. 林枫的破旧小院(对比场景)
  3. 系统空间(特效场景,纯黑背景+发光界面)

每个场景写明:

  • 时代背景:古代/现代/未来
  • 建筑风格:中式/欧式/赛博朋克
  • 色调:暖色/冷色/对比色
  • 光源:自然光/人工光/魔法光
  • 参考图:找3张风格接近的图片

家族大厅的详细描述:

时代:古代修仙世界
风格:中式宫殿,红木立柱,青石地板
色调:暗红色为主(压抑感),金色点缀(权力象征)
光源:顶部天窗自然光+两侧灯笼暖光
空间:纵深15米,宽10米,高8米
陈设:正中高台3个座位,两侧各5排座位
参考:故宫太和殿内景+《庆余年》鉴查院大厅+某游戏CG截图

为什么要这么细?因为后面AI生成场景时,这些描述会直接转化成提示词。

1.2 第一次生成测试(2小时)

测试目标:验证3个核心要素能否被AI准确生成

要素1:主角形象的稳定性

生成主角林枫的10个不同角度:

  • 正面平视
  • 45度侧面
  • 背面
  • 仰视(从下往上看)
  • 俯视(从上往下看)
  • 左侧面
  • 右侧面
  • 3/4侧面(左)
  • 3/4侧面(右)
  • 远景全身

判断标准:

  • 面部特征一致性:眼睛形状、鼻梁高度、嘴唇厚度误差不超过5%
  • 发型一致性:发际线位置、头发长度、刘海走向完全一致
  • 体型一致性:肩宽、身高比例、体态特征一致
  • 服装一致性:衣服款式、颜色、破损位置一致

测试方法:
把10张图并排放在一起,遮住其他部分只看眼睛,如果你能一眼认出"这是同一个人",就通过。

常见问题及解决:

问题1:正面和侧面像两个人

  • 原因:AI对角色的3D理解不足
  • 解决:先生成正面标准照,然后每次生成都引用这张图作为参考
  • 具体操作:在提示词里加入"与参考图同一人物,仅改变角度"

问题2:远景时面部细节丢失

  • 原因:分辨率不够
  • 解决:远景镜头不展示面部细节,用体态和服装特征识别
  • 具体操作:设计一个标志性服装元素(比如左肩有个破洞),远景时靠这个识别

问题3:不同情绪表情时五官变形

  • 原因:AI把表情和五官结构混淆
  • 解决:分开生成,先生成标准脸,再用工具调整表情
  • 具体操作:建立表情库,愤怒、惊讶、得意、绝望各生成5个版本备用

要素2:关键场景的氛围营造

生成家族大厅场景的5个版本:

  • 版本1:白天,阳光从天窗洒下
  • 版本2:傍晚,昏黄光线
  • 版本3:夜晚,灯笼照明
  • 版本4:阴天,压抑氛围
  • 版本5:雨天,窗外雨声

判断标准:

  • 建筑结构一致性:柱子数量、位置、粗细完全一致
  • 空间比例一致性:纵深感、透视关系一致
  • 可识别度:用户看到任何一个版本都能认出"这是家族大厅"

测试方法:
把5张图的建筑轮廓描出来,叠加在一起,误差不超过10%就通过。

常见问题及解决:

问题1:每次生成的柱子数量不一样

  • 原因:AI对数量概念模糊
  • 解决:在提示词里精确描述"左侧3根红木立柱,右侧3根红木立柱,正中高台后2根"
  • 验证:生成后数柱子,不对就重新生成

问题2:透视关系混乱,近处的人比远处的柱子还大

  • 原因:AI空间理解错误
  • 解决:分层生成,背景、中景、前景分开做,后期合成
  • 具体操作:先生成纯场景(无人物),再把人物抠图放进去,手动调整比例

问题3:光影不统一,左边是白天右边是黑夜

  • 原因:AI对全局光照理解不足
  • 解决:在提示词里明确光源方向"顶部天窗自然光从右上方45度角射入"
  • 验证:检查所有物体的阴影方向是否一致

要素3:特效场景的视觉冲击力

生成"系统觉醒"场景的3个版本:

  • 版本1:金色光柱从天而降,笼罩主角
  • 版本2:主角身体发光,周围出现古文字环绕
  • 版本3:主角眼睛变成金色,身后浮现虚影

判断标准:

  • 视觉冲击力:截图发给10个人,8个以上说"很炫"就通过
  • 可识别度:用户看到这个特效就知道"主角开挂了"
  • 可复用性:后续每次系统出现都用类似特效,形成记忆点

测试方法:
把特效场景做成3秒短视频,发到测试群,统计"哇"“牛逼”"这什么"等惊叹词出现频率。

常见问题及解决:

问题1:特效太花哨,看不清主角

  • 原因:特效抢了主体
  • 解决:特效只占画面30%面积,主角必须清晰可见
  • 具体操作:先生成主角,再叠加特效层,特效透明度控制在60-70%

问题2:特效看起来很廉价,像PPT动画

  • 原因:运动轨迹太规则
  • 解决:加入随机性和细节,比如光粒子大小不一,运动速度有快有慢
  • 具体操作:用粒子系统生成,而不是简单的光晕滤镜

问题3:特效和场景风格不搭,修仙世界出现了科技感光效

  • 原因:特效素材库选错
  • 解决:建立分类特效库,修仙用古风符文+金色光,科幻用蓝色数据流,魔法用紫色能量
  • 具体操作:每个题材提前准备20个特效预设

1.3 第一次分镜测试(4小时)

测试目标:用最少的镜头讲清楚一场戏

选开场第一场戏:林枫被退婚,时长2分钟。

第一步:写出戏剧节拍(30分钟)

这场戏要传递的信息:

  1. 林枫是废柴(用户需要知道起点低)
  2. 未婚妻当众退婚(制造羞辱感)
  3. 全场嘲笑(强化压迫感)
  4. 林枫隐忍(为后续爆发蓄力)

把2分钟拆成8个15秒段落:

0-15秒:建立场景

  • 信息量:这是一个家族大会,很多人,很正式
  • 情绪基调:压抑
  • 必须出现的元素:大厅全景、人群、高台上的长老

15-30秒:引出主角

  • 信息量:林枫站在中央,穿着破旧,和周围人格格不入
  • 情绪基调:不安
  • 必须出现的元素:林枫特写、破旧衣服细节、周围人的鄙夷眼神

30-45秒:冲突出现

  • 信息量:一个美丽女子站起来,是未婚妻
  • 情绪基调:紧张
  • 必须出现的元素:女子站起的动作、周围人的窃窃私语、林枫的疑惑表情

45-60秒:冲突升级

  • 信息量:女子说出"我要退婚"
  • 情绪基调:震惊
  • 必须出现的元素:女子的冷漠脸、"退婚"二字的特写、林枫的震惊表情

60-75秒:冲突高潮

  • 信息量:女子说出羞辱的话"你不配"
  • 情绪基调:愤怒+屈辱
  • 必须出现的元素:女子的鄙视眼神、林枫攥紧的拳头、周围人的哄笑

75-90秒:情绪低谷

  • 信息量:全场哄笑,林枫低头
  • 情绪基调:绝望
  • 必须出现的元素:林枫低头的背影、周围人夸张的笑脸、空旷的大厅(孤独感)

90-105秒:转折前兆

  • 信息量:林枫抬头,眼神变了
  • 情绪基调:压抑的愤怒
  • 必须出现的元素:林枫眼睛特写、眼中的血丝、微微颤抖的身体

105-120秒:转折爆发

  • 信息量:系统觉醒,金光乍现
  • 情绪基调:震撼
  • 必须出现的元素:金色光柱、系统界面、所有人震惊的表情

第二步:把每个段落拆成镜头(2小时)

以"0-15秒:建立场景"为例,拆成4个镜头:

镜头1(3秒):大厅全景

  • 景别:远景
  • 机位:平视,略微仰角5度(营造庄严感)
  • 画面构成:
    • 前景:空无一物(留白,营造纵深)
    • 中景:100个家族成员分两侧坐,中间留出通道
    • 后景:高台上3个长老
  • 人物占比:每个人物不超过画面2%
  • 色调:暗红色为主,金色点缀
  • 光线:顶部天窗自然光,形成明暗对比
  • 运镜:缓慢推进,从门口视角向高台推进
  • 音效:低沉的鼓声+窃窃私语的人声
  • 字幕:无

手绘分镜要求:
用铅笔在A4纸上画出:

  • 画面比例:16:9的框
  • 透视线:标出消失点(在高台位置)
  • 人物位置:用火柴人标出100个人的大致位置
  • 光源方向:用箭头标出顶部光源
  • 运镜轨迹:用虚线箭头标出推进方向
  • 标注:写明"3秒"“远景”“推进”

AI生成提示词(逐字稿):

场景:中式古代宫殿大厅内景,红木立柱,青石地板,顶部有天窗
视角:从大厅正门向内看,平视角度略微仰5度
构图:中心对称构图,中间通道,两侧各50人坐在长凳上,背景高台上3个长老
光线:顶部天窗自然光从上方照下,形成明暗对比,大厅整体偏暗
色调:暗红色主调,金色点缀,低饱和度
氛围:庄严压抑
画质:电影级,高清,细节丰富
风格:写实主义,参考《庆余年》《琅琊榜》美术风格
镜头:远景,16:9,缓慢推进运镜

生成后检查清单:

  • 透视关系正确,近大远小
  • 人物数量大致正确(误差±10人可接受)
  • 色调符合预期
  • 光影方向一致
  • 建筑细节清晰(柱子、地板纹理)
  • 没有明显穿帮(比如现代物品)
  • 氛围到位(看起来压抑庄严)

如果不通过,调整策略:

  • 透视错误:在提示词里加入"单点透视,消失点在画面中心偏上"
  • 人物数量不对:改为"两侧各5排长凳,每排10人"
  • 色调不对:加入色卡参考"#8B0000(暗红)为主色,#FFD700(金色)为点缀"
  • 光影混乱:明确"单一光源,从正上方照射,形成向下的阴影"

镜头2(4秒):人群特写

  • 景别:中景
  • 机位:侧面45度角,平视
  • 画面构成:
    • 前景:3个家族成员的侧脸(占画面左侧1/3)
    • 中景:中间通道(空的,为后续主角出现做准备)
    • 后景:对面的家族成员(虚化)
  • 人物占比:前景3人共占画面40%
  • 表情:冷漠、鄙夷、不耐烦
  • 运镜:固定镜头,无运动
  • 音效:窃窃私语变大声,能听清"废柴""丢人"等词
  • 字幕:无

手绘分镜要求:

  • 画出3个人的头部轮廓(不需要细节,圆圈+五官位置即可)
  • 标出视线方向(都看向中间通道)
  • 标出景深范围(前景清晰,后景模糊)
  • 标注表情关键词"冷漠"“鄙夷”

AI生成提示词:

场景:同上大厅内景
视角:侧面45度角,平视
构图:三分法构图,左侧1/3是3个家族成员侧脸,中间1/3是空通道,右侧1/3是虚化背景
人物:3个中年男子,穿深色长袍,表情冷漠鄙夷,眼神看向画面右侧
景深:浅景深,前景清晰,后景虚化
光线:侧面光,勾勒人物轮廓
色调:同上
画质:电影级,面部细节清晰
镜头:中景,固定

生成后检查清单:

  • 3个人的面部清晰
  • 表情到位(眉毛微皱,嘴角下撇)
  • 视线方向一致(都看向右侧)
  • 景深效果明显
  • 服装风格统一
  • 没有面部崩坏

镜头3(4秒):长老特写

  • 景别:近景
  • 机位:仰视15度角(营造权威感)
  • 画面构成:
    • 主体:中间长老的上半身(占画面60%)
    • 陪体:两侧长老的肩膀(各占15%)
    • 背景:高台背景(虚化)
  • 表情:威严、不怒自威
  • 道具:中间长老手里拿着一个卷轴
  • 运镜:缓慢推进到长老脸部
  • 音效:鼓声停止,安静
  • 字幕:无

手绘分镜要求:

  • 画出3个人的位置关系(中间一个大,两侧两个小)
  • 标出仰视角度(用角度线标注15度)
  • 标出卷轴的位置(中间长老手里)
  • 标注"威严"“推进”

AI生成提示词:

场景:高台上
视角:从下往上仰视15度
构图:中心构图,中间长老占主体,两侧长老各占1/5
人物:中间长老60岁左右,白须,穿金边长袍,表情威严,手持卷轴;两侧长老只露出肩膀
表情:不怒自威,眉头微皱
光线:顶光,强化面部轮廓
色调:金色为主(权威感)
画质:电影级,面部细节极其清晰,皱纹、胡须清晰可见
镜头:近景,缓慢推进

生成后检查清单:

  • 仰视角度正确
  • 中间长老面部细节丰富(皱纹、胡须)
  • 表情到位(威严感)
  • 卷轴清晰可见
  • 金色调明显
  • 两侧长老不抢戏

镜头4(4秒):回到全景

  • 景别:全景
  • 机位:俯视30度角(上帝视角)
  • 画面构成:
    • 整个大厅的鸟瞰图
    • 中间通道空着
    • 所有人都看向通道
  • 运镜:无,静止
  • 音效:脚步声响起(预示主角要出场)
  • 字幕:无

手绘分镜要求:

  • 画出大厅的平面图
  • 标出俯视角度(30度)
  • 用箭头标出所有人的视线方向(都指向中间通道)
  • 标注"静止"“等待感”

AI生成提示词:

场景:同上大厅
视角:俯视30度,鸟瞰
构图:对称构图,中间通道,两侧人群
人物:所有人都看向中间通道,期待状
光线:顶光,中间通道有光斑(聚焦)
色调:整体暗,中间通道亮(引导视线)
氛围:安静,等待
画质:电影级
镜头:全景,静止

生成后检查清单:

  • 俯视角度正确
  • 对称构图
  • 中间通道有光斑(视觉引导)
  • 所有人视线方向一致
  • 氛围到位(安静等待)

第三步:制作动态分镜预览(1.5小时)

把4个镜头生成的静态图,导入视频编辑软件,按时长排列:

  • 镜头1:3秒
  • 镜头2:4秒
  • 镜头3:4秒
  • 镜头4:4秒
    总计15秒

加入:

  • 运镜效果(镜头1的推进,镜头3的推进)
  • 转场效果(镜头间用0.5秒淡入淡出)
  • 临时音效(从音效库找相似的)
  • 临时配乐(低沉压抑的BGM)

测试方法:
自己看10遍,每遍问自己:

  1. 我能看懂发生了什么吗?(信息传递)
  2. 我有情绪波动吗?(情绪调动)
  3. 我想继续看下去吗?(吸引力)
  4. 画面之间连贯吗?(流畅度)
  5. 有没有哪个镜头是多余的?(效率)

如果5个问题都是"是",这15秒通过。
如果有任何一个"否",找出问题镜头,重新设计。

常见问题及解决:

问题1:看完15秒不知道发生了什么

  • 原因:信息量不够或信息传递不清晰
  • 解决:增加字幕"林家家族大会"或者增加一个镜头展示门口的牌匾

问题2:看完没感觉,很平淡

  • 原因:情绪铺垫不够
  • 解决:加强音效(窃窃私语更明显)或调整色调(更压抑)

问题3:镜头2到镜头3跳跃感太强

  • 原因:视角变化太大
  • 解决:在中间加一个过渡镜头,或者调整镜头2的角度

问题4:镜头4感觉多余

  • 原因:信息重复
  • 解决:删掉镜头4,直接从镜头3切到下一个段落

1.4 成本核算(30分钟)

计算这15秒的实际成本:

时间成本:

  • 写节拍:30分钟
  • 设计分镜:2小时
  • 手绘分镜:1小时(4个镜头,每个15分钟)
  • AI生成测试:1.5小时(每个镜头生成3-5次,取最好的)
  • 动态预览制作:1.5小时
    总计:6.5小时

人力成本:

  • 编剧:30分钟
  • 分镜导演:3小时
  • AI动画师:1.5小时
  • 剪辑师:1.5小时

算力成本:

  • 每个镜头生成5次,共20次生成
  • 每次生成成本约2元(假设)
  • 总计:40元

15秒成本=40元
推算2分钟(120秒)成本=320元
推算一集(3分钟)成本=480元
推算100集成本=48000元

这个成本是否可接受?

  • 如果目标是精品剧,可接受
  • 如果目标是快速量产,需要优化流程

优化方向:

  1. 建立素材库,常用场景和角色提前生成,复用率提高50%
  2. 培训AI动画师,生成成功率从20%提升到60%,成本降低66%
  3. 使用批量生成工具,一次生成多个镜头,时间成本降低30%

优化后成本:

  • 素材复用:节省30%
  • 成功率提升:节省50%
  • 批量生成:节省20%
    综合节省:约70%

优化后一集成本=480×30%=144元
优化后100集成本=14400元

这个成本在可控范围内,可以进入下一阶段。

二、剧本阶段:把网文改造成适合AI漫剧的分镜脚本

2.1 网文和漫剧脚本的本质区别

网文的叙事特点:

  • 大量内心独白
  • 环境描写细腻
  • 时间跨度大
  • 支线剧情多

AI漫剧的叙事限制:

  • 内心独白需要外化(通过表情、动作、旁白)
  • 环境描写需要视觉化(一个镜头就要看懂)
  • 时间跨度需要压缩(每集3分钟,讲不了太长时间)
  • 支线剧情需要砍掉(主线都讲不完)

2.2 网文到漫剧的转化公式

原则1:一句话=一个画面

错误示例(网文原文):
“林枫站在大厅中央,感受到无数道鄙夷的目光,心中涌起一股悲凉,想起三年前父亲去世时的场景,眼眶微微湿润。”

这句话包含:

  • 空间信息:大厅中央
  • 感受:鄙夷的目光
  • 情绪:悲凉
  • 回忆:父亲去世
  • 表情:眼眶湿润

这些信息无法在一个镜头里呈现,需要拆解。

正确改写(分镜脚本):

镜头1(2秒):林枫站在大厅中央,低着头
镜头2(1秒):周围人鄙夷的眼神(快速切换3-4个人脸特写)
镜头3(2秒):林枫抬头,眼眶泛红
镜头4(3秒):闪回画面,父亲躺在病床上(黑白画面,1秒),父亲握着林枫的手(1秒),父亲闭眼(1秒)
镜头5(2秒):回到现实,林枫眼角一滴泪滑落

5个镜头,10秒,把原文的所有信息传递完毕。

原则2:内心独白=旁白or对话or表情

错误示例(网文原文):
“林枫心想:这些人当年巴结父亲的时候可不是这副嘴脸,现在父亲死了,一个个都露出真面目了。”

内心独白无法直接呈现,需要转化。

转化方案A:旁白

镜头:林枫看着周围人,面无表情
旁白(林枫的声音):"这些人,当年可不是这样的..."

优点:信息传递直接
缺点:旁白太多会显得廉价

转化方案B:对话外化

镜头:一个老者对旁边人说
老者:"唉,林家主死了,这孩子也就废了。"
旁边人:"当年咱们还得看林家主脸色,现在嘛..."(意味深长的笑)
镜头:林枫听到,拳头攥紧

优点:更有戏剧张力
缺点:需要增加角色和台词

转化方案C:纯表情呈现

镜头1:林枫看着一个老者
镜头2(闪回):同一个老者三年前对林枫父亲鞠躬的画面
镜头3:回到现实,老者转过头不看林枫
镜头4:林枫眼神变冷,嘴角冷笑

优点:最有电影感
缺点:需要更多镜头,时间成本高

根据剧情节奏选择方案:

  • 如果这段是快节奏推进,用方案A
  • 如果这段是情绪重点,用方案C
  • 如果需要引出新角色,用方案B

原则3:环境描写=建立镜头

错误示例(网文原文):
“林家大厅建于百年前,红木立柱历经风雨,青石地板被磨得光滑,墙上挂着历代家主的画像,正中高台是家主之位,两侧是长老席位,整个大厅透着一股森严的气息。”

这段描写有200字,但在漫剧里只需要一个5秒的镜头。

正确改写(分镜脚本):

镜头(5秒):
- 运镜:从门口缓慢推进到高台
- 画面:红木立柱、青石地板、墙上画像、高台、长老席位依次进入画面
- 字幕:林家大厅
- 音效:低沉的鼓声

一个镜头,5秒,把环境信息全部传递。

关键:

  • 不要试图用旁白念出环境描写
  • 让画面自己说话
  • 用运镜引导观众视线,依次看到重要元素

2.3 节奏控制的量化标准

每集3分钟=180秒,需要设计:

  • 3个情绪高潮(每60秒一个)
  • 6-8个情绪波动点(每20-30秒一个)
  • 1个悬念钩子(结尾,让用户想看下一集)

情绪高潮的设计公式:

高潮=冲突+反转+视觉奇观

举例:第1集的第一个高潮(60秒位置)

冲突:
林枫被退婚,全场嘲笑

反转:
系统觉醒,林枫获得吞噬能力

视觉奇观:
金色光柱从天而降,系统界面浮现,林枫眼睛变成金色

具体分镜(10秒):

镜头1(2秒):全场哄笑,林枫低头
镜头2(1秒):林枫拳头攥紧,指甲刺进肉里,血滴落
镜头3(2秒):血滴落在地上,地面出现金色纹路
镜头4(2秒):金色纹路蔓延,形成法阵
镜头5(1秒):法阵爆发,金色光柱冲天
镜头6(2秒):林枫被光柱笼罩,眼睛变成金色,系统界面浮现

10秒,完成冲突-反转-奇观的完整循环。

情绪波动点的设计公式:

波动点=小冲突or小惊喜or信息揭示

举例:第1集的6个波动点

0-30秒:波动点1

  • 内容:林枫出场,穿着破旧
  • 情绪:从平静到不安
  • 手法:对比(林枫破旧vs周围人华丽)

30-50秒:波动点2

  • 内容:未婚妻站起来
  • 情绪:从不安到紧张
  • 手法:悬念(她要干什么?)

50-70秒:波动点3

  • 内容:未婚妻说"退婚"
  • 情绪:从紧张到震惊
  • 手法:台词冲击

70-90秒:波动点4

  • 内容:未婚妻说"你不配"
  • 情绪:从震惊到屈辱
  • 手法:羞辱升级

90-110秒:波动点5

  • 内容:全场哄笑
  • 情绪:从屈辱到绝望
  • 手法:群体施压

110-130秒:波动点6

  • 内容:林枫抬头,眼神变了
  • 情绪:从绝望到愤怒
  • 手法:情绪转折

每个波动点间隔20秒左右,保持用户注意力。

悬念钩子的设计公式:

钩子=未完成的动作+疑问+视觉冲击

举例:第1集结尾(170-180秒)

镜头1(3秒):林枫看着系统界面,上面显示"吞噬目标"
镜头2(2秒):林枫视线移向刚才嘲笑他的一个人
镜头3(2秒):那个人还在笑,突然感觉不对,笑容僵住
镜头4(2秒):林枫嘴角上扬,伸出手
镜头5(1秒):黑屏,一声惨叫
字幕:第2集 吞噬

10秒,完成钩子设计:

  • 未完成的动作:林枫伸手,但没看到结果
  • 疑问:他要干什么?那个人会怎样?
  • 视觉冲击:黑屏+惨叫

用户必须看第2集才能知道答案。

2.4 台词的视觉化改造

原则:能用画面说的,不用台词

错误示例:

林枫:"我很生气!"

这是废话,用户看表情就知道。

正确改写:

林枫:(不说话,只是死死盯着对方,拳头攥得咯咯响)

错误示例:

长老:"林枫,你父亲三年前去世了,你现在是林家最弱的人,大家都看不起你。"

这是信息堆砌,不是人话。

正确改写:

长老:"林枫,你父亲去世三年了。"(停顿,看着林枫)
长老:"这三年,你可有寸进?"(质问的语气)
林枫:(低头,不说话)
长老:"废柴!"(一拍桌子)

把一句话拆成三句,配合动作和停顿,信息量一样,但更有戏剧张力。

台词的三个功能:

功能1:推进剧情
每句台词必须推动故事前进,不能闲聊。

错误示例:

甲:"今天天气不错。"
乙:"是啊,阳光明媚。"

这两句话没有推进剧情,删掉。

正确示例:

甲:"仪式开始了。"
乙:"林枫还没到。"
甲:"他不敢来了吧。"

三句话,建立了仪式、林枫缺席、可能逃跑三个信息,推进剧情。

功能2:塑造人物
每句台词要符合人物性格。

错误示例:

霸道长老:"林枫啊,你这样不行哦,要努力修炼哦。"

语气太温柔,不符合霸道人设。

正确示例:

霸道长老:"废物!三年了还是炼气一层,林家的脸都被你丢尽了!"

语气强硬,符合霸道人设。

功能3:制造冲突
台词要有锋芒,不能和和气气。

错误示例:

未婚妻:"林枫,我觉得我们不太合适,不如分开吧。"
林枫:"好的,我理解。"

没有冲突,没有戏。

正确示例:

未婚妻:"林枫,我要退婚。"
林枫:"为什么?"
未婚妻:"因为你不配。"(冷笑)
林枫:(攥紧拳头,咬牙)"你再说一遍?"
未婚妻:"你不配!听清楚了吗?"

每句话都在升级冲突,有戏剧张力。

2.5 一集完整脚本的标准格式

第1集脚本示例(3分钟=180秒)

【第一幕:建立世界观】(0-30秒)

场景1:林家大厅外景

镜头1(3秒):
- 景别:远景
- 内容:林家府邸全景,古色古香
- 字幕:林家,修仙世家,传承三百年
- 音效:悠扬的古琴声

镜头2(2秒):
- 景别:中景
- 内容:大门紧闭,门口两个守卫
- 运镜:推进到大门
- 音效:古琴声渐弱,鼓声渐起

场景2:林家大厅内景

镜头3(5秒):
- 景别:远景
- 内容:大厅全景,100人分两侧坐,中间通道空着
- 运镜:从门口推进到高台
- 音效:低沉鼓声+窃窃私语
- 字幕:林家家族大会

镜头4(4秒):
- 景别:中景
- 内容:三个家族成员侧脸,表情冷漠
- 台词:
  甲:"今天是林枫的成年礼。"
  乙:"三年了,还是炼气一层。"
  丙:"废柴。"
- 音效:窃窃私语

镜头5(4秒):
- 景别:近景
- 内容:高台上三个长老,中间长老手持卷轴
- 运镜:仰视,推进到长老脸部
- 音效:鼓声停止,安静

镜头6(4秒):
- 景别:全景
- 内容:大厅鸟瞰,所有人看向中间通道
- 音效:脚步声响起

镜头7(4秒):
- 景别:中景
- 内容:林枫从门口走进来,穿着破旧长袍,低着头
- 运镜:跟随林枫走
- 音效:脚步声+窃窃私语变大
- 台词(画外音):
  "是林枫。"
  "穿成这样,丢人。"
  "林家主泉下有知,得多伤心。"

镜头8(4秒):
- 景别:特写
- 内容:林枫的脸,年轻但憔悴,眼神躲闪
- 音效:心跳声(咚咚咚)

第一幕总结:

  • 时长:30秒
  • 镜头数:8个
  • 信息量:世界观(修仙世家)、主角(林枫,废柴)、场景(家族大会)
  • 情绪:压抑,不安
  • 钩子:林枫出场,接下来会发生什么?

【第二幕:冲突建立】(30-90秒)

场景3:退婚

镜头9(3秒):
- 景别:中景
- 内容:林枫走到中央,停下,抬头看向高台
- 音效:脚步声停止,安静

镜头10(3秒):
- 景别:近景
- 内容:中间长老打开卷轴
- 台词:
  长老:"林枫,今日是你十八岁成年礼。"
- 音效:卷轴展开的声音

镜头11(2秒):
- 景别:特写
- 内容:林枫点头
- 台词:
  林枫:"是,长老。"(声音很小)

镜头12(3秒):
- 景别:中景
- 内容:人群中,一个美丽女子站起来
- 运镜:从林枫视角看过去,焦点从林枫转到女子
- 音效:衣服摩擦声+窃窃私语变大

镜头13(2秒):
- 景别:特写
- 内容:林枫表情疑惑
- 台词:
  林枫(心里):"雪儿?"

镜头14(3秒):
- 景别:近景
- 内容:女子(雪儿)走出来,站在通道里,和林枫相距5米
- 运镜:侧面拍,两人在画面两端
- 音效:脚步声+安静(所有人都在看)

镜头15(2秒):
- 景别:特写
- 内容:雪儿的脸,冷漠,没有表情
- 音效:心跳声(咚咚咚,更快)

镜头16(3秒):
- 景别:中景
- 内容:雪儿对着高台行礼
- 台词:
  雪儿:"长老,我有话说。"
- 音效:窃窃私语更大

镜头17(2秒):
- 景别:近景
- 内容:长老点头
- 台词:
  长老:"讲。"

镜头18(3秒):
- 景别:近景
- 内容:雪儿转身看向林枫
- 台词:
  雪儿:"我要退婚。"
- 音效:一声惊雷(音效)

镜头19(2秒):
- 景别:特写
- 内容:林枫瞳孔放大,震惊
- 音效:耳鸣声(嗡——)

镜头20(3秒):
- 景别:全景
- 内容:大厅所有人哗然,议论纷纷
- 音效:嘈杂的议论声
- 台词(多人画外音):
  "退婚?"
  "林枫被退婚了!"
  "哈哈哈!"

镜头21(3秒):
- 景别:近景
- 内容:林枫回过神,声音颤抖
- 台词:
  林枫:"为...为什么?"
- 音效:声音颤抖

镜头22(3秒):
- 景别:近景
- 内容:雪儿冷笑
- 台词:
  雪儿:"因为你不配。"
- 音效:冷笑声

镜头23(2秒):
- 景别:特写
- 内容:林枫拳头攥紧,指甲刺进肉里
- 音效:肉体撕裂声(细微)

镜头24(3秒):
- 景别:中景
- 内容:雪儿转身走回座位
- 台词:
  雪儿:"三年前,你父亲死了,你就是个废物。我等了三年,够了。"
- 音效:脚步声+哄笑声

镜头25(3秒):
- 景别:全景
- 内容:大厅所有人大笑
- 音效:哄笑声(很大)
- 台词(多人画外音):
  "废物!"
  "活该!"
  "林家的耻辱!"

镜头26(4秒):
- 景别:近景
- 内容:林枫低头,肩膀颤抖
- 音效:哄笑声+心跳声(咚咚咚)

第二幕总结:

  • 时长:60秒
  • 镜头数:18个
  • 信息量:冲突(被退婚)、羞辱(你不配)、群体施压(全场嘲笑)
  • 情绪:从疑惑到震惊到屈辱到绝望
  • 钩子:林枫会怎么反应?

【第三幕:反转爆发】(90-180秒)

场景4:系统觉醒

镜头27(3秒):
- 景别:特写
- 内容:林枫的拳头,血滴落
- 音效:血滴声(滴答)

镜头28(2秒):
- 景别:特写
- 内容:血滴落在地上
- 音效:血滴声(滴答)

镜头29(3秒):
- 景别:特写
- 内容:地面上,血形成金色纹路
- 音效:嗡鸣声(低频)

镜头30(2秒):
- 景别:近景
- 内容:林枫抬头,眼神变了,不再躲闪
- 音效:嗡鸣声变大

镜头31(3秒):
- 景别:中景
- 内容:金色纹路蔓延,形成法阵
- 运镜:从地面拉到全景
- 音效:嗡鸣声+能量聚集声

镜头32(2秒):
- 景别:全景
- 内容:法阵爆发,金色光柱冲天
- 音效:爆发声(轰!)

镜头33(2秒):
- 景别:中景
- 内容:所有人震惊,停止嘲笑
- 音效:安静

镜头34(3秒):
- 景别:近景
- 内容:林枫被光柱笼罩,眼睛变成金色
- 运镜:旋转镜头,围绕林枫
- 音效:能量涌动声

镜头35(3秒):
- 景别:特写
- 内容:林枫眼前浮现系统界面
- 界面内容:
  【吞噬系统已激活】
  【宿主:林枫】
  【等级:1】
  【能力:吞噬】
- 音效:电子音(系统激活)

镜头36(2秒):
- 景别:特写
- 内容:林枫眼睛,金色光芒闪烁
- 音效:心跳声(咚!很重)

镜头37(3秒):
- 景别:近景
- 内容:长老站起来,震惊
- 台词:
  长老:"这...这是什么力量?"
- 音效:颤抖的声音

镜头38(3秒):
- 景别:全景
- 内容:金色光柱消失,林枫站在原地,气质完全不同
- 运镜:从上往下俯视
- 音效:能量消散声

镜头39(2秒):
- 景别:近景
- 内容:雪儿震惊,不可置信
- 台词:
  雪儿:"怎么可能..."
- 音效:颤抖的声音

镜头40(3秒):
- 景别:中景
- 内容:林枫抬头,看向雪儿,嘴角上扬
- 台词:
  林枫:"不配?"(冷笑)
- 音效:冷笑声

镜头41(3秒):
- 景别:近景
- 内容:系统界面再次浮现
- 界面内容:
  【检测到可吞噬目标】
  【目标:王虎(炼气三层)】
  【是否吞噬?】
- 音效:电子音

镜头42(2秒):
- 景别:中景
- 内容:林枫视线移向刚才嘲笑最凶的一个壮汉(王虎)
- 运镜:视线跟随
- 音效:锁定声(滴)

镜头43(2秒):
- 景别:近景
- 内容:王虎还在笑,突然感觉不对,笑容僵住
- 音效:笑声停止

镜头44(3秒):
- 景别:中景
- 内容:林枫伸出手,对准王虎
- 台词:
  林枫:"你,过来。"
- 音效:低沉的声音

镜头45(2秒):
- 景别:近景
- 内容:王虎惊恐,想跑,但身体不受控制
- 台词:
  王虎:"不!不要!"
- 音效:惊恐的叫声

镜头46(3秒):
- 景别:全景
- 内容:王虎被一股力量拉向林枫,在空中挣扎
- 运镜:跟随王虎移动
- 音效:能量拉扯声+惨叫声

镜头47(2秒):
- 景别:特写
- 内容:林枫的手,金色光芒涌动
- 音效:能量聚集声

镜头48(1秒):
- 景别:特写
- 内容:林枫的眼睛,金色光芒更盛
- 音效:能量爆发声

镜头49(2秒):
- 景别:全景
- 内容:黑屏,一声惨叫
- 音效:惨叫声(啊——!)

镜头50(3秒):
- 景别:全景
- 内容:画面恢复,王虎倒在地上,生死不明,林枫站在原地
- 音效:安静,只有呼吸声

镜头51(2秒):
- 景别:特写
- 内容:系统界面
- 界面内容:
  【吞噬成功】
  【获得修为:炼气三层】
  【当前等级:炼气三层】
- 音效:电子音(成功提示音)

镜头52(3秒):
- 景别:近景
- 内容:林枫感受力量,握拳,金色光芒闪烁
- 台词:
  林枫:"这就是...力量。"(低语)
- 音效:能量涌动声

镜头53(3秒):
- 景别:全景
- 内容:大厅所有人惊恐,鸦雀无声
- 音效:安静

镜头54(3秒):
- 景别:近景
- 内容:林枫转身看向雪儿
- 台词:
  林枫:"你刚才说,我不配?"(冷笑)
- 音效:冷笑声

镜头55(2秒):
- 景别:特写
- 内容:雪儿惊恐,后退
- 音效:脚步声(后退)

镜头56(2秒):
- 景别:特写
- 内容:林枫嘴角上扬
- 音效:冷笑声

镜头57(1秒):
- 景别:黑屏
- 字幕:第2集 吞噬
- 音效:能量爆发声

第三幕总结:

  • 时长:90秒
  • 镜头数:31个
  • 信息量:反转(系统觉醒)、能力展示(吞噬)、爽点(踩回去)
  • 情绪:从绝望到震撼到爽
  • 钩子:林枫会对雪儿做什么?

【全集总结】

  • 总时长:180秒(3分钟)
  • 总镜头数:57个
  • 平均每个镜头:3.2秒
  • 情绪曲线:压抑(0-30秒)→屈辱(30-90秒)→爽(90-180秒)
  • 信息密度:每10秒一个信息点
  • 爽点密度:每30秒一个小爽点,60秒一个大爽点

三、分镜阶段:把脚本转化成可执行的视觉指令

3.1 手绘分镜的标准流程

很多人以为AI时代不需要手绘分镜,这是最大的误区。手绘分镜是导演和AI之间的翻译器。

工具准备:

  • A4纸(每页画4个分镜格子)
  • 铅笔(方便修改)
  • 橡皮
  • 尺子(画分镜框)
  • 参考图(角色、场景、运镜参考)

单个分镜的标准格式:

┌─────────────────────────────────┐
│  镜号:01        时长:3秒         │
│  景别:远景      机位:平视         │
├─────────────────────────────────┤
│                                 │
│      [这里画分镜草图]             │
│                                 │
│                                 │
│                                 │
├─────────────────────────────────┤
│ 运镜:从门口推进到高台             │
│ 台词:无                          │
│ 音效:低沉鼓声                    │
│ 备注:强调纵深感和压迫感           │
└─────────────────────────────────┘

草图的绘制要求:

不需要画得很精美,但必须包含:

  1. 画面比例框(16:9)
    用尺子画出标准比例框,不能随意

  2. **透视线# AI漫剧"抽卡师"工作内容超细颗粒度拆解

让我把抽卡师的每一个动作、每一个思考环节都拆开来看。

一、接到任务的那一刻

1. 拿到分镜脚本

  • 打开项目文件夹
  • 看到导演/编剧给的分镜表格
  • 这一行写着:第23镜,男主转身看向窗外,3秒
  • 旁边可能有个参考图或者手绘分镜草图

2. 理解这个镜头要什么

  • 读这句话:“男主转身看向窗外”
  • 在脑子里想象这个动作
  • 转多少度?180度还是90度?
  • 转的速度?快还是慢?
  • 表情有变化吗?
  • 头发会飘吗?
  • 衣服会动吗?

3. 找到对应的漫画素材

  • 打开漫画源文件(PSD或PNG)
  • 翻到对应的章节和页面
  • 找到男主正面站立的那一格
  • 找到男主侧身看窗外的那一格
  • 把这两张图导出来

二、准备首尾帧(每一个小步骤)

4. 处理首帧图片

  • 打开Photoshop或其他图像软件
  • 导入男主正面图
  • 检查图片尺寸:1920x1080?1080x1920?
  • 如果是漫画格子,可能是奇怪的比例,比如800x1200
  • 看一眼AI工具要求的比例
  • 发现AI要求16:9或9:16
  • 开始裁剪或调整画布
  • 裁的时候要保证人物主体不被切掉
  • 保存为"镜头23_首帧.png"

5. 处理尾帧图片

  • 导入男主侧身图
  • 重复上面的裁剪调整步骤
  • 但要保证和首帧是完全相同的尺寸和比例
  • 比如首帧是1920x1080,尾帧也必须是1920x1080
  • 保存为"镜头23_尾帧.png"

6. 检查首尾帧的匹配度

  • 把两张图并排放在屏幕上
  • 看人物的位置:首帧里人在画面中间,尾帧里人也在中间吗?
  • 看人物的大小:首帧里脸占画面1/4,尾帧里也是1/4吗?
  • 看背景:窗户在首帧的右边,尾帧里还在右边吗?
  • 如果不匹配,要重新调整其中一张图的构图

三、打开AI工具界面

7. 登录AI平台

  • 打开浏览器
  • 输入即梦/海螺/Sora的网址
  • 登录账号
  • 看一眼右上角的token余额:还剩35个
  • 心里算一下:够做3个镜头,得省着点用

8. 进入视频生成页面

  • 点击"创建新视频"按钮
  • 页面跳转,出现上传区域和参数设置区域
  • 界面上有:
    • 首帧上传框
    • 尾帧上传框
    • 提示词输入框(一个大大的文本框)
    • 时长选择(2秒/3秒/5秒)
    • 运动幅度滑块(1-10)
    • 生成按钮

9. 上传首尾帧

  • 点击首帧上传框
  • 从文件夹里选"镜头23_首帧.png"
  • 等待上传,看到进度条从0%到100%
  • 图片出现在预览区
  • 重复操作,上传尾帧
  • 两张图都显示在界面上了

四、编写第一版提示词(思考过程)

10. 开始构思提示词

  • 鼠标点进提示词输入框
  • 光标在闪烁
  • 脑子里想:我要怎么描述这个动作?

11. 写下第一句

输入:

一个男性角色
  • 停顿,想想还要加什么
  • 要不要描述外貌?穿什么衣服?
  • 看一眼首帧图片:黑色短发,白色衬衫
  • 继续输入:
一个黑色短发、穿白色衬衫的男性角色

12. 描述动作

  • 想:他要转身
  • 输入:
转身
  • 觉得太简单了,AI可能理解不准
  • 改成:
从正面转向侧面
  • 还是觉得不够清楚
  • 再改:
身体从正面朝向逐渐旋转90度至侧面朝向

13. 描述目标

  • 想:他转身是为了看窗外
  • 加上:
视线转向画面右侧的窗户

14. 描述动作细节

  • 想:转身的时候,是头先动还是身体先动?
  • 回忆一下真人转身的样子
  • 一般是头先转,身体跟着
  • 加上:
头部先转动,身体随后跟随

15. 描述速度和流畅度

  • 想:3秒的时长,应该是比较自然的速度
  • 加上:
动作流畅自然,速度适中

16. 加上保持一致性的要求

  • 想:AI经常会把人脸搞变形
  • 必须强调一下
  • 加上:
保持人物面部特征不变,五官位置固定

17. 检查背景

  • 想:背景不要乱动
  • 加上:
背景保持静止

18. 完整的第一版提示词

现在文本框里是:

一个黑色短发、穿白色衬衫的男性角色,身体从正面朝向逐渐旋转90度至侧面朝向,视线转向画面右侧的窗户,头部先转动,身体随后跟随,动作流畅自然,速度适中,保持人物面部特征不变,五官位置固定,背景保持静止。

19. 读一遍

  • 从头到尾读一遍
  • 觉得应该差不多了
  • 但心里还是有点没底:AI会不会理解错?

五、第一次生成(抽卡开始)

20. 设置参数

  • 时长:选择3秒
  • 运动幅度:拖动滑块到6(中等)
  • 其他参数保持默认

21. 检查token

  • 再看一眼右上角:还剩35个token
  • 这次会消耗10个(因为有首尾帧)
  • 点击"生成"按钮

22. 等待生成

  • 按钮变灰,不能再点击
  • 出现提示:“正在生成中,预计需要1-2分钟”
  • 下面有个进度条,但它不是线性增长的
  • 有时候停在30%很久,突然跳到80%
  • 盯着屏幕看
  • 或者切出去刷个手机
  • 但每隔10秒就切回来看一眼
  • 心里想:这次应该能成吧?

23. 生成完成

  • 听到"叮"的一声提示音
  • 进度条到100%
  • 视频预览窗口出现了画面
  • 右上角token变成25了

24. 第一遍观看

  • 鼠标移到播放按钮上
  • 点击播放
  • 眼睛盯着屏幕
  • 3秒的视频开始播放
  • 看到:
    • 人物确实在转身
    • 但是…

六、检查结果(第一次失败)

25. 发现问题

播放完3秒,暂停,倒回去重新看

第1秒

  • 人物开始转动
  • 脸部开始变化
  • 等等,鼻子好像变大了?

第2秒

  • 转身角度到了一半
  • 脸已经明显变形了
  • 眼睛一大一小
  • 下巴变尖了

第3秒

  • 转到侧面
  • 但这个侧脸和尾帧的侧脸不太一样
  • 而且头发变长了

26. 逐帧检查

  • 点击进度条,拖动到第1秒的位置
  • 截图保存
  • 拖到第2秒
  • 截图保存
  • 拖到第3秒
  • 截图保存
  • 把三张截图和首尾帧放在一起对比

27. 列出问题清单

在笔记本上写下:

  • ❌ 鼻子变大
  • ❌ 眼睛变形
  • ❌ 下巴变尖
  • ❌ 头发变长
  • ✓ 转身角度还可以
  • ✓ 背景没有乱动

28. 分析原因

想:

  • 为什么脸会变形?
  • 是不是提示词里"保持面部特征"这句话AI没理解?
  • 还是说法不够强烈?
  • 要不要换个说法?

七、调整提示词(第二次尝试)

29. 修改提示词策略

决定:

  • 把"保持面部特征"改得更具体
  • 不说"面部特征",直接说"鼻子、眼睛、下巴"

30. 修改提示词

回到提示词输入框,原来是:

保持人物面部特征不变,五官位置固定

改成:

严格保持鼻子大小和形状不变,眼睛大小和位置固定,下巴轮廓不改变,头发长度保持一致

31. 完整的第二版提示词

一个黑色短发、穿白色衬衫的男性角色,身体从正面朝向逐渐旋转90度至侧面朝向,视线转向画面右侧的窗户,头部先转动,身体随后跟随,动作流畅自然,速度适中,严格保持鼻子大小和形状不变,眼睛大小和位置固定,下巴轮廓不改变,头发长度保持一致,背景保持静止。

32. 再次生成

  • 点击"重新生成"按钮
  • Token从25变成15
  • 又是1-2分钟的等待
  • 刷手机,但心里惦记着
  • 心想:这次应该好了吧?

33. 第二次结果

  • 生成完成
  • 播放
  • 看到:
    • 脸还是变形了
    • 虽然和第一次不太一样
    • 但鼻子还是有点歪
    • 眼睛倒是没那么夸张了
    • 但整个脸好像胖了一圈

34. 情绪波动

  • 叹一口气
  • 想:怎么还是不行?
  • 看一眼token:还剩15个
  • 算一下:只够再试1次了
  • 今天的免费额度快用完了

八、第三次尝试(换个思路)

35. 重新思考策略

想:

  • 可能不是提示词的问题
  • 可能是首尾帧的问题
  • 两张图里人物的角度差太大了?
  • AI无法平滑过渡?

36. 检查首尾帧

  • 打开首帧:正面,0度
  • 打开尾帧:侧面,90度
  • 想:从0度到90度,跨度确实挺大
  • 要不要找一张45度的中间帧?

37. 寻找中间帧

  • 回到漫画源文件
  • 翻页查找
  • 找了5分钟
  • 没有找到合适的45度角度
  • 想:要不自己P一张?
  • 打开Photoshop
  • 尝试用变形工具把正面图调整成45度
  • 弄了10分钟
  • 效果很差,看起来很假

38. 放弃中间帧方案

  • 想:算了,还是继续改提示词吧
  • 关闭Photoshop

39. 第三版提示词

这次换个完全不同的写法,参考网上看到的"高级提示词技巧":

[人物]黑色短发男性,白色衬衫
[动作]头部带动身体,从0度正面旋转至90度右侧面
[目标]视线落在右侧窗户
[时长]3秒,匀速
[约束]锁定面部几何结构,禁止五官变形,禁止头发长度改变
[背景]静止
[风格]自然流畅

40. 第三次生成

  • 点击生成
  • Token从15变成5
  • 心里有点紧张:这是今天最后一次机会了
  • 等待
  • 1分钟
  • 2分钟
  • 生成完成

41. 第三次结果

  • 播放
  • 这次…
  • 脸没那么变形了!
  • 但是出现了新问题:
    • 衣服的纹理在闪烁
    • 白衬衫上出现了奇怪的阴影
    • 而且阴影在跳动
    • 背景的窗户边缘有点模糊抖动

42. 纠结时刻

想:

  • 脸的问题算是解决了70%
  • 但衣服和背景又出问题了
  • 是接受这个版本?
  • 还是继续改?
  • 但token已经只剩5个了
  • 不够再生成一次

九、决策与妥协

43. 评估可用性

把三次生成的结果放在一起对比:

  • 第一次:脸变形严重,但衣服和背景还行
  • 第二次:脸还是变形,整体更差
  • 第三次:脸基本可以,但衣服背景有问题

44. 思考后期修复可能性

想:

  • 衣服的闪烁能不能后期用AE修掉?
  • 背景的抖动能不能用稳定器?
  • 如果能修,第三次的结果就可以用
  • 如果不能修,就得等明天token刷新了再继续

45. 咨询后期同事

  • 打开微信
  • 发给负责后期的同事
  • “这个衣服闪烁能修吗?”
  • 发送视频文件
  • 等待回复
  • 5分钟后收到回复:“可以试试,但很费时间,可能要逐帧处理”

46. 计算时间成本

想:

  • 这个镜头已经花了:
    • 准备首尾帧:20分钟
    • 写提示词和生成:3次 × 15分钟 = 45分钟
    • 总共65分钟
  • 如果后期再花30分钟修
  • 一个3秒镜头就是95分钟
  • 一集150个镜头…
  • 算不下去了

47. 做出决定

决定:

  • 先标记这个镜头为"待优化"
  • 继续做下一个镜头
  • 等所有镜头都做完第一遍
  • 再回来统一优化

十、开始下一个镜头(循环继续)

48. 看下一个任务

  • 回到分镜表格
  • 第24镜:女主回头微笑,2秒
  • 想:这个应该简单点吧?就是个回头
  • 但又想:上一个"转身"都这么难,"回头"会不会也…

49. 重复整个流程

  • 找漫画素材
  • 导出首尾帧
  • 调整尺寸
  • 上传
  • 写提示词
  • 生成
  • 检查
  • 发现问题
  • 修改
  • 再生成

50. 遇到新问题:微笑表情

这次的新挑战:

  • 首帧:女主面无表情
  • 尾帧:女主微笑
  • 不仅要转头,表情还要变化
  • 提示词要怎么写?
  • “从面无表情过渡到微笑”?
  • “嘴角逐渐上扬”?
  • “眼睛微微眯起,嘴唇弯曲成微笑”?

51. 第一次生成:表情僵硬

  • 生成出来
  • 女主确实在笑
  • 但笑得很诡异
  • 嘴角的弧度不自然
  • 像是被强行拉扯出来的
  • 有种恐怖片的感觉

52. 第二次生成:表情过度

  • 改了提示词:“自然的、温柔的微笑”
  • 生成出来
  • 这次笑得太夸张了
  • 从淡淡的微笑变成了哈哈大笑
  • 完全不符合剧情需求

53. 第三次生成:又出现新bug

  • 再改提示词:“嘴角轻微上扬3-5度”
  • 生成出来
  • 表情这次还可以
  • 但头发炸了
  • 回头的时候头发跟着甩
  • 但甩出了一种爆炸的效果
  • 发丝乱飞,像是在风洞里

十一、特殊情况:漫画格子的噩梦

54. 遇到竖版格子

  • 第30镜:一个竖长条的格子
  • 尺寸是600x1800
  • AI要求的比例是16:9或9:16
  • 600x1800换算是1:3
  • 完全不匹配

55. 尝试裁剪

  • 如果裁成9:16(比如1080x1920)
  • 要么上下裁掉很多内容
  • 要么左右加黑边
  • 裁掉内容的话,人物可能不完整
  • 加黑边的话,画面会很奇怪

56. 尝试拉伸

  • 把600x1800强行拉伸成1080x1920
  • 人物变形了,变矮变胖
  • 完全不能用

57. 放弃这个镜头

  • 在表格里标注:“此镜头无法使用AI生成”
  • 决定后期用静态图+镜头推拉来处理
  • 继续下一个

十二、特殊情况:台词乱码

58. 遇到带台词的格子

  • 第45镜:人物说话,对话框里有台词
  • 首帧:对话框里写着"你好吗?"
  • 尾帧:对话框还在,台词一样

59. 第一次生成:台词变乱码

  • 生成出来
  • 对话框还在
  • 但里面的字变成了:
    • “伱女子马?”
    • 或者"###@吗?"
    • 或者完全不可读的符号

60. 尝试在提示词里强调

加上:

保持对话框内文字清晰可读,文字内容为"你好吗?"

61. 第二次生成:还是乱码

  • 文字还是乱的
  • 而且这次对话框的形状也变了
  • 从圆角矩形变成了不规则形状

62. 尝试更强的约束

改成:

冻结对话框区域,文字完全不变,逐字保持:你、好、吗、?

63. 第三次生成:文字消失了

  • 这次更绝
  • 对话框还在
  • 但里面的字完全消失了
  • 变成空白对话框

64. 查找解决方案

  • 打开搜索引擎
  • 搜索:“AI视频生成 文字乱码 怎么办”
  • 看到一堆讨论帖
  • 大家都说这是AI的通病
  • 目前没有完美解决方案
  • 建议:生成无字版本,后期用PR或AE加字幕

65. 接受现实

  • 决定:所有带台词的镜头都生成无字版
  • 后期统一加字幕
  • 但这又增加了大量后期工作

十三、特殊情况:群像戏

66. 遇到多人镜头

  • 第67镜:三个人同时转头看向门口
  • 首帧:三个人都是正面
  • 尾帧:三个人都转向右侧

67. 第一次生成:集体变脸

  • 生成出来
  • 三个人确实都在转头
  • 但:
    • 左边的短发女生变成了长发
    • 中间的男生脸变圆了
    • 右边的长发女生的脸和左边的短发女生串了
    • 三个人的脸在动画过程中互相"借用"特征

68. 尝试详细描述每个人

提示词改成:

画面左侧:黑色短发女性,圆脸,穿红色衣服
画面中间:棕色短发男性,方脸,穿蓝色衬衫
画面右侧:金色长发女性,瓜子脸,穿白色连衣裙
三人同时从正面转向右侧,各自保持独立的面部特征,不互相影响

69. 第二次生成:还是串脸

  • 描述得这么详细了
  • 还是串
  • 而且这次更乱
  • 三个人的衣服颜色都开始互换了

70. 尝试分开生成

决定:

  • 把三个人分别抠出来
  • 做三个单人转头的视频
  • 然后后期合成到一起

71. 抠图工作

  • 打开Photoshop
  • 用魔棒工具选中左边的女生
  • 删除其他两个人
  • 填充背景
  • 导出
  • 重复操作,抠出另外两个人
  • 花了30分钟

72. 分别生成三个视频

  • 上传第一个人的首尾帧
  • 写提示词,生成
  • 上传第二个人的首尾帧
  • 写提示词,生成
  • 上传第三个人的首尾帧
  • 写提示词,生成
  • 每个都要检查、调整、重新生成
  • 又花了1个小时

73. 后期合成

  • 把三个视频导入AE
  • 调整位置,让三个人回到原来的位置
  • 处理边缘融合
  • 调整光影一致性
  • 渲染输出
  • 又花了40分钟

74. 计算这个镜头的总时间

  • 抠图:30分钟
  • 生成三个视频:60分钟
  • 后期合成:40分钟
  • 总共:130分钟 = 2小时10分钟
  • 这还只是一个3秒的镜头

十四、心理状态的变化

75. 第1-10个镜头:充满希望

  • 觉得AI很神奇
  • 虽然有问题,但觉得可以解决
  • 每次点"生成"都很期待
  • 心想:这次肯定能成!

76. 第11-30个镜头:开始疲惫

  • 发现问题总是重复出现
  • 脸变形、衣服闪烁、背景抖动
  • 提示词改来改去,效果差不多
  • 开始怀疑:是不是我的方法不对?

77. 第31-50个镜头:麻木

  • 已经不抱太大期望了
  • 生成出来,先看有没有致命bug
  • 没有致命bug就算过关
  • 不再追求完美
  • 只求能用

78. 第51-80个镜头:挫败

  • 遇到越来越多的特殊情况
  • 竖版格子、台词乱码、群像戏
  • 每个都是新的坑
  • 开始怀疑:这个项目到底能不能做完?

79. 第81-100个镜头:机械重复

  • 已经完全进入机械状态
  • 上传、写提示词、生成、检查、修改
  • 像流水线工人一样
  • 不再思考,只是执行
  • 脑子是空的

80. 第101-150个镜头:煎熬

  • 看到进度条:还有50个
  • 心里想:什么时候才能结束
  • 每做完一个,就在表格里打个勾
  • 盯着那些勾,数着数字
  • 像在数刑期

十五、Token消耗的焦虑

81. 免费token用完

  • 第二天,继续工作
  • 打开AI平台
  • 看到token又刷新到70个
  • 心里松了一口气

82. 计算今天能做多少

  • 70个token
  • 每个镜头平均要生成3-5次
  • 每次10个token
  • 70 ÷ (4×10) = 1.75
  • 今天只能完成1-2个镜头?
  • 不对,算错了
  • 70 ÷ 10 = 7次生成机会
  • 如果每个镜头平均4次,能做1-2个镜头
  • 150个镜头要做75-150天?

83. 考虑付费

  • 看付费套餐
  • 最便宜的:100元 = 500 token
  • 500 ÷ 10 = 50次生成
  • 能做10-12个镜头
  • 150个镜头需要:150 ÷ 11 × 100 = 1364元
  • 想:这个项目承制费是多少来着?
  • 翻合同:10分钟,50元/分钟,共500元
  • 如果花1364元做,亏864元
  • 算了,还是慢慢用免费的吧

84. 每次生成前的犹豫

  • 鼠标悬停在"生成"按钮上
  • 想:这次会成功吗?
  • 如果不成功,就浪费了10个token
  • 要不要再检查一遍提示词?
  • 再读一遍提示词
  • 改了一个标点符号
  • 还是觉得没把握
  • 但总要试的
  • 点击"生成"
  • 心跳加速

85. 生成失败后的懊恼

  • 又失败了
  • 看着token数字减少
  • 心里很难受
  • 想:刚才如果提示词再改改,是不是就能成功?
  • 但已经晚了,token已经扣了
  • 无法撤回

十六、与AI的"玄学"互动

86. 发现规律的假象

  • 做了30个镜头后
  • 觉得自己找到规律了
  • “只要提示词里加上’严格保持’这个词,效果就会好”
  • 信心满满地应用到下一个镜头
  • 结果还是失败
  • 规律不存在

87. 迷信时刻

  • 发现连续失败5次后
  • 第6次突然成功了
  • 想:是不是AI有"连败保护机制"?
  • 像游戏抽卡一样,抽多了总会出好东西
  • 开始相信这个理论
  • 但后来又连续失败10次
  • 理论破产

88. 对着电脑拜三拜

  • 要做一个超级复杂的镜头
  • 五个人的打斗场面
  • 知道成功率很低
  • 真的对着电脑拜了三拜
  • 嘴里念叨:“求求你了,这次一定要成功”
  • 点击生成
  • 结果还是失败
  • 苦笑

89. 尝试改变"运气"

  • 失败太多次后
  • 开始尝试各种"改运"方法:
    • 换个时间段生成(凌晨AI会不会状态好点?)
    • 换个浏览器(Chrome不行试Firefox?)
    • 重启电脑(重启解决一切问题?)
    • 先做简单的镜头"攒人品"
  • 当然,这些都没用

90. 和AI"对话"

  • 在提示词里加上:
    • “拜托了”
    • “请”
    • “一定要”
  • 知道AI不会理解这些
  • 但还是忍不住加上
  • 像是在和一个任性的小孩沟通

十七、和其他抽卡师的交流

91. 加入抽卡师群聊

  • 在网上找到一个"AI漫剧制作交流群"
  • 加入
  • 发现里面500多人
  • 都是和自己一样的抽卡师

92. 看到相似的吐槽

群里的消息:

  • “又双叒叕变脸了,崩溃”
  • “为什么我的角色总是长出六根手指?”
  • “台词乱码有解吗?在线等,挺急的”
  • “token烧完了,今天做不了了”
  • “这个月已经亏了2000块”

93. 分享"成功经验"

有人发消息:

  • “我发现了一个技巧!提示词里加上’高质量’三个字,效果会好很多!”
  • 很多人回复:“真的吗?我试试!”
  • 10分钟后:
    • “没用”
    • “还是失败”
    • “可能是我运气不好”

94. 互相安慰

  • “兄弟们,坚持住,熬过这个项目就好了”
  • “下个项目我不做AI漫剧了,太折磨人了”
  • “但是不做这个,还能做什么呢?”
  • 群里沉默

95. 看到有人退出

  • 有人发消息:“我不干了,这个钱赚得太痛苦”
  • 有人问:“那你接下来做什么?”
  • 回复:“不知道,先休息一段时间”
  • 然后退群了
  • 群成员数:499人

十八、身体和精神的消耗

96. 眼睛疲劳

  • 盯着屏幕10个小时
  • 检查每一帧的细节
  • 眼睛干涩、发痛
  • 滴眼药水
  • 继续工作

97. 腰酸背痛

  • 一直坐着
  • 姿势僵硬
  • 腰开始疼
  • 站起来活动一下
  • 但5分钟后又坐回去
  • 因为还有100个镜头没做完

98. 睡眠质量下降

  • 晚上躺在床上
  • 闭上眼睛
  • 脑子里还在想:
    • 那个镜头的提示词要不要再改改?
    • 明天的token够不够用?
    • 这个项目什么时候能做完?
  • 失眠到凌晨3点

99. 做梦都在抽卡

  • 好不容易睡着了
  • 梦到自己在生成视频
  • 梦里的AI一直失败
  • 一直失败
  • 惊醒
  • 一身冷汗

100. 情绪波动

  • 早上起来:今天一定要多做几个镜头
  • 中午:怎么又失败了,烦死了
  • 下午:算了,差不多就行
  • 晚上:我为什么要做这个工作?
  • 深夜:明天继续吧,还能怎么办呢

十九、项目接近尾声

101. 还剩最后10个镜头

  • 看到进度:140/150
  • 心里有点激动:快结束了
  • 但又有点担心:最后这10个会不会特别难?

102. 遇到最难的镜头

  • 第145镜:大结局的高潮场面
  • 10个人的群像
  • 背景是复杂的城市街道
  • 还有特效:爆炸、烟雾
  • 看着这个需求
  • 想:这根本不可能用AI做出来

103. 尝试简化

  • 和导演商量:能不能改成简单点的?
  • 导演:这是高潮,不能简化
  • 只能硬着头皮做

104. 分解成20个子任务

  • 把这个镜头拆成:
    • 10个人物单独的动作
    • 背景单独生成
    • 爆炸特效单独生成
    • 烟雾特效单独生成
    • 最后合成
  • 光是这一个镜头,就花了3天

105. 最终完成

  • 第150个镜头做完
  • 点击保存
  • 导出最终视频
  • 看着进度条:100%
  • 长舒一口气

二十、项目复盘

106. 统计总耗时

  • 打开工作日志
  • 统计:
    • 总工作时间:180小时
    • 平均每个镜头:1.2小时
    • 总生成次数:约600次
    • 平均每个镜头生成4次
    • Token总消耗:约6000个
    • 付费购买token:500元

107. 计算收入

  • 项目承制费:10分钟 × 50元 = 500元
  • 减去token成本:500 - 500 = 0元
  • 时薪:0元 ÷ 180小时 = 0元/小时
  • 白干了

108. 身体代价

  • 颈椎病加重
  • 视力下降
  • 失眠持续了一个月
  • 体重下降了5斤(压力大,吃不下饭)

109. 心理代价

  • 对AI产生了厌恶感
  • 听到"生成"这个词就烦
  • 看到"抽卡"两个字就想吐
  • 对自己的工作价值产生怀疑

110. 思考未来

  • 问自己:还要继续做抽卡师吗?
  • 如果不做,能做什么?
  • 如果继续做,怎么才能提高效率?
  • 或者,这个行业本身就是个坑?

总结:抽卡师工作的本质

把上面110个步骤浓缩一下,抽卡师的工作本质是:

  1. 重复性:同样的流程重复几百次
  2. 不确定性:每次结果都不可预测
  3. 低技术含量:主要靠体力和耐心,不是技术
  4. 高时间成本:大量时间花在等待和重试上
  5. 低经济回报:投入和产出严重不成正比
  6. 心理消耗:持续的挫败感和无力感
  7. 身体损害:长时间盯屏幕、久坐
  8. 创造性缺失:不是在创作,是在和工具搏斗

这就是为什么抽卡师被称为"最惨牛马"——不是因为工作强度大(虽然确实大),而是因为这种工作把人变成了AI系统的修补工具,消耗了人的时间、金钱、健康和尊严,却没有给人带来相应的价值和成就感。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐