对AI漫剧抽卡师工作内容的手术刀级颗粒度拆解

看到进度：140/150心里有点激动：快结束了但又有点担心：最后这10个会不会特别难？重复性：同样的流程重复几百次不确定性：每次结果都不可预测低技术含量：主要靠体力和耐心，不是技术高时间成本：大量时间花在等待和重试上低经济回报：投入和产出严重不成正比心理消耗：持续的挫败感和无力感身体损害：长时间盯屏幕、久坐创造性缺失：不是在创作，是在和工具搏斗。

闹纳尼

511人浏览 · 2026-02-09 02:17:30

闹纳尼 · 2026-02-09 02:17:30 发布

我们要把每一个创作决策拆解到可以直接执行的操作指令级别。

一、选题的第0天:用200元测试一个题材是否成立

1.1 测试前的准备清单(30分钟)

步骤1:写出故事的三句话版本

第一句:主角是谁+初始状态(15字以内)
第二句:遭遇什么冲突+获得什么能力(20字以内)
第三句:用能力达成什么目标(15字以内)

错误示例:“一个少年在家族被欺负,后来变强了,打败所有人”

问题:信息模糊,无法指导后续创作

正确示例:“废柴少爷林枫/家族大会被退婚/觉醒吞噬系统吞噬敌人修为/三个月内踩爆退婚者”

为什么正确:有具体名字、具体场景、具体能力机制、具体时间目标

步骤2:画出情绪曲线图(15分钟)

拿一张A4纸,横轴是时间(按集数),纵轴是情绪强度(1-10分)

第1集的情绪设计:

0-30秒:情绪值3分(日常场景,被欺负)
30秒-1分钟:情绪值跌到1分(被退婚,全场嘲笑)
1分钟-1分30秒:情绪值拉到7分(系统觉醒,金光特效)
1分30秒-2分钟:情绪值冲到9分(当场吞噬一个嘲笑者的修为)

关键指标:

情绪低谷不能超过40秒(用户会流失)
第一个高潮必须在90秒内出现
每集至少3个情绪波峰,波峰间隔不超过45秒

步骤3:列出必需场景清单(15分钟)

第1集需要的场景:

家族大厅(主场景,会反复使用)
林枫的破旧小院(对比场景)
系统空间(特效场景,纯黑背景+发光界面)

每个场景写明:

时代背景:古代/现代/未来
建筑风格:中式/欧式/赛博朋克
色调:暖色/冷色/对比色
光源:自然光/人工光/魔法光
参考图:找3张风格接近的图片

家族大厅的详细描述:

时代:古代修仙世界
风格:中式宫殿,红木立柱,青石地板
色调:暗红色为主(压抑感),金色点缀(权力象征)
光源:顶部天窗自然光+两侧灯笼暖光
空间:纵深15米,宽10米,高8米
陈设:正中高台3个座位,两侧各5排座位
参考:故宫太和殿内景+《庆余年》鉴查院大厅+某游戏CG截图

为什么要这么细?因为后面AI生成场景时,这些描述会直接转化成提示词。

1.2 第一次生成测试(2小时)

测试目标:验证3个核心要素能否被AI准确生成

要素1:主角形象的稳定性

生成主角林枫的10个不同角度:

正面平视
45度侧面
背面
仰视(从下往上看)
俯视(从上往下看)
左侧面
右侧面
3/4侧面(左)
3/4侧面(右)
远景全身

判断标准:

面部特征一致性:眼睛形状、鼻梁高度、嘴唇厚度误差不超过5%
发型一致性:发际线位置、头发长度、刘海走向完全一致
体型一致性:肩宽、身高比例、体态特征一致
服装一致性:衣服款式、颜色、破损位置一致

测试方法:
把10张图并排放在一起,遮住其他部分只看眼睛,如果你能一眼认出"这是同一个人",就通过。

常见问题及解决:

问题1:正面和侧面像两个人

原因:AI对角色的3D理解不足
解决:先生成正面标准照,然后每次生成都引用这张图作为参考
具体操作:在提示词里加入"与参考图同一人物,仅改变角度"

问题2:远景时面部细节丢失

原因:分辨率不够
解决:远景镜头不展示面部细节,用体态和服装特征识别
具体操作:设计一个标志性服装元素(比如左肩有个破洞),远景时靠这个识别

问题3:不同情绪表情时五官变形

原因:AI把表情和五官结构混淆
解决:分开生成,先生成标准脸,再用工具调整表情
具体操作:建立表情库,愤怒、惊讶、得意、绝望各生成5个版本备用

要素2:关键场景的氛围营造

生成家族大厅场景的5个版本:

版本1:白天,阳光从天窗洒下
版本2:傍晚,昏黄光线
版本3:夜晚,灯笼照明
版本4:阴天,压抑氛围
版本5:雨天,窗外雨声

判断标准:

建筑结构一致性:柱子数量、位置、粗细完全一致
空间比例一致性:纵深感、透视关系一致
可识别度:用户看到任何一个版本都能认出"这是家族大厅"

测试方法:
把5张图的建筑轮廓描出来,叠加在一起,误差不超过10%就通过。

常见问题及解决:

问题1:每次生成的柱子数量不一样

原因:AI对数量概念模糊
解决:在提示词里精确描述"左侧3根红木立柱,右侧3根红木立柱,正中高台后2根"
验证:生成后数柱子,不对就重新生成

问题2:透视关系混乱,近处的人比远处的柱子还大

原因:AI空间理解错误
解决:分层生成,背景、中景、前景分开做,后期合成
具体操作:先生成纯场景(无人物),再把人物抠图放进去,手动调整比例

问题3:光影不统一,左边是白天右边是黑夜

原因:AI对全局光照理解不足
解决:在提示词里明确光源方向"顶部天窗自然光从右上方45度角射入"
验证:检查所有物体的阴影方向是否一致

要素3:特效场景的视觉冲击力

生成"系统觉醒"场景的3个版本:

版本1:金色光柱从天而降,笼罩主角
版本2:主角身体发光,周围出现古文字环绕
版本3:主角眼睛变成金色,身后浮现虚影

判断标准:

视觉冲击力:截图发给10个人,8个以上说"很炫"就通过
可识别度:用户看到这个特效就知道"主角开挂了"
可复用性:后续每次系统出现都用类似特效,形成记忆点

测试方法:
把特效场景做成3秒短视频,发到测试群,统计"哇"“牛逼”"这什么"等惊叹词出现频率。

常见问题及解决:

问题1:特效太花哨,看不清主角

原因:特效抢了主体
解决:特效只占画面30%面积,主角必须清晰可见
具体操作:先生成主角,再叠加特效层,特效透明度控制在60-70%

问题2:特效看起来很廉价,像PPT动画

原因:运动轨迹太规则
解决:加入随机性和细节,比如光粒子大小不一,运动速度有快有慢
具体操作:用粒子系统生成,而不是简单的光晕滤镜

问题3:特效和场景风格不搭,修仙世界出现了科技感光效

原因:特效素材库选错
解决:建立分类特效库,修仙用古风符文+金色光,科幻用蓝色数据流,魔法用紫色能量
具体操作:每个题材提前准备20个特效预设

1.3 第一次分镜测试(4小时)

测试目标:用最少的镜头讲清楚一场戏

选开场第一场戏:林枫被退婚,时长2分钟。

第一步:写出戏剧节拍(30分钟)

这场戏要传递的信息:

林枫是废柴(用户需要知道起点低)
未婚妻当众退婚(制造羞辱感)
全场嘲笑(强化压迫感)
林枫隐忍(为后续爆发蓄力)

把2分钟拆成8个15秒段落:

0-15秒:建立场景

信息量:这是一个家族大会,很多人,很正式
情绪基调:压抑
必须出现的元素:大厅全景、人群、高台上的长老

15-30秒:引出主角

信息量:林枫站在中央,穿着破旧,和周围人格格不入
情绪基调:不安
必须出现的元素:林枫特写、破旧衣服细节、周围人的鄙夷眼神

30-45秒:冲突出现

信息量:一个美丽女子站起来,是未婚妻
情绪基调:紧张
必须出现的元素:女子站起的动作、周围人的窃窃私语、林枫的疑惑表情

45-60秒:冲突升级

信息量:女子说出"我要退婚"
情绪基调:震惊
必须出现的元素:女子的冷漠脸、"退婚"二字的特写、林枫的震惊表情

60-75秒:冲突高潮

信息量:女子说出羞辱的话"你不配"
情绪基调:愤怒+屈辱
必须出现的元素:女子的鄙视眼神、林枫攥紧的拳头、周围人的哄笑

75-90秒:情绪低谷

信息量:全场哄笑,林枫低头
情绪基调:绝望
必须出现的元素:林枫低头的背影、周围人夸张的笑脸、空旷的大厅(孤独感)

90-105秒:转折前兆

信息量:林枫抬头,眼神变了
情绪基调:压抑的愤怒
必须出现的元素:林枫眼睛特写、眼中的血丝、微微颤抖的身体

105-120秒:转折爆发

信息量:系统觉醒,金光乍现
情绪基调:震撼
必须出现的元素:金色光柱、系统界面、所有人震惊的表情

第二步:把每个段落拆成镜头(2小时)

以"0-15秒:建立场景"为例,拆成4个镜头:

镜头1(3秒):大厅全景

景别:远景
机位:平视,略微仰角5度(营造庄严感)
画面构成:
- 前景:空无一物(留白,营造纵深)
- 中景:100个家族成员分两侧坐,中间留出通道
- 后景:高台上3个长老
人物占比:每个人物不超过画面2%
色调:暗红色为主,金色点缀
光线:顶部天窗自然光,形成明暗对比
运镜:缓慢推进,从门口视角向高台推进
音效:低沉的鼓声+窃窃私语的人声
字幕:无

手绘分镜要求:
用铅笔在A4纸上画出:

画面比例:16:9的框
透视线:标出消失点(在高台位置)
人物位置:用火柴人标出100个人的大致位置
光源方向:用箭头标出顶部光源
运镜轨迹:用虚线箭头标出推进方向
标注:写明"3秒"“远景”“推进”

AI生成提示词(逐字稿):

场景:中式古代宫殿大厅内景,红木立柱,青石地板,顶部有天窗
视角:从大厅正门向内看,平视角度略微仰5度
构图:中心对称构图,中间通道,两侧各50人坐在长凳上,背景高台上3个长老
光线:顶部天窗自然光从上方照下,形成明暗对比,大厅整体偏暗
色调:暗红色主调,金色点缀,低饱和度
氛围:庄严压抑
画质:电影级,高清,细节丰富
风格:写实主义,参考《庆余年》《琅琊榜》美术风格
镜头:远景,16:9,缓慢推进运镜

生成后检查清单:

透视关系正确,近大远小
人物数量大致正确(误差±10人可接受)
色调符合预期
光影方向一致
建筑细节清晰(柱子、地板纹理)
没有明显穿帮(比如现代物品)
氛围到位(看起来压抑庄严)

如果不通过,调整策略:

透视错误:在提示词里加入"单点透视,消失点在画面中心偏上"
人物数量不对:改为"两侧各5排长凳,每排10人"
色调不对:加入色卡参考"#8B0000(暗红)为主色,#FFD700(金色)为点缀"
光影混乱:明确"单一光源,从正上方照射,形成向下的阴影"

镜头2(4秒):人群特写

景别:中景
机位:侧面45度角,平视
画面构成:
- 前景:3个家族成员的侧脸(占画面左侧1/3)
- 中景:中间通道(空的,为后续主角出现做准备)
- 后景:对面的家族成员(虚化)
人物占比:前景3人共占画面40%
表情:冷漠、鄙夷、不耐烦
运镜:固定镜头,无运动
音效:窃窃私语变大声,能听清"废柴""丢人"等词
字幕:无

手绘分镜要求:

画出3个人的头部轮廓(不需要细节,圆圈+五官位置即可)
标出视线方向(都看向中间通道)
标出景深范围(前景清晰,后景模糊)
标注表情关键词"冷漠"“鄙夷”

AI生成提示词:

场景:同上大厅内景
视角:侧面45度角,平视
构图:三分法构图,左侧1/3是3个家族成员侧脸,中间1/3是空通道,右侧1/3是虚化背景
人物:3个中年男子,穿深色长袍,表情冷漠鄙夷,眼神看向画面右侧
景深:浅景深,前景清晰,后景虚化
光线:侧面光,勾勒人物轮廓
色调:同上
画质:电影级,面部细节清晰
镜头:中景,固定

生成后检查清单:

3个人的面部清晰
表情到位(眉毛微皱,嘴角下撇)
视线方向一致(都看向右侧)
景深效果明显
服装风格统一
没有面部崩坏

镜头3(4秒):长老特写

景别:近景
机位:仰视15度角(营造权威感)
画面构成:
- 主体:中间长老的上半身(占画面60%)
- 陪体:两侧长老的肩膀(各占15%)
- 背景:高台背景(虚化)
表情:威严、不怒自威
道具:中间长老手里拿着一个卷轴
运镜:缓慢推进到长老脸部
音效:鼓声停止,安静
字幕:无

手绘分镜要求:

画出3个人的位置关系(中间一个大,两侧两个小)
标出仰视角度(用角度线标注15度)
标出卷轴的位置(中间长老手里)
标注"威严"“推进”

AI生成提示词:

场景:高台上
视角:从下往上仰视15度
构图:中心构图,中间长老占主体,两侧长老各占1/5
人物:中间长老60岁左右,白须,穿金边长袍,表情威严,手持卷轴;两侧长老只露出肩膀
表情:不怒自威,眉头微皱
光线:顶光,强化面部轮廓
色调:金色为主(权威感)
画质:电影级,面部细节极其清晰,皱纹、胡须清晰可见
镜头:近景,缓慢推进

生成后检查清单:

仰视角度正确
中间长老面部细节丰富(皱纹、胡须)
表情到位(威严感)
卷轴清晰可见
金色调明显
两侧长老不抢戏

镜头4(4秒):回到全景

景别:全景
机位:俯视30度角(上帝视角)
画面构成:
- 整个大厅的鸟瞰图
- 中间通道空着
- 所有人都看向通道
运镜:无,静止
音效:脚步声响起(预示主角要出场)
字幕:无

手绘分镜要求:

画出大厅的平面图
标出俯视角度(30度)
用箭头标出所有人的视线方向(都指向中间通道)
标注"静止"“等待感”

AI生成提示词:

场景:同上大厅
视角:俯视30度,鸟瞰
构图:对称构图,中间通道,两侧人群
人物:所有人都看向中间通道,期待状
光线:顶光,中间通道有光斑(聚焦)
色调:整体暗,中间通道亮(引导视线)
氛围:安静,等待
画质:电影级
镜头:全景,静止

生成后检查清单:

俯视角度正确
对称构图
中间通道有光斑(视觉引导)
所有人视线方向一致
氛围到位(安静等待)

第三步:制作动态分镜预览(1.5小时)

把4个镜头生成的静态图,导入视频编辑软件,按时长排列:

镜头1:3秒
镜头2:4秒
镜头3:4秒
镜头4:4秒
总计15秒

加入:

运镜效果(镜头1的推进,镜头3的推进)
转场效果(镜头间用0.5秒淡入淡出)
临时音效(从音效库找相似的)
临时配乐(低沉压抑的BGM)

测试方法:
自己看10遍,每遍问自己:

我能看懂发生了什么吗?(信息传递)
我有情绪波动吗?(情绪调动)
我想继续看下去吗?(吸引力)
画面之间连贯吗?(流畅度)
有没有哪个镜头是多余的?(效率)

如果5个问题都是"是",这15秒通过。
如果有任何一个"否",找出问题镜头,重新设计。

常见问题及解决:

问题1:看完15秒不知道发生了什么

原因:信息量不够或信息传递不清晰
解决:增加字幕"林家家族大会"或者增加一个镜头展示门口的牌匾

问题2:看完没感觉,很平淡

原因:情绪铺垫不够
解决:加强音效(窃窃私语更明显)或调整色调(更压抑)

问题3:镜头2到镜头3跳跃感太强

原因:视角变化太大
解决:在中间加一个过渡镜头,或者调整镜头2的角度

问题4:镜头4感觉多余

原因:信息重复
解决:删掉镜头4,直接从镜头3切到下一个段落

1.4 成本核算(30分钟)

计算这15秒的实际成本:

时间成本:

写节拍:30分钟
设计分镜:2小时
手绘分镜:1小时(4个镜头,每个15分钟)
AI生成测试:1.5小时(每个镜头生成3-5次,取最好的)
动态预览制作:1.5小时
总计:6.5小时

人力成本:

编剧:30分钟
分镜导演:3小时
AI动画师:1.5小时
剪辑师:1.5小时

算力成本:

每个镜头生成5次,共20次生成
每次生成成本约2元(假设)
总计:40元

15秒成本=40元
推算2分钟(120秒)成本=320元
推算一集(3分钟)成本=480元
推算100集成本=48000元

这个成本是否可接受?

如果目标是精品剧,可接受
如果目标是快速量产,需要优化流程

优化方向:

建立素材库,常用场景和角色提前生成,复用率提高50%
培训AI动画师,生成成功率从20%提升到60%,成本降低66%
使用批量生成工具,一次生成多个镜头,时间成本降低30%

优化后成本:

素材复用:节省30%
成功率提升:节省50%
批量生成:节省20%
综合节省:约70%

优化后一集成本=480×30%=144元
优化后100集成本=14400元

这个成本在可控范围内,可以进入下一阶段。

二、剧本阶段:把网文改造成适合AI漫剧的分镜脚本

2.1 网文和漫剧脚本的本质区别

网文的叙事特点:

大量内心独白
环境描写细腻
时间跨度大
支线剧情多

AI漫剧的叙事限制:

内心独白需要外化(通过表情、动作、旁白)
环境描写需要视觉化(一个镜头就要看懂)
时间跨度需要压缩(每集3分钟,讲不了太长时间)
支线剧情需要砍掉(主线都讲不完)

2.2 网文到漫剧的转化公式

原则1:一句话=一个画面

错误示例(网文原文):
“林枫站在大厅中央,感受到无数道鄙夷的目光,心中涌起一股悲凉,想起三年前父亲去世时的场景,眼眶微微湿润。”

这句话包含:

空间信息:大厅中央
感受:鄙夷的目光
情绪:悲凉
回忆:父亲去世
表情:眼眶湿润

这些信息无法在一个镜头里呈现,需要拆解。

正确改写(分镜脚本):

镜头1(2秒):林枫站在大厅中央,低着头
镜头2(1秒):周围人鄙夷的眼神(快速切换3-4个人脸特写)
镜头3(2秒):林枫抬头,眼眶泛红
镜头4(3秒):闪回画面,父亲躺在病床上(黑白画面,1秒),父亲握着林枫的手(1秒),父亲闭眼(1秒)
镜头5(2秒):回到现实,林枫眼角一滴泪滑落

5个镜头,10秒,把原文的所有信息传递完毕。

原则2:内心独白=旁白or对话or表情

错误示例(网文原文):
“林枫心想:这些人当年巴结父亲的时候可不是这副嘴脸,现在父亲死了,一个个都露出真面目了。”

内心独白无法直接呈现,需要转化。

转化方案A:旁白

镜头:林枫看着周围人,面无表情
旁白(林枫的声音):"这些人,当年可不是这样的..."

优点:信息传递直接
缺点:旁白太多会显得廉价

转化方案B:对话外化

镜头:一个老者对旁边人说
老者:"唉,林家主死了,这孩子也就废了。"
旁边人:"当年咱们还得看林家主脸色,现在嘛..."(意味深长的笑)
镜头:林枫听到,拳头攥紧

优点:更有戏剧张力
缺点:需要增加角色和台词

转化方案C:纯表情呈现

镜头1:林枫看着一个老者
镜头2(闪回):同一个老者三年前对林枫父亲鞠躬的画面
镜头3:回到现实,老者转过头不看林枫
镜头4:林枫眼神变冷,嘴角冷笑

优点:最有电影感
缺点:需要更多镜头,时间成本高

根据剧情节奏选择方案:

如果这段是快节奏推进,用方案A
如果这段是情绪重点,用方案C
如果需要引出新角色,用方案B

原则3:环境描写=建立镜头

错误示例(网文原文):
“林家大厅建于百年前,红木立柱历经风雨,青石地板被磨得光滑,墙上挂着历代家主的画像,正中高台是家主之位,两侧是长老席位,整个大厅透着一股森严的气息。”

这段描写有200字,但在漫剧里只需要一个5秒的镜头。

正确改写(分镜脚本):

镜头(5秒):
- 运镜:从门口缓慢推进到高台
- 画面:红木立柱、青石地板、墙上画像、高台、长老席位依次进入画面
- 字幕:林家大厅
- 音效:低沉的鼓声

一个镜头,5秒,把环境信息全部传递。

关键:

不要试图用旁白念出环境描写
让画面自己说话
用运镜引导观众视线,依次看到重要元素

2.3 节奏控制的量化标准

每集3分钟=180秒,需要设计:

3个情绪高潮(每60秒一个)
6-8个情绪波动点(每20-30秒一个)
1个悬念钩子(结尾,让用户想看下一集)

情绪高潮的设计公式:

高潮=冲突+反转+视觉奇观

举例:第1集的第一个高潮(60秒位置)

冲突:
林枫被退婚,全场嘲笑

反转:
系统觉醒,林枫获得吞噬能力

视觉奇观:
金色光柱从天而降,系统界面浮现,林枫眼睛变成金色

具体分镜(10秒):

镜头1(2秒):全场哄笑,林枫低头
镜头2(1秒):林枫拳头攥紧,指甲刺进肉里,血滴落
镜头3(2秒):血滴落在地上,地面出现金色纹路
镜头4(2秒):金色纹路蔓延,形成法阵
镜头5(1秒):法阵爆发,金色光柱冲天
镜头6(2秒):林枫被光柱笼罩,眼睛变成金色,系统界面浮现

10秒,完成冲突-反转-奇观的完整循环。

情绪波动点的设计公式:

波动点=小冲突or小惊喜or信息揭示

举例:第1集的6个波动点

0-30秒:波动点1

内容:林枫出场,穿着破旧
情绪:从平静到不安
手法:对比(林枫破旧vs周围人华丽)

30-50秒:波动点2

内容:未婚妻站起来
情绪:从不安到紧张
手法:悬念(她要干什么?)

50-70秒:波动点3

内容:未婚妻说"退婚"
情绪:从紧张到震惊
手法:台词冲击

70-90秒:波动点4

内容:未婚妻说"你不配"
情绪:从震惊到屈辱
手法:羞辱升级

90-110秒:波动点5

内容:全场哄笑
情绪:从屈辱到绝望
手法:群体施压

110-130秒:波动点6

内容:林枫抬头,眼神变了
情绪:从绝望到愤怒
手法:情绪转折

每个波动点间隔20秒左右,保持用户注意力。

悬念钩子的设计公式:

钩子=未完成的动作+疑问+视觉冲击

举例:第1集结尾(170-180秒)

镜头1(3秒):林枫看着系统界面,上面显示"吞噬目标"
镜头2(2秒):林枫视线移向刚才嘲笑他的一个人
镜头3(2秒):那个人还在笑,突然感觉不对,笑容僵住
镜头4(2秒):林枫嘴角上扬,伸出手
镜头5(1秒):黑屏,一声惨叫
字幕:第2集 吞噬

10秒,完成钩子设计:

未完成的动作:林枫伸手,但没看到结果
疑问:他要干什么?那个人会怎样?
视觉冲击:黑屏+惨叫

用户必须看第2集才能知道答案。

2.4 台词的视觉化改造

原则:能用画面说的,不用台词

错误示例:

林枫:"我很生气!"

这是废话,用户看表情就知道。

正确改写:

林枫:(不说话,只是死死盯着对方,拳头攥得咯咯响)

错误示例:

长老:"林枫,你父亲三年前去世了,你现在是林家最弱的人,大家都看不起你。"

这是信息堆砌,不是人话。

正确改写:

长老:"林枫,你父亲去世三年了。"(停顿,看着林枫)
长老:"这三年,你可有寸进?"(质问的语气)
林枫:(低头,不说话)
长老:"废柴!"(一拍桌子)

把一句话拆成三句,配合动作和停顿,信息量一样,但更有戏剧张力。

台词的三个功能:

功能1:推进剧情
每句台词必须推动故事前进,不能闲聊。

错误示例:

甲:"今天天气不错。"
乙:"是啊,阳光明媚。"

这两句话没有推进剧情,删掉。

正确示例:

甲:"仪式开始了。"
乙:"林枫还没到。"
甲:"他不敢来了吧。"

三句话,建立了仪式、林枫缺席、可能逃跑三个信息,推进剧情。

功能2:塑造人物
每句台词要符合人物性格。

错误示例:

霸道长老:"林枫啊,你这样不行哦,要努力修炼哦。"

语气太温柔,不符合霸道人设。

正确示例:

霸道长老:"废物!三年了还是炼气一层,林家的脸都被你丢尽了!"

语气强硬,符合霸道人设。

功能3:制造冲突
台词要有锋芒,不能和和气气。

错误示例:

未婚妻:"林枫,我觉得我们不太合适,不如分开吧。"
林枫:"好的,我理解。"

没有冲突,没有戏。

正确示例:

未婚妻:"林枫,我要退婚。"
林枫:"为什么?"
未婚妻:"因为你不配。"(冷笑)
林枫:(攥紧拳头,咬牙)"你再说一遍?"
未婚妻:"你不配!听清楚了吗?"

每句话都在升级冲突,有戏剧张力。

2.5 一集完整脚本的标准格式

第1集脚本示例(3分钟=180秒)

【第一幕:建立世界观】(0-30秒)

场景1:林家大厅外景

镜头1(3秒):
- 景别:远景
- 内容:林家府邸全景,古色古香
- 字幕:林家,修仙世家,传承三百年
- 音效:悠扬的古琴声

镜头2(2秒):
- 景别:中景
- 内容:大门紧闭,门口两个守卫
- 运镜:推进到大门
- 音效:古琴声渐弱,鼓声渐起

场景2:林家大厅内景

镜头3(5秒):
- 景别:远景
- 内容:大厅全景,100人分两侧坐,中间通道空着
- 运镜:从门口推进到高台
- 音效:低沉鼓声+窃窃私语
- 字幕:林家家族大会

镜头4(4秒):
- 景别:中景
- 内容:三个家族成员侧脸,表情冷漠
- 台词:
  甲:"今天是林枫的成年礼。"
  乙:"三年了,还是炼气一层。"
  丙:"废柴。"
- 音效:窃窃私语

镜头5(4秒):
- 景别:近景
- 内容:高台上三个长老,中间长老手持卷轴
- 运镜:仰视,推进到长老脸部
- 音效:鼓声停止,安静

镜头6(4秒):
- 景别:全景
- 内容:大厅鸟瞰,所有人看向中间通道
- 音效:脚步声响起

镜头7(4秒):
- 景别:中景
- 内容:林枫从门口走进来,穿着破旧长袍,低着头
- 运镜:跟随林枫走
- 音效:脚步声+窃窃私语变大
- 台词(画外音):
  "是林枫。"
  "穿成这样,丢人。"
  "林家主泉下有知,得多伤心。"

镜头8(4秒):
- 景别:特写
- 内容:林枫的脸,年轻但憔悴,眼神躲闪
- 音效:心跳声(咚咚咚)

第一幕总结:

时长:30秒
镜头数:8个
信息量:世界观(修仙世家)、主角(林枫,废柴)、场景(家族大会)
情绪:压抑,不安
钩子:林枫出场,接下来会发生什么?

【第二幕:冲突建立】(30-90秒)

场景3:退婚

镜头9(3秒):
- 景别:中景
- 内容:林枫走到中央,停下,抬头看向高台
- 音效:脚步声停止,安静

镜头10(3秒):
- 景别:近景
- 内容:中间长老打开卷轴
- 台词:
  长老:"林枫,今日是你十八岁成年礼。"
- 音效:卷轴展开的声音

镜头11(2秒):
- 景别:特写
- 内容:林枫点头
- 台词:
  林枫:"是,长老。"(声音很小)

镜头12(3秒):
- 景别:中景
- 内容:人群中,一个美丽女子站起来
- 运镜:从林枫视角看过去,焦点从林枫转到女子
- 音效:衣服摩擦声+窃窃私语变大

镜头13(2秒):
- 景别:特写
- 内容:林枫表情疑惑
- 台词:
  林枫(心里):"雪儿?"

镜头14(3秒):
- 景别:近景
- 内容:女子(雪儿)走出来,站在通道里,和林枫相距5米
- 运镜:侧面拍,两人在画面两端
- 音效:脚步声+安静(所有人都在看)

镜头15(2秒):
- 景别:特写
- 内容:雪儿的脸,冷漠,没有表情
- 音效:心跳声(咚咚咚,更快)

镜头16(3秒):
- 景别:中景
- 内容:雪儿对着高台行礼
- 台词:
  雪儿:"长老,我有话说。"
- 音效:窃窃私语更大

镜头17(2秒):
- 景别:近景
- 内容:长老点头
- 台词:
  长老:"讲。"

镜头18(3秒):
- 景别:近景
- 内容:雪儿转身看向林枫
- 台词:
  雪儿:"我要退婚。"
- 音效:一声惊雷(音效)

镜头19(2秒):
- 景别:特写
- 内容:林枫瞳孔放大,震惊
- 音效:耳鸣声(嗡——)

镜头20(3秒):
- 景别:全景
- 内容:大厅所有人哗然,议论纷纷
- 音效:嘈杂的议论声
- 台词(多人画外音):
  "退婚?"
  "林枫被退婚了!"
  "哈哈哈!"

镜头21(3秒):
- 景别:近景
- 内容:林枫回过神,声音颤抖
- 台词:
  林枫:"为...为什么?"
- 音效:声音颤抖

镜头22(3秒):
- 景别:近景
- 内容:雪儿冷笑
- 台词:
  雪儿:"因为你不配。"
- 音效:冷笑声

镜头23(2秒):
- 景别:特写
- 内容:林枫拳头攥紧,指甲刺进肉里
- 音效:肉体撕裂声(细微)

镜头24(3秒):
- 景别:中景
- 内容:雪儿转身走回座位
- 台词:
  雪儿:"三年前,你父亲死了,你就是个废物。我等了三年,够了。"
- 音效:脚步声+哄笑声

镜头25(3秒):
- 景别:全景
- 内容:大厅所有人大笑
- 音效:哄笑声(很大)
- 台词(多人画外音):
  "废物!"
  "活该!"
  "林家的耻辱!"

镜头26(4秒):
- 景别:近景
- 内容:林枫低头,肩膀颤抖
- 音效:哄笑声+心跳声(咚咚咚)

第二幕总结:

时长:60秒
镜头数:18个
信息量:冲突(被退婚)、羞辱(你不配)、群体施压(全场嘲笑)
情绪:从疑惑到震惊到屈辱到绝望
钩子:林枫会怎么反应?

【第三幕:反转爆发】(90-180秒)

场景4:系统觉醒

镜头27(3秒):
- 景别:特写
- 内容:林枫的拳头,血滴落
- 音效:血滴声(滴答)

镜头28(2秒):
- 景别:特写
- 内容:血滴落在地上
- 音效:血滴声(滴答)

镜头29(3秒):
- 景别:特写
- 内容:地面上,血形成金色纹路
- 音效:嗡鸣声(低频)

镜头30(2秒):
- 景别:近景
- 内容:林枫抬头,眼神变了,不再躲闪
- 音效:嗡鸣声变大

镜头31(3秒):
- 景别:中景
- 内容:金色纹路蔓延,形成法阵
- 运镜:从地面拉到全景
- 音效:嗡鸣声+能量聚集声

镜头32(2秒):
- 景别:全景
- 内容:法阵爆发,金色光柱冲天
- 音效:爆发声(轰!)

镜头33(2秒):
- 景别:中景
- 内容:所有人震惊,停止嘲笑
- 音效:安静

镜头34(3秒):
- 景别:近景
- 内容:林枫被光柱笼罩,眼睛变成金色
- 运镜:旋转镜头,围绕林枫
- 音效:能量涌动声

镜头35(3秒):
- 景别:特写
- 内容:林枫眼前浮现系统界面
- 界面内容:
  【吞噬系统已激活】
  【宿主:林枫】
  【等级:1】
  【能力:吞噬】
- 音效:电子音(系统激活)

镜头36(2秒):
- 景别:特写
- 内容:林枫眼睛,金色光芒闪烁
- 音效:心跳声(咚!很重)

镜头37(3秒):
- 景别:近景
- 内容:长老站起来,震惊
- 台词:
  长老:"这...这是什么力量?"
- 音效:颤抖的声音

镜头38(3秒):
- 景别:全景
- 内容:金色光柱消失,林枫站在原地,气质完全不同
- 运镜:从上往下俯视
- 音效:能量消散声

镜头39(2秒):
- 景别:近景
- 内容:雪儿震惊,不可置信
- 台词:
  雪儿:"怎么可能..."
- 音效:颤抖的声音

镜头40(3秒):
- 景别:中景
- 内容:林枫抬头,看向雪儿,嘴角上扬
- 台词:
  林枫:"不配?"(冷笑)
- 音效:冷笑声

镜头41(3秒):
- 景别:近景
- 内容:系统界面再次浮现
- 界面内容:
  【检测到可吞噬目标】
  【目标:王虎(炼气三层)】
  【是否吞噬?】
- 音效:电子音

镜头42(2秒):
- 景别:中景
- 内容:林枫视线移向刚才嘲笑最凶的一个壮汉(王虎)
- 运镜:视线跟随
- 音效:锁定声(滴)

镜头43(2秒):
- 景别:近景
- 内容:王虎还在笑,突然感觉不对,笑容僵住
- 音效:笑声停止

镜头44(3秒):
- 景别:中景
- 内容:林枫伸出手,对准王虎
- 台词:
  林枫:"你,过来。"
- 音效:低沉的声音

镜头45(2秒):
- 景别:近景
- 内容:王虎惊恐,想跑,但身体不受控制
- 台词:
  王虎:"不!不要!"
- 音效:惊恐的叫声

镜头46(3秒):
- 景别:全景
- 内容:王虎被一股力量拉向林枫,在空中挣扎
- 运镜:跟随王虎移动
- 音效:能量拉扯声+惨叫声

镜头47(2秒):
- 景别:特写
- 内容:林枫的手,金色光芒涌动
- 音效:能量聚集声

镜头48(1秒):
- 景别:特写
- 内容:林枫的眼睛,金色光芒更盛
- 音效:能量爆发声

镜头49(2秒):
- 景别:全景
- 内容:黑屏,一声惨叫
- 音效:惨叫声(啊——!)

镜头50(3秒):
- 景别:全景
- 内容:画面恢复,王虎倒在地上,生死不明,林枫站在原地
- 音效:安静,只有呼吸声

镜头51(2秒):
- 景别:特写
- 内容:系统界面
- 界面内容:
  【吞噬成功】
  【获得修为:炼气三层】
  【当前等级:炼气三层】
- 音效:电子音(成功提示音)

镜头52(3秒):
- 景别:近景
- 内容:林枫感受力量,握拳,金色光芒闪烁
- 台词:
  林枫:"这就是...力量。"(低语)
- 音效:能量涌动声

镜头53(3秒):
- 景别:全景
- 内容:大厅所有人惊恐,鸦雀无声
- 音效:安静

镜头54(3秒):
- 景别:近景
- 内容:林枫转身看向雪儿
- 台词:
  林枫:"你刚才说,我不配?"(冷笑)
- 音效:冷笑声

镜头55(2秒):
- 景别:特写
- 内容:雪儿惊恐,后退
- 音效:脚步声(后退)

镜头56(2秒):
- 景别:特写
- 内容:林枫嘴角上扬
- 音效:冷笑声

镜头57(1秒):
- 景别:黑屏
- 字幕:第2集 吞噬
- 音效:能量爆发声

第三幕总结:

时长:90秒
镜头数:31个
信息量:反转(系统觉醒)、能力展示(吞噬)、爽点(踩回去)
情绪:从绝望到震撼到爽
钩子:林枫会对雪儿做什么?

【全集总结】

总时长:180秒(3分钟)
总镜头数:57个
平均每个镜头:3.2秒
情绪曲线:压抑(0-30秒)→屈辱(30-90秒)→爽(90-180秒)
信息密度:每10秒一个信息点
爽点密度:每30秒一个小爽点,60秒一个大爽点

三、分镜阶段:把脚本转化成可执行的视觉指令

3.1 手绘分镜的标准流程

很多人以为AI时代不需要手绘分镜,这是最大的误区。手绘分镜是导演和AI之间的翻译器。

工具准备:

A4纸(每页画4个分镜格子)
铅笔(方便修改)
橡皮
尺子(画分镜框)
参考图(角色、场景、运镜参考)

单个分镜的标准格式:

┌─────────────────────────────────┐
│  镜号:01        时长:3秒         │
│  景别:远景      机位:平视         │
├─────────────────────────────────┤
│                                 │
│      [这里画分镜草图]             │
│                                 │
│                                 │
│                                 │
├─────────────────────────────────┤
│ 运镜:从门口推进到高台             │
│ 台词:无                          │
│ 音效:低沉鼓声                    │
│ 备注:强调纵深感和压迫感           │
└─────────────────────────────────┘

草图的绘制要求:

不需要画得很精美,但必须包含:

画面比例框(16:9)
用尺子画出标准比例框,不能随意
**透视线# AI漫剧"抽卡师"工作内容超细颗粒度拆解

让我把抽卡师的每一个动作、每一个思考环节都拆开来看。

一、接到任务的那一刻

1. 拿到分镜脚本

打开项目文件夹
看到导演/编剧给的分镜表格
这一行写着：第23镜，男主转身看向窗外，3秒
旁边可能有个参考图或者手绘分镜草图

2. 理解这个镜头要什么

读这句话：“男主转身看向窗外”
在脑子里想象这个动作
转多少度？180度还是90度？
转的速度？快还是慢？
表情有变化吗？
头发会飘吗？
衣服会动吗？

3. 找到对应的漫画素材

打开漫画源文件（PSD或PNG）
翻到对应的章节和页面
找到男主正面站立的那一格
找到男主侧身看窗外的那一格
把这两张图导出来

二、准备首尾帧（每一个小步骤）

4. 处理首帧图片

打开Photoshop或其他图像软件
导入男主正面图
检查图片尺寸：1920x1080？1080x1920？
如果是漫画格子，可能是奇怪的比例，比如800x1200
看一眼AI工具要求的比例
发现AI要求16:9或9:16
开始裁剪或调整画布
裁的时候要保证人物主体不被切掉
保存为"镜头23_首帧.png"

5. 处理尾帧图片

导入男主侧身图
重复上面的裁剪调整步骤
但要保证和首帧是完全相同的尺寸和比例
比如首帧是1920x1080，尾帧也必须是1920x1080
保存为"镜头23_尾帧.png"

6. 检查首尾帧的匹配度

把两张图并排放在屏幕上
看人物的位置：首帧里人在画面中间，尾帧里人也在中间吗？
看人物的大小：首帧里脸占画面1/4，尾帧里也是1/4吗？
看背景：窗户在首帧的右边，尾帧里还在右边吗？
如果不匹配，要重新调整其中一张图的构图

三、打开AI工具界面

7. 登录AI平台

打开浏览器
输入即梦/海螺/Sora的网址
登录账号
看一眼右上角的token余额：还剩35个
心里算一下：够做3个镜头，得省着点用

8. 进入视频生成页面

点击"创建新视频"按钮
页面跳转，出现上传区域和参数设置区域
界面上有：
- 首帧上传框
- 尾帧上传框
- 提示词输入框（一个大大的文本框）
- 时长选择（2秒/3秒/5秒）
- 运动幅度滑块（1-10）
- 生成按钮

9. 上传首尾帧

点击首帧上传框
从文件夹里选"镜头23_首帧.png"
等待上传，看到进度条从0%到100%
图片出现在预览区
重复操作，上传尾帧
两张图都显示在界面上了

四、编写第一版提示词（思考过程）

10. 开始构思提示词

鼠标点进提示词输入框
光标在闪烁
脑子里想：我要怎么描述这个动作？

11. 写下第一句

输入：

一个男性角色

停顿，想想还要加什么
要不要描述外貌？穿什么衣服？
看一眼首帧图片：黑色短发，白色衬衫
继续输入：

一个黑色短发、穿白色衬衫的男性角色

12. 描述动作

想：他要转身
输入：

转身

觉得太简单了，AI可能理解不准
改成：

从正面转向侧面

还是觉得不够清楚
再改：

身体从正面朝向逐渐旋转90度至侧面朝向

13. 描述目标

想：他转身是为了看窗外
加上：

视线转向画面右侧的窗户

14. 描述动作细节

想：转身的时候，是头先动还是身体先动？
回忆一下真人转身的样子
一般是头先转，身体跟着
加上：

头部先转动，身体随后跟随

15. 描述速度和流畅度

想：3秒的时长，应该是比较自然的速度
加上：

动作流畅自然，速度适中

16. 加上保持一致性的要求

想：AI经常会把人脸搞变形
必须强调一下
加上：

保持人物面部特征不变，五官位置固定

17. 检查背景

想：背景不要乱动
加上：

背景保持静止

18. 完整的第一版提示词

现在文本框里是：

一个黑色短发、穿白色衬衫的男性角色，身体从正面朝向逐渐旋转90度至侧面朝向，视线转向画面右侧的窗户，头部先转动，身体随后跟随，动作流畅自然，速度适中，保持人物面部特征不变，五官位置固定，背景保持静止。

19. 读一遍

从头到尾读一遍
觉得应该差不多了
但心里还是有点没底：AI会不会理解错？

五、第一次生成（抽卡开始）

20. 设置参数

时长：选择3秒
运动幅度：拖动滑块到6（中等）
其他参数保持默认

21. 检查token

再看一眼右上角：还剩35个token
这次会消耗10个（因为有首尾帧）
点击"生成"按钮

22. 等待生成

按钮变灰，不能再点击
出现提示：“正在生成中，预计需要1-2分钟”
下面有个进度条，但它不是线性增长的
有时候停在30%很久，突然跳到80%
盯着屏幕看
或者切出去刷个手机
但每隔10秒就切回来看一眼
心里想：这次应该能成吧？

23. 生成完成

听到"叮"的一声提示音
进度条到100%
视频预览窗口出现了画面
右上角token变成25了

24. 第一遍观看

鼠标移到播放按钮上
点击播放
眼睛盯着屏幕
3秒的视频开始播放
看到：
- 人物确实在转身
- 但是…

六、检查结果（第一次失败）

25. 发现问题

播放完3秒，暂停，倒回去重新看

第1秒：

人物开始转动
脸部开始变化
等等，鼻子好像变大了？

第2秒：

转身角度到了一半
脸已经明显变形了
眼睛一大一小
下巴变尖了

第3秒：

转到侧面
但这个侧脸和尾帧的侧脸不太一样
而且头发变长了

26. 逐帧检查

点击进度条，拖动到第1秒的位置
截图保存
拖到第2秒
截图保存
拖到第3秒
截图保存
把三张截图和首尾帧放在一起对比

27. 列出问题清单

在笔记本上写下：

❌ 鼻子变大
❌ 眼睛变形
❌ 下巴变尖
❌ 头发变长
✓ 转身角度还可以
✓ 背景没有乱动

28. 分析原因

想：

为什么脸会变形？
是不是提示词里"保持面部特征"这句话AI没理解？
还是说法不够强烈？
要不要换个说法？

七、调整提示词（第二次尝试）

29. 修改提示词策略

决定：

把"保持面部特征"改得更具体
不说"面部特征"，直接说"鼻子、眼睛、下巴"

30. 修改提示词

回到提示词输入框，原来是：

保持人物面部特征不变，五官位置固定

改成：

严格保持鼻子大小和形状不变，眼睛大小和位置固定，下巴轮廓不改变，头发长度保持一致

31. 完整的第二版提示词

一个黑色短发、穿白色衬衫的男性角色，身体从正面朝向逐渐旋转90度至侧面朝向，视线转向画面右侧的窗户，头部先转动，身体随后跟随，动作流畅自然，速度适中，严格保持鼻子大小和形状不变，眼睛大小和位置固定，下巴轮廓不改变，头发长度保持一致，背景保持静止。

32. 再次生成

点击"重新生成"按钮
Token从25变成15
又是1-2分钟的等待
刷手机，但心里惦记着
心想：这次应该好了吧？

33. 第二次结果

生成完成
播放
看到：
- 脸还是变形了
- 虽然和第一次不太一样
- 但鼻子还是有点歪
- 眼睛倒是没那么夸张了
- 但整个脸好像胖了一圈

34. 情绪波动

叹一口气
想：怎么还是不行？
看一眼token：还剩15个
算一下：只够再试1次了
今天的免费额度快用完了

八、第三次尝试（换个思路）

35. 重新思考策略

想：

可能不是提示词的问题
可能是首尾帧的问题
两张图里人物的角度差太大了？
AI无法平滑过渡？

36. 检查首尾帧

打开首帧：正面，0度
打开尾帧：侧面，90度
想：从0度到90度，跨度确实挺大
要不要找一张45度的中间帧？

37. 寻找中间帧

回到漫画源文件
翻页查找
找了5分钟
没有找到合适的45度角度
想：要不自己P一张？
打开Photoshop
尝试用变形工具把正面图调整成45度
弄了10分钟
效果很差，看起来很假

38. 放弃中间帧方案

想：算了，还是继续改提示词吧
关闭Photoshop

39. 第三版提示词

这次换个完全不同的写法，参考网上看到的"高级提示词技巧"：

[人物]黑色短发男性，白色衬衫
[动作]头部带动身体，从0度正面旋转至90度右侧面
[目标]视线落在右侧窗户
[时长]3秒，匀速
[约束]锁定面部几何结构，禁止五官变形，禁止头发长度改变
[背景]静止
[风格]自然流畅

40. 第三次生成

点击生成
Token从15变成5
心里有点紧张：这是今天最后一次机会了
等待
1分钟
2分钟
生成完成

41. 第三次结果

播放
这次…
脸没那么变形了！
但是出现了新问题：
- 衣服的纹理在闪烁
- 白衬衫上出现了奇怪的阴影
- 而且阴影在跳动
- 背景的窗户边缘有点模糊抖动

42. 纠结时刻

想：

脸的问题算是解决了70%
但衣服和背景又出问题了
是接受这个版本？
还是继续改？
但token已经只剩5个了
不够再生成一次

九、决策与妥协

43. 评估可用性

把三次生成的结果放在一起对比：

第一次：脸变形严重，但衣服和背景还行
第二次：脸还是变形，整体更差
第三次：脸基本可以，但衣服背景有问题

44. 思考后期修复可能性

想：

衣服的闪烁能不能后期用AE修掉？
背景的抖动能不能用稳定器？
如果能修，第三次的结果就可以用
如果不能修，就得等明天token刷新了再继续

45. 咨询后期同事

打开微信
发给负责后期的同事
“这个衣服闪烁能修吗？”
发送视频文件
等待回复
5分钟后收到回复：“可以试试，但很费时间，可能要逐帧处理”

46. 计算时间成本

想：

这个镜头已经花了：
- 准备首尾帧：20分钟
- 写提示词和生成：3次 × 15分钟 = 45分钟
- 总共65分钟
如果后期再花30分钟修
一个3秒镜头就是95分钟
一集150个镜头…
算不下去了

47. 做出决定

决定：

先标记这个镜头为"待优化"
继续做下一个镜头
等所有镜头都做完第一遍
再回来统一优化

十、开始下一个镜头（循环继续）

48. 看下一个任务

回到分镜表格
第24镜：女主回头微笑，2秒
想：这个应该简单点吧？就是个回头
但又想：上一个"转身"都这么难，"回头"会不会也…

49. 重复整个流程

找漫画素材
导出首尾帧
调整尺寸
上传
写提示词
生成
检查
发现问题
修改
再生成
…

50. 遇到新问题：微笑表情

这次的新挑战：

首帧：女主面无表情
尾帧：女主微笑
不仅要转头，表情还要变化
提示词要怎么写？
“从面无表情过渡到微笑”？
“嘴角逐渐上扬”？
“眼睛微微眯起，嘴唇弯曲成微笑”？

51. 第一次生成：表情僵硬

生成出来
女主确实在笑
但笑得很诡异
嘴角的弧度不自然
像是被强行拉扯出来的
有种恐怖片的感觉

52. 第二次生成：表情过度

改了提示词：“自然的、温柔的微笑”
生成出来
这次笑得太夸张了
从淡淡的微笑变成了哈哈大笑
完全不符合剧情需求

53. 第三次生成：又出现新bug

再改提示词：“嘴角轻微上扬3-5度”
生成出来
表情这次还可以
但头发炸了
回头的时候头发跟着甩
但甩出了一种爆炸的效果
发丝乱飞，像是在风洞里

十一、特殊情况：漫画格子的噩梦

54. 遇到竖版格子

第30镜：一个竖长条的格子
尺寸是600x1800
AI要求的比例是16:9或9:16
600x1800换算是1:3
完全不匹配

55. 尝试裁剪

如果裁成9:16（比如1080x1920）
要么上下裁掉很多内容
要么左右加黑边
裁掉内容的话，人物可能不完整
加黑边的话，画面会很奇怪

56. 尝试拉伸

把600x1800强行拉伸成1080x1920
人物变形了，变矮变胖
完全不能用

57. 放弃这个镜头

在表格里标注：“此镜头无法使用AI生成”
决定后期用静态图+镜头推拉来处理
继续下一个

十二、特殊情况：台词乱码

58. 遇到带台词的格子

第45镜：人物说话，对话框里有台词
首帧：对话框里写着"你好吗?"
尾帧：对话框还在，台词一样

59. 第一次生成：台词变乱码

生成出来
对话框还在
但里面的字变成了：
- “伱女子马?”
- 或者"###@吗?"
- 或者完全不可读的符号

60. 尝试在提示词里强调

加上：

保持对话框内文字清晰可读，文字内容为"你好吗?"

61. 第二次生成：还是乱码

文字还是乱的
而且这次对话框的形状也变了
从圆角矩形变成了不规则形状

62. 尝试更强的约束

改成：

冻结对话框区域，文字完全不变，逐字保持：你、好、吗、?

63. 第三次生成：文字消失了

这次更绝
对话框还在
但里面的字完全消失了
变成空白对话框

64. 查找解决方案

打开搜索引擎
搜索：“AI视频生成文字乱码怎么办”
看到一堆讨论帖
大家都说这是AI的通病
目前没有完美解决方案
建议：生成无字版本，后期用PR或AE加字幕

65. 接受现实

决定：所有带台词的镜头都生成无字版
后期统一加字幕
但这又增加了大量后期工作

十三、特殊情况：群像戏

66. 遇到多人镜头

第67镜：三个人同时转头看向门口
首帧：三个人都是正面
尾帧：三个人都转向右侧

67. 第一次生成：集体变脸

生成出来
三个人确实都在转头
但：
- 左边的短发女生变成了长发
- 中间的男生脸变圆了
- 右边的长发女生的脸和左边的短发女生串了
- 三个人的脸在动画过程中互相"借用"特征

68. 尝试详细描述每个人

提示词改成：

画面左侧：黑色短发女性，圆脸，穿红色衣服
画面中间：棕色短发男性，方脸，穿蓝色衬衫
画面右侧：金色长发女性，瓜子脸，穿白色连衣裙
三人同时从正面转向右侧，各自保持独立的面部特征，不互相影响

69. 第二次生成：还是串脸

描述得这么详细了
还是串
而且这次更乱
三个人的衣服颜色都开始互换了

70. 尝试分开生成

决定：

把三个人分别抠出来
做三个单人转头的视频
然后后期合成到一起

71. 抠图工作

打开Photoshop
用魔棒工具选中左边的女生
删除其他两个人
填充背景
导出
重复操作，抠出另外两个人
花了30分钟

72. 分别生成三个视频

上传第一个人的首尾帧
写提示词，生成
上传第二个人的首尾帧
写提示词，生成
上传第三个人的首尾帧
写提示词，生成
每个都要检查、调整、重新生成
又花了1个小时

73. 后期合成

把三个视频导入AE
调整位置，让三个人回到原来的位置
处理边缘融合
调整光影一致性
渲染输出
又花了40分钟

74. 计算这个镜头的总时间

抠图：30分钟
生成三个视频：60分钟
后期合成：40分钟
总共：130分钟 = 2小时10分钟
这还只是一个3秒的镜头

十四、心理状态的变化

75. 第1-10个镜头：充满希望

觉得AI很神奇
虽然有问题，但觉得可以解决
每次点"生成"都很期待
心想：这次肯定能成！

76. 第11-30个镜头：开始疲惫

发现问题总是重复出现
脸变形、衣服闪烁、背景抖动
提示词改来改去，效果差不多
开始怀疑：是不是我的方法不对？

77. 第31-50个镜头：麻木

已经不抱太大期望了
生成出来，先看有没有致命bug
没有致命bug就算过关
不再追求完美
只求能用

78. 第51-80个镜头：挫败

遇到越来越多的特殊情况
竖版格子、台词乱码、群像戏
每个都是新的坑
开始怀疑：这个项目到底能不能做完？

79. 第81-100个镜头：机械重复

已经完全进入机械状态
上传、写提示词、生成、检查、修改
像流水线工人一样
不再思考，只是执行
脑子是空的

80. 第101-150个镜头：煎熬

看到进度条：还有50个
心里想：什么时候才能结束
每做完一个，就在表格里打个勾
盯着那些勾，数着数字
像在数刑期

十五、Token消耗的焦虑

81. 免费token用完

第二天，继续工作
打开AI平台
看到token又刷新到70个
心里松了一口气

82. 计算今天能做多少

70个token
每个镜头平均要生成3-5次
每次10个token
70 ÷ (4×10) = 1.75
今天只能完成1-2个镜头？
不对，算错了
70 ÷ 10 = 7次生成机会
如果每个镜头平均4次，能做1-2个镜头
150个镜头要做75-150天？

83. 考虑付费

看付费套餐
最便宜的：100元 = 500 token
500 ÷ 10 = 50次生成
能做10-12个镜头
150个镜头需要：150 ÷ 11 × 100 = 1364元
想：这个项目承制费是多少来着？
翻合同：10分钟，50元/分钟，共500元
如果花1364元做，亏864元
算了，还是慢慢用免费的吧

84. 每次生成前的犹豫

鼠标悬停在"生成"按钮上
想：这次会成功吗？
如果不成功，就浪费了10个token
要不要再检查一遍提示词？
再读一遍提示词
改了一个标点符号
还是觉得没把握
但总要试的
点击"生成"
心跳加速

85. 生成失败后的懊恼

又失败了
看着token数字减少
心里很难受
想：刚才如果提示词再改改，是不是就能成功？
但已经晚了，token已经扣了
无法撤回

十六、与AI的"玄学"互动

86. 发现规律的假象

做了30个镜头后
觉得自己找到规律了
“只要提示词里加上’严格保持’这个词,效果就会好”
信心满满地应用到下一个镜头
结果还是失败
规律不存在

87. 迷信时刻

发现连续失败5次后
第6次突然成功了
想：是不是AI有"连败保护机制"？
像游戏抽卡一样，抽多了总会出好东西
开始相信这个理论
但后来又连续失败10次
理论破产

88. 对着电脑拜三拜

要做一个超级复杂的镜头
五个人的打斗场面
知道成功率很低
真的对着电脑拜了三拜
嘴里念叨：“求求你了，这次一定要成功”
点击生成
结果还是失败
苦笑

89. 尝试改变"运气"

失败太多次后
开始尝试各种"改运"方法：
- 换个时间段生成（凌晨AI会不会状态好点？）
- 换个浏览器（Chrome不行试Firefox？）
- 重启电脑（重启解决一切问题？）
- 先做简单的镜头"攒人品"
当然，这些都没用

90. 和AI"对话"

在提示词里加上：
- “拜托了”
- “请”
- “一定要”
知道AI不会理解这些
但还是忍不住加上
像是在和一个任性的小孩沟通

十七、和其他抽卡师的交流

91. 加入抽卡师群聊

在网上找到一个"AI漫剧制作交流群"
加入
发现里面500多人
都是和自己一样的抽卡师

92. 看到相似的吐槽

群里的消息：

“又双叒叕变脸了，崩溃”
“为什么我的角色总是长出六根手指？”
“台词乱码有解吗？在线等，挺急的”
“token烧完了，今天做不了了”
“这个月已经亏了2000块”

93. 分享"成功经验"

有人发消息：

“我发现了一个技巧！提示词里加上’高质量’三个字，效果会好很多！”
很多人回复：“真的吗？我试试！”
10分钟后：
- “没用”
- “还是失败”
- “可能是我运气不好”

94. 互相安慰

“兄弟们，坚持住，熬过这个项目就好了”
“下个项目我不做AI漫剧了，太折磨人了”
“但是不做这个，还能做什么呢？”
群里沉默

95. 看到有人退出

有人发消息：“我不干了，这个钱赚得太痛苦”
有人问：“那你接下来做什么？”
回复：“不知道，先休息一段时间”
然后退群了
群成员数：499人

十八、身体和精神的消耗

96. 眼睛疲劳

盯着屏幕10个小时
检查每一帧的细节
眼睛干涩、发痛
滴眼药水
继续工作

97. 腰酸背痛

一直坐着
姿势僵硬
腰开始疼
站起来活动一下
但5分钟后又坐回去
因为还有100个镜头没做完

98. 睡眠质量下降

晚上躺在床上
闭上眼睛
脑子里还在想：
- 那个镜头的提示词要不要再改改？
- 明天的token够不够用？
- 这个项目什么时候能做完？
失眠到凌晨3点

99. 做梦都在抽卡

好不容易睡着了
梦到自己在生成视频
梦里的AI一直失败
一直失败
惊醒
一身冷汗

100. 情绪波动

早上起来：今天一定要多做几个镜头
中午：怎么又失败了，烦死了
下午：算了，差不多就行
晚上：我为什么要做这个工作？
深夜：明天继续吧，还能怎么办呢

十九、项目接近尾声

101. 还剩最后10个镜头

看到进度：140/150
心里有点激动：快结束了
但又有点担心：最后这10个会不会特别难？

102. 遇到最难的镜头

第145镜：大结局的高潮场面
10个人的群像
背景是复杂的城市街道
还有特效：爆炸、烟雾
看着这个需求
想：这根本不可能用AI做出来

103. 尝试简化

和导演商量：能不能改成简单点的？
导演：这是高潮，不能简化
只能硬着头皮做

104. 分解成20个子任务

把这个镜头拆成：
- 10个人物单独的动作
- 背景单独生成
- 爆炸特效单独生成
- 烟雾特效单独生成
- 最后合成
光是这一个镜头，就花了3天

105. 最终完成

第150个镜头做完
点击保存
导出最终视频
看着进度条：100%
长舒一口气

二十、项目复盘

106. 统计总耗时

打开工作日志
统计：
- 总工作时间：180小时
- 平均每个镜头：1.2小时
- 总生成次数：约600次
- 平均每个镜头生成4次
- Token总消耗：约6000个
- 付费购买token：500元

107. 计算收入

项目承制费：10分钟 × 50元 = 500元
减去token成本：500 - 500 = 0元
时薪：0元 ÷ 180小时 = 0元/小时
白干了

108. 身体代价

颈椎病加重
视力下降
失眠持续了一个月
体重下降了5斤（压力大，吃不下饭）

109. 心理代价

对AI产生了厌恶感
听到"生成"这个词就烦
看到"抽卡"两个字就想吐
对自己的工作价值产生怀疑

110. 思考未来

问自己：还要继续做抽卡师吗？
如果不做，能做什么？
如果继续做，怎么才能提高效率？
或者，这个行业本身就是个坑？

总结：抽卡师工作的本质

把上面110个步骤浓缩一下，抽卡师的工作本质是：

重复性：同样的流程重复几百次
不确定性：每次结果都不可预测
低技术含量：主要靠体力和耐心，不是技术
高时间成本：大量时间花在等待和重试上
低经济回报：投入和产出严重不成正比
心理消耗：持续的挫败感和无力感
身体损害：长时间盯屏幕、久坐
创造性缺失：不是在创作，是在和工具搏斗

这就是为什么抽卡师被称为"最惨牛马"——不是因为工作强度大（虽然确实大），而是因为这种工作把人变成了AI系统的修补工具，消耗了人的时间、金钱、健康和尊严，却没有给人带来相应的价值和成就感。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

多智能体神话破灭？人多不一定力量大，一个模型可能更聪明

2048 AI社区

Datawhale Easy Vibe 课程 task1：vibe coding 入门，用说话来编程制作极简任务管理系统

由于你的代码已经是一个独立的 HTML 文件（包含了 CSS 和 JS），不需要复杂的构建过程。我想让 AI 生成一个网页极简任务管理系统，需要一个更完整的提示词，让生成结果更令人印象深刻和有趣。把优化的提示词输入智谱z.ai，在右边测试模型制作的应用，发现bug和缺少的功能，在左边通过对话的形式，让AI不断优化代码。描述：一个具有禅意美学的任务管理工具，专注于简单和高效的任务组织。，访问时不需要