对AI漫剧抽卡师工作内容的手术刀级颗粒度拆解
看到进度:140/150心里有点激动:快结束了但又有点担心:最后这10个会不会特别难?重复性:同样的流程重复几百次不确定性:每次结果都不可预测低技术含量:主要靠体力和耐心,不是技术高时间成本:大量时间花在等待和重试上低经济回报:投入和产出严重不成正比心理消耗:持续的挫败感和无力感身体损害:长时间盯屏幕、久坐创造性缺失:不是在创作,是在和工具搏斗。
我们要把每一个创作决策拆解到可以直接执行的操作指令级别。
一、选题的第0天:用200元测试一个题材是否成立
1.1 测试前的准备清单(30分钟)
步骤1:写出故事的三句话版本
- 第一句:主角是谁+初始状态(15字以内)
- 第二句:遭遇什么冲突+获得什么能力(20字以内)
- 第三句:用能力达成什么目标(15字以内)
错误示例:“一个少年在家族被欺负,后来变强了,打败所有人”
- 问题:信息模糊,无法指导后续创作
正确示例:“废柴少爷林枫/家族大会被退婚/觉醒吞噬系统吞噬敌人修为/三个月内踩爆退婚者”
- 为什么正确:有具体名字、具体场景、具体能力机制、具体时间目标
步骤2:画出情绪曲线图(15分钟)
拿一张A4纸,横轴是时间(按集数),纵轴是情绪强度(1-10分)
第1集的情绪设计:
- 0-30秒:情绪值3分(日常场景,被欺负)
- 30秒-1分钟:情绪值跌到1分(被退婚,全场嘲笑)
- 1分钟-1分30秒:情绪值拉到7分(系统觉醒,金光特效)
- 1分30秒-2分钟:情绪值冲到9分(当场吞噬一个嘲笑者的修为)
关键指标:
- 情绪低谷不能超过40秒(用户会流失)
- 第一个高潮必须在90秒内出现
- 每集至少3个情绪波峰,波峰间隔不超过45秒
步骤3:列出必需场景清单(15分钟)
第1集需要的场景:
- 家族大厅(主场景,会反复使用)
- 林枫的破旧小院(对比场景)
- 系统空间(特效场景,纯黑背景+发光界面)
每个场景写明:
- 时代背景:古代/现代/未来
- 建筑风格:中式/欧式/赛博朋克
- 色调:暖色/冷色/对比色
- 光源:自然光/人工光/魔法光
- 参考图:找3张风格接近的图片
家族大厅的详细描述:
时代:古代修仙世界
风格:中式宫殿,红木立柱,青石地板
色调:暗红色为主(压抑感),金色点缀(权力象征)
光源:顶部天窗自然光+两侧灯笼暖光
空间:纵深15米,宽10米,高8米
陈设:正中高台3个座位,两侧各5排座位
参考:故宫太和殿内景+《庆余年》鉴查院大厅+某游戏CG截图
为什么要这么细?因为后面AI生成场景时,这些描述会直接转化成提示词。
1.2 第一次生成测试(2小时)
测试目标:验证3个核心要素能否被AI准确生成
要素1:主角形象的稳定性
生成主角林枫的10个不同角度:
- 正面平视
- 45度侧面
- 背面
- 仰视(从下往上看)
- 俯视(从上往下看)
- 左侧面
- 右侧面
- 3/4侧面(左)
- 3/4侧面(右)
- 远景全身
判断标准:
- 面部特征一致性:眼睛形状、鼻梁高度、嘴唇厚度误差不超过5%
- 发型一致性:发际线位置、头发长度、刘海走向完全一致
- 体型一致性:肩宽、身高比例、体态特征一致
- 服装一致性:衣服款式、颜色、破损位置一致
测试方法:
把10张图并排放在一起,遮住其他部分只看眼睛,如果你能一眼认出"这是同一个人",就通过。
常见问题及解决:
问题1:正面和侧面像两个人
- 原因:AI对角色的3D理解不足
- 解决:先生成正面标准照,然后每次生成都引用这张图作为参考
- 具体操作:在提示词里加入"与参考图同一人物,仅改变角度"
问题2:远景时面部细节丢失
- 原因:分辨率不够
- 解决:远景镜头不展示面部细节,用体态和服装特征识别
- 具体操作:设计一个标志性服装元素(比如左肩有个破洞),远景时靠这个识别
问题3:不同情绪表情时五官变形
- 原因:AI把表情和五官结构混淆
- 解决:分开生成,先生成标准脸,再用工具调整表情
- 具体操作:建立表情库,愤怒、惊讶、得意、绝望各生成5个版本备用
要素2:关键场景的氛围营造
生成家族大厅场景的5个版本:
- 版本1:白天,阳光从天窗洒下
- 版本2:傍晚,昏黄光线
- 版本3:夜晚,灯笼照明
- 版本4:阴天,压抑氛围
- 版本5:雨天,窗外雨声
判断标准:
- 建筑结构一致性:柱子数量、位置、粗细完全一致
- 空间比例一致性:纵深感、透视关系一致
- 可识别度:用户看到任何一个版本都能认出"这是家族大厅"
测试方法:
把5张图的建筑轮廓描出来,叠加在一起,误差不超过10%就通过。
常见问题及解决:
问题1:每次生成的柱子数量不一样
- 原因:AI对数量概念模糊
- 解决:在提示词里精确描述"左侧3根红木立柱,右侧3根红木立柱,正中高台后2根"
- 验证:生成后数柱子,不对就重新生成
问题2:透视关系混乱,近处的人比远处的柱子还大
- 原因:AI空间理解错误
- 解决:分层生成,背景、中景、前景分开做,后期合成
- 具体操作:先生成纯场景(无人物),再把人物抠图放进去,手动调整比例
问题3:光影不统一,左边是白天右边是黑夜
- 原因:AI对全局光照理解不足
- 解决:在提示词里明确光源方向"顶部天窗自然光从右上方45度角射入"
- 验证:检查所有物体的阴影方向是否一致
要素3:特效场景的视觉冲击力
生成"系统觉醒"场景的3个版本:
- 版本1:金色光柱从天而降,笼罩主角
- 版本2:主角身体发光,周围出现古文字环绕
- 版本3:主角眼睛变成金色,身后浮现虚影
判断标准:
- 视觉冲击力:截图发给10个人,8个以上说"很炫"就通过
- 可识别度:用户看到这个特效就知道"主角开挂了"
- 可复用性:后续每次系统出现都用类似特效,形成记忆点
测试方法:
把特效场景做成3秒短视频,发到测试群,统计"哇"“牛逼”"这什么"等惊叹词出现频率。
常见问题及解决:
问题1:特效太花哨,看不清主角
- 原因:特效抢了主体
- 解决:特效只占画面30%面积,主角必须清晰可见
- 具体操作:先生成主角,再叠加特效层,特效透明度控制在60-70%
问题2:特效看起来很廉价,像PPT动画
- 原因:运动轨迹太规则
- 解决:加入随机性和细节,比如光粒子大小不一,运动速度有快有慢
- 具体操作:用粒子系统生成,而不是简单的光晕滤镜
问题3:特效和场景风格不搭,修仙世界出现了科技感光效
- 原因:特效素材库选错
- 解决:建立分类特效库,修仙用古风符文+金色光,科幻用蓝色数据流,魔法用紫色能量
- 具体操作:每个题材提前准备20个特效预设
1.3 第一次分镜测试(4小时)
测试目标:用最少的镜头讲清楚一场戏
选开场第一场戏:林枫被退婚,时长2分钟。
第一步:写出戏剧节拍(30分钟)
这场戏要传递的信息:
- 林枫是废柴(用户需要知道起点低)
- 未婚妻当众退婚(制造羞辱感)
- 全场嘲笑(强化压迫感)
- 林枫隐忍(为后续爆发蓄力)
把2分钟拆成8个15秒段落:
0-15秒:建立场景
- 信息量:这是一个家族大会,很多人,很正式
- 情绪基调:压抑
- 必须出现的元素:大厅全景、人群、高台上的长老
15-30秒:引出主角
- 信息量:林枫站在中央,穿着破旧,和周围人格格不入
- 情绪基调:不安
- 必须出现的元素:林枫特写、破旧衣服细节、周围人的鄙夷眼神
30-45秒:冲突出现
- 信息量:一个美丽女子站起来,是未婚妻
- 情绪基调:紧张
- 必须出现的元素:女子站起的动作、周围人的窃窃私语、林枫的疑惑表情
45-60秒:冲突升级
- 信息量:女子说出"我要退婚"
- 情绪基调:震惊
- 必须出现的元素:女子的冷漠脸、"退婚"二字的特写、林枫的震惊表情
60-75秒:冲突高潮
- 信息量:女子说出羞辱的话"你不配"
- 情绪基调:愤怒+屈辱
- 必须出现的元素:女子的鄙视眼神、林枫攥紧的拳头、周围人的哄笑
75-90秒:情绪低谷
- 信息量:全场哄笑,林枫低头
- 情绪基调:绝望
- 必须出现的元素:林枫低头的背影、周围人夸张的笑脸、空旷的大厅(孤独感)
90-105秒:转折前兆
- 信息量:林枫抬头,眼神变了
- 情绪基调:压抑的愤怒
- 必须出现的元素:林枫眼睛特写、眼中的血丝、微微颤抖的身体
105-120秒:转折爆发
- 信息量:系统觉醒,金光乍现
- 情绪基调:震撼
- 必须出现的元素:金色光柱、系统界面、所有人震惊的表情
第二步:把每个段落拆成镜头(2小时)
以"0-15秒:建立场景"为例,拆成4个镜头:
镜头1(3秒):大厅全景
- 景别:远景
- 机位:平视,略微仰角5度(营造庄严感)
- 画面构成:
- 前景:空无一物(留白,营造纵深)
- 中景:100个家族成员分两侧坐,中间留出通道
- 后景:高台上3个长老
- 人物占比:每个人物不超过画面2%
- 色调:暗红色为主,金色点缀
- 光线:顶部天窗自然光,形成明暗对比
- 运镜:缓慢推进,从门口视角向高台推进
- 音效:低沉的鼓声+窃窃私语的人声
- 字幕:无
手绘分镜要求:
用铅笔在A4纸上画出:
- 画面比例:16:9的框
- 透视线:标出消失点(在高台位置)
- 人物位置:用火柴人标出100个人的大致位置
- 光源方向:用箭头标出顶部光源
- 运镜轨迹:用虚线箭头标出推进方向
- 标注:写明"3秒"“远景”“推进”
AI生成提示词(逐字稿):
场景:中式古代宫殿大厅内景,红木立柱,青石地板,顶部有天窗
视角:从大厅正门向内看,平视角度略微仰5度
构图:中心对称构图,中间通道,两侧各50人坐在长凳上,背景高台上3个长老
光线:顶部天窗自然光从上方照下,形成明暗对比,大厅整体偏暗
色调:暗红色主调,金色点缀,低饱和度
氛围:庄严压抑
画质:电影级,高清,细节丰富
风格:写实主义,参考《庆余年》《琅琊榜》美术风格
镜头:远景,16:9,缓慢推进运镜
生成后检查清单:
- 透视关系正确,近大远小
- 人物数量大致正确(误差±10人可接受)
- 色调符合预期
- 光影方向一致
- 建筑细节清晰(柱子、地板纹理)
- 没有明显穿帮(比如现代物品)
- 氛围到位(看起来压抑庄严)
如果不通过,调整策略:
- 透视错误:在提示词里加入"单点透视,消失点在画面中心偏上"
- 人物数量不对:改为"两侧各5排长凳,每排10人"
- 色调不对:加入色卡参考"#8B0000(暗红)为主色,#FFD700(金色)为点缀"
- 光影混乱:明确"单一光源,从正上方照射,形成向下的阴影"
镜头2(4秒):人群特写
- 景别:中景
- 机位:侧面45度角,平视
- 画面构成:
- 前景:3个家族成员的侧脸(占画面左侧1/3)
- 中景:中间通道(空的,为后续主角出现做准备)
- 后景:对面的家族成员(虚化)
- 人物占比:前景3人共占画面40%
- 表情:冷漠、鄙夷、不耐烦
- 运镜:固定镜头,无运动
- 音效:窃窃私语变大声,能听清"废柴""丢人"等词
- 字幕:无
手绘分镜要求:
- 画出3个人的头部轮廓(不需要细节,圆圈+五官位置即可)
- 标出视线方向(都看向中间通道)
- 标出景深范围(前景清晰,后景模糊)
- 标注表情关键词"冷漠"“鄙夷”
AI生成提示词:
场景:同上大厅内景
视角:侧面45度角,平视
构图:三分法构图,左侧1/3是3个家族成员侧脸,中间1/3是空通道,右侧1/3是虚化背景
人物:3个中年男子,穿深色长袍,表情冷漠鄙夷,眼神看向画面右侧
景深:浅景深,前景清晰,后景虚化
光线:侧面光,勾勒人物轮廓
色调:同上
画质:电影级,面部细节清晰
镜头:中景,固定
生成后检查清单:
- 3个人的面部清晰
- 表情到位(眉毛微皱,嘴角下撇)
- 视线方向一致(都看向右侧)
- 景深效果明显
- 服装风格统一
- 没有面部崩坏
镜头3(4秒):长老特写
- 景别:近景
- 机位:仰视15度角(营造权威感)
- 画面构成:
- 主体:中间长老的上半身(占画面60%)
- 陪体:两侧长老的肩膀(各占15%)
- 背景:高台背景(虚化)
- 表情:威严、不怒自威
- 道具:中间长老手里拿着一个卷轴
- 运镜:缓慢推进到长老脸部
- 音效:鼓声停止,安静
- 字幕:无
手绘分镜要求:
- 画出3个人的位置关系(中间一个大,两侧两个小)
- 标出仰视角度(用角度线标注15度)
- 标出卷轴的位置(中间长老手里)
- 标注"威严"“推进”
AI生成提示词:
场景:高台上
视角:从下往上仰视15度
构图:中心构图,中间长老占主体,两侧长老各占1/5
人物:中间长老60岁左右,白须,穿金边长袍,表情威严,手持卷轴;两侧长老只露出肩膀
表情:不怒自威,眉头微皱
光线:顶光,强化面部轮廓
色调:金色为主(权威感)
画质:电影级,面部细节极其清晰,皱纹、胡须清晰可见
镜头:近景,缓慢推进
生成后检查清单:
- 仰视角度正确
- 中间长老面部细节丰富(皱纹、胡须)
- 表情到位(威严感)
- 卷轴清晰可见
- 金色调明显
- 两侧长老不抢戏
镜头4(4秒):回到全景
- 景别:全景
- 机位:俯视30度角(上帝视角)
- 画面构成:
- 整个大厅的鸟瞰图
- 中间通道空着
- 所有人都看向通道
- 运镜:无,静止
- 音效:脚步声响起(预示主角要出场)
- 字幕:无
手绘分镜要求:
- 画出大厅的平面图
- 标出俯视角度(30度)
- 用箭头标出所有人的视线方向(都指向中间通道)
- 标注"静止"“等待感”
AI生成提示词:
场景:同上大厅
视角:俯视30度,鸟瞰
构图:对称构图,中间通道,两侧人群
人物:所有人都看向中间通道,期待状
光线:顶光,中间通道有光斑(聚焦)
色调:整体暗,中间通道亮(引导视线)
氛围:安静,等待
画质:电影级
镜头:全景,静止
生成后检查清单:
- 俯视角度正确
- 对称构图
- 中间通道有光斑(视觉引导)
- 所有人视线方向一致
- 氛围到位(安静等待)
第三步:制作动态分镜预览(1.5小时)
把4个镜头生成的静态图,导入视频编辑软件,按时长排列:
- 镜头1:3秒
- 镜头2:4秒
- 镜头3:4秒
- 镜头4:4秒
总计15秒
加入:
- 运镜效果(镜头1的推进,镜头3的推进)
- 转场效果(镜头间用0.5秒淡入淡出)
- 临时音效(从音效库找相似的)
- 临时配乐(低沉压抑的BGM)
测试方法:
自己看10遍,每遍问自己:
- 我能看懂发生了什么吗?(信息传递)
- 我有情绪波动吗?(情绪调动)
- 我想继续看下去吗?(吸引力)
- 画面之间连贯吗?(流畅度)
- 有没有哪个镜头是多余的?(效率)
如果5个问题都是"是",这15秒通过。
如果有任何一个"否",找出问题镜头,重新设计。
常见问题及解决:
问题1:看完15秒不知道发生了什么
- 原因:信息量不够或信息传递不清晰
- 解决:增加字幕"林家家族大会"或者增加一个镜头展示门口的牌匾
问题2:看完没感觉,很平淡
- 原因:情绪铺垫不够
- 解决:加强音效(窃窃私语更明显)或调整色调(更压抑)
问题3:镜头2到镜头3跳跃感太强
- 原因:视角变化太大
- 解决:在中间加一个过渡镜头,或者调整镜头2的角度
问题4:镜头4感觉多余
- 原因:信息重复
- 解决:删掉镜头4,直接从镜头3切到下一个段落
1.4 成本核算(30分钟)
计算这15秒的实际成本:
时间成本:
- 写节拍:30分钟
- 设计分镜:2小时
- 手绘分镜:1小时(4个镜头,每个15分钟)
- AI生成测试:1.5小时(每个镜头生成3-5次,取最好的)
- 动态预览制作:1.5小时
总计:6.5小时
人力成本:
- 编剧:30分钟
- 分镜导演:3小时
- AI动画师:1.5小时
- 剪辑师:1.5小时
算力成本:
- 每个镜头生成5次,共20次生成
- 每次生成成本约2元(假设)
- 总计:40元
15秒成本=40元
推算2分钟(120秒)成本=320元
推算一集(3分钟)成本=480元
推算100集成本=48000元
这个成本是否可接受?
- 如果目标是精品剧,可接受
- 如果目标是快速量产,需要优化流程
优化方向:
- 建立素材库,常用场景和角色提前生成,复用率提高50%
- 培训AI动画师,生成成功率从20%提升到60%,成本降低66%
- 使用批量生成工具,一次生成多个镜头,时间成本降低30%
优化后成本:
- 素材复用:节省30%
- 成功率提升:节省50%
- 批量生成:节省20%
综合节省:约70%
优化后一集成本=480×30%=144元
优化后100集成本=14400元
这个成本在可控范围内,可以进入下一阶段。
二、剧本阶段:把网文改造成适合AI漫剧的分镜脚本
2.1 网文和漫剧脚本的本质区别
网文的叙事特点:
- 大量内心独白
- 环境描写细腻
- 时间跨度大
- 支线剧情多
AI漫剧的叙事限制:
- 内心独白需要外化(通过表情、动作、旁白)
- 环境描写需要视觉化(一个镜头就要看懂)
- 时间跨度需要压缩(每集3分钟,讲不了太长时间)
- 支线剧情需要砍掉(主线都讲不完)
2.2 网文到漫剧的转化公式
原则1:一句话=一个画面
错误示例(网文原文):
“林枫站在大厅中央,感受到无数道鄙夷的目光,心中涌起一股悲凉,想起三年前父亲去世时的场景,眼眶微微湿润。”
这句话包含:
- 空间信息:大厅中央
- 感受:鄙夷的目光
- 情绪:悲凉
- 回忆:父亲去世
- 表情:眼眶湿润
这些信息无法在一个镜头里呈现,需要拆解。
正确改写(分镜脚本):
镜头1(2秒):林枫站在大厅中央,低着头
镜头2(1秒):周围人鄙夷的眼神(快速切换3-4个人脸特写)
镜头3(2秒):林枫抬头,眼眶泛红
镜头4(3秒):闪回画面,父亲躺在病床上(黑白画面,1秒),父亲握着林枫的手(1秒),父亲闭眼(1秒)
镜头5(2秒):回到现实,林枫眼角一滴泪滑落
5个镜头,10秒,把原文的所有信息传递完毕。
原则2:内心独白=旁白or对话or表情
错误示例(网文原文):
“林枫心想:这些人当年巴结父亲的时候可不是这副嘴脸,现在父亲死了,一个个都露出真面目了。”
内心独白无法直接呈现,需要转化。
转化方案A:旁白
镜头:林枫看着周围人,面无表情
旁白(林枫的声音):"这些人,当年可不是这样的..."
优点:信息传递直接
缺点:旁白太多会显得廉价
转化方案B:对话外化
镜头:一个老者对旁边人说
老者:"唉,林家主死了,这孩子也就废了。"
旁边人:"当年咱们还得看林家主脸色,现在嘛..."(意味深长的笑)
镜头:林枫听到,拳头攥紧
优点:更有戏剧张力
缺点:需要增加角色和台词
转化方案C:纯表情呈现
镜头1:林枫看着一个老者
镜头2(闪回):同一个老者三年前对林枫父亲鞠躬的画面
镜头3:回到现实,老者转过头不看林枫
镜头4:林枫眼神变冷,嘴角冷笑
优点:最有电影感
缺点:需要更多镜头,时间成本高
根据剧情节奏选择方案:
- 如果这段是快节奏推进,用方案A
- 如果这段是情绪重点,用方案C
- 如果需要引出新角色,用方案B
原则3:环境描写=建立镜头
错误示例(网文原文):
“林家大厅建于百年前,红木立柱历经风雨,青石地板被磨得光滑,墙上挂着历代家主的画像,正中高台是家主之位,两侧是长老席位,整个大厅透着一股森严的气息。”
这段描写有200字,但在漫剧里只需要一个5秒的镜头。
正确改写(分镜脚本):
镜头(5秒):
- 运镜:从门口缓慢推进到高台
- 画面:红木立柱、青石地板、墙上画像、高台、长老席位依次进入画面
- 字幕:林家大厅
- 音效:低沉的鼓声
一个镜头,5秒,把环境信息全部传递。
关键:
- 不要试图用旁白念出环境描写
- 让画面自己说话
- 用运镜引导观众视线,依次看到重要元素
2.3 节奏控制的量化标准
每集3分钟=180秒,需要设计:
- 3个情绪高潮(每60秒一个)
- 6-8个情绪波动点(每20-30秒一个)
- 1个悬念钩子(结尾,让用户想看下一集)
情绪高潮的设计公式:
高潮=冲突+反转+视觉奇观
举例:第1集的第一个高潮(60秒位置)
冲突:
林枫被退婚,全场嘲笑
反转:
系统觉醒,林枫获得吞噬能力
视觉奇观:
金色光柱从天而降,系统界面浮现,林枫眼睛变成金色
具体分镜(10秒):
镜头1(2秒):全场哄笑,林枫低头
镜头2(1秒):林枫拳头攥紧,指甲刺进肉里,血滴落
镜头3(2秒):血滴落在地上,地面出现金色纹路
镜头4(2秒):金色纹路蔓延,形成法阵
镜头5(1秒):法阵爆发,金色光柱冲天
镜头6(2秒):林枫被光柱笼罩,眼睛变成金色,系统界面浮现
10秒,完成冲突-反转-奇观的完整循环。
情绪波动点的设计公式:
波动点=小冲突or小惊喜or信息揭示
举例:第1集的6个波动点
0-30秒:波动点1
- 内容:林枫出场,穿着破旧
- 情绪:从平静到不安
- 手法:对比(林枫破旧vs周围人华丽)
30-50秒:波动点2
- 内容:未婚妻站起来
- 情绪:从不安到紧张
- 手法:悬念(她要干什么?)
50-70秒:波动点3
- 内容:未婚妻说"退婚"
- 情绪:从紧张到震惊
- 手法:台词冲击
70-90秒:波动点4
- 内容:未婚妻说"你不配"
- 情绪:从震惊到屈辱
- 手法:羞辱升级
90-110秒:波动点5
- 内容:全场哄笑
- 情绪:从屈辱到绝望
- 手法:群体施压
110-130秒:波动点6
- 内容:林枫抬头,眼神变了
- 情绪:从绝望到愤怒
- 手法:情绪转折
每个波动点间隔20秒左右,保持用户注意力。
悬念钩子的设计公式:
钩子=未完成的动作+疑问+视觉冲击
举例:第1集结尾(170-180秒)
镜头1(3秒):林枫看着系统界面,上面显示"吞噬目标"
镜头2(2秒):林枫视线移向刚才嘲笑他的一个人
镜头3(2秒):那个人还在笑,突然感觉不对,笑容僵住
镜头4(2秒):林枫嘴角上扬,伸出手
镜头5(1秒):黑屏,一声惨叫
字幕:第2集 吞噬
10秒,完成钩子设计:
- 未完成的动作:林枫伸手,但没看到结果
- 疑问:他要干什么?那个人会怎样?
- 视觉冲击:黑屏+惨叫
用户必须看第2集才能知道答案。
2.4 台词的视觉化改造
原则:能用画面说的,不用台词
错误示例:
林枫:"我很生气!"
这是废话,用户看表情就知道。
正确改写:
林枫:(不说话,只是死死盯着对方,拳头攥得咯咯响)
错误示例:
长老:"林枫,你父亲三年前去世了,你现在是林家最弱的人,大家都看不起你。"
这是信息堆砌,不是人话。
正确改写:
长老:"林枫,你父亲去世三年了。"(停顿,看着林枫)
长老:"这三年,你可有寸进?"(质问的语气)
林枫:(低头,不说话)
长老:"废柴!"(一拍桌子)
把一句话拆成三句,配合动作和停顿,信息量一样,但更有戏剧张力。
台词的三个功能:
功能1:推进剧情
每句台词必须推动故事前进,不能闲聊。
错误示例:
甲:"今天天气不错。"
乙:"是啊,阳光明媚。"
这两句话没有推进剧情,删掉。
正确示例:
甲:"仪式开始了。"
乙:"林枫还没到。"
甲:"他不敢来了吧。"
三句话,建立了仪式、林枫缺席、可能逃跑三个信息,推进剧情。
功能2:塑造人物
每句台词要符合人物性格。
错误示例:
霸道长老:"林枫啊,你这样不行哦,要努力修炼哦。"
语气太温柔,不符合霸道人设。
正确示例:
霸道长老:"废物!三年了还是炼气一层,林家的脸都被你丢尽了!"
语气强硬,符合霸道人设。
功能3:制造冲突
台词要有锋芒,不能和和气气。
错误示例:
未婚妻:"林枫,我觉得我们不太合适,不如分开吧。"
林枫:"好的,我理解。"
没有冲突,没有戏。
正确示例:
未婚妻:"林枫,我要退婚。"
林枫:"为什么?"
未婚妻:"因为你不配。"(冷笑)
林枫:(攥紧拳头,咬牙)"你再说一遍?"
未婚妻:"你不配!听清楚了吗?"
每句话都在升级冲突,有戏剧张力。
2.5 一集完整脚本的标准格式
第1集脚本示例(3分钟=180秒)
【第一幕:建立世界观】(0-30秒)
场景1:林家大厅外景
镜头1(3秒):
- 景别:远景
- 内容:林家府邸全景,古色古香
- 字幕:林家,修仙世家,传承三百年
- 音效:悠扬的古琴声
镜头2(2秒):
- 景别:中景
- 内容:大门紧闭,门口两个守卫
- 运镜:推进到大门
- 音效:古琴声渐弱,鼓声渐起
场景2:林家大厅内景
镜头3(5秒):
- 景别:远景
- 内容:大厅全景,100人分两侧坐,中间通道空着
- 运镜:从门口推进到高台
- 音效:低沉鼓声+窃窃私语
- 字幕:林家家族大会
镜头4(4秒):
- 景别:中景
- 内容:三个家族成员侧脸,表情冷漠
- 台词:
甲:"今天是林枫的成年礼。"
乙:"三年了,还是炼气一层。"
丙:"废柴。"
- 音效:窃窃私语
镜头5(4秒):
- 景别:近景
- 内容:高台上三个长老,中间长老手持卷轴
- 运镜:仰视,推进到长老脸部
- 音效:鼓声停止,安静
镜头6(4秒):
- 景别:全景
- 内容:大厅鸟瞰,所有人看向中间通道
- 音效:脚步声响起
镜头7(4秒):
- 景别:中景
- 内容:林枫从门口走进来,穿着破旧长袍,低着头
- 运镜:跟随林枫走
- 音效:脚步声+窃窃私语变大
- 台词(画外音):
"是林枫。"
"穿成这样,丢人。"
"林家主泉下有知,得多伤心。"
镜头8(4秒):
- 景别:特写
- 内容:林枫的脸,年轻但憔悴,眼神躲闪
- 音效:心跳声(咚咚咚)
第一幕总结:
- 时长:30秒
- 镜头数:8个
- 信息量:世界观(修仙世家)、主角(林枫,废柴)、场景(家族大会)
- 情绪:压抑,不安
- 钩子:林枫出场,接下来会发生什么?
【第二幕:冲突建立】(30-90秒)
场景3:退婚
镜头9(3秒):
- 景别:中景
- 内容:林枫走到中央,停下,抬头看向高台
- 音效:脚步声停止,安静
镜头10(3秒):
- 景别:近景
- 内容:中间长老打开卷轴
- 台词:
长老:"林枫,今日是你十八岁成年礼。"
- 音效:卷轴展开的声音
镜头11(2秒):
- 景别:特写
- 内容:林枫点头
- 台词:
林枫:"是,长老。"(声音很小)
镜头12(3秒):
- 景别:中景
- 内容:人群中,一个美丽女子站起来
- 运镜:从林枫视角看过去,焦点从林枫转到女子
- 音效:衣服摩擦声+窃窃私语变大
镜头13(2秒):
- 景别:特写
- 内容:林枫表情疑惑
- 台词:
林枫(心里):"雪儿?"
镜头14(3秒):
- 景别:近景
- 内容:女子(雪儿)走出来,站在通道里,和林枫相距5米
- 运镜:侧面拍,两人在画面两端
- 音效:脚步声+安静(所有人都在看)
镜头15(2秒):
- 景别:特写
- 内容:雪儿的脸,冷漠,没有表情
- 音效:心跳声(咚咚咚,更快)
镜头16(3秒):
- 景别:中景
- 内容:雪儿对着高台行礼
- 台词:
雪儿:"长老,我有话说。"
- 音效:窃窃私语更大
镜头17(2秒):
- 景别:近景
- 内容:长老点头
- 台词:
长老:"讲。"
镜头18(3秒):
- 景别:近景
- 内容:雪儿转身看向林枫
- 台词:
雪儿:"我要退婚。"
- 音效:一声惊雷(音效)
镜头19(2秒):
- 景别:特写
- 内容:林枫瞳孔放大,震惊
- 音效:耳鸣声(嗡——)
镜头20(3秒):
- 景别:全景
- 内容:大厅所有人哗然,议论纷纷
- 音效:嘈杂的议论声
- 台词(多人画外音):
"退婚?"
"林枫被退婚了!"
"哈哈哈!"
镜头21(3秒):
- 景别:近景
- 内容:林枫回过神,声音颤抖
- 台词:
林枫:"为...为什么?"
- 音效:声音颤抖
镜头22(3秒):
- 景别:近景
- 内容:雪儿冷笑
- 台词:
雪儿:"因为你不配。"
- 音效:冷笑声
镜头23(2秒):
- 景别:特写
- 内容:林枫拳头攥紧,指甲刺进肉里
- 音效:肉体撕裂声(细微)
镜头24(3秒):
- 景别:中景
- 内容:雪儿转身走回座位
- 台词:
雪儿:"三年前,你父亲死了,你就是个废物。我等了三年,够了。"
- 音效:脚步声+哄笑声
镜头25(3秒):
- 景别:全景
- 内容:大厅所有人大笑
- 音效:哄笑声(很大)
- 台词(多人画外音):
"废物!"
"活该!"
"林家的耻辱!"
镜头26(4秒):
- 景别:近景
- 内容:林枫低头,肩膀颤抖
- 音效:哄笑声+心跳声(咚咚咚)
第二幕总结:
- 时长:60秒
- 镜头数:18个
- 信息量:冲突(被退婚)、羞辱(你不配)、群体施压(全场嘲笑)
- 情绪:从疑惑到震惊到屈辱到绝望
- 钩子:林枫会怎么反应?
【第三幕:反转爆发】(90-180秒)
场景4:系统觉醒
镜头27(3秒):
- 景别:特写
- 内容:林枫的拳头,血滴落
- 音效:血滴声(滴答)
镜头28(2秒):
- 景别:特写
- 内容:血滴落在地上
- 音效:血滴声(滴答)
镜头29(3秒):
- 景别:特写
- 内容:地面上,血形成金色纹路
- 音效:嗡鸣声(低频)
镜头30(2秒):
- 景别:近景
- 内容:林枫抬头,眼神变了,不再躲闪
- 音效:嗡鸣声变大
镜头31(3秒):
- 景别:中景
- 内容:金色纹路蔓延,形成法阵
- 运镜:从地面拉到全景
- 音效:嗡鸣声+能量聚集声
镜头32(2秒):
- 景别:全景
- 内容:法阵爆发,金色光柱冲天
- 音效:爆发声(轰!)
镜头33(2秒):
- 景别:中景
- 内容:所有人震惊,停止嘲笑
- 音效:安静
镜头34(3秒):
- 景别:近景
- 内容:林枫被光柱笼罩,眼睛变成金色
- 运镜:旋转镜头,围绕林枫
- 音效:能量涌动声
镜头35(3秒):
- 景别:特写
- 内容:林枫眼前浮现系统界面
- 界面内容:
【吞噬系统已激活】
【宿主:林枫】
【等级:1】
【能力:吞噬】
- 音效:电子音(系统激活)
镜头36(2秒):
- 景别:特写
- 内容:林枫眼睛,金色光芒闪烁
- 音效:心跳声(咚!很重)
镜头37(3秒):
- 景别:近景
- 内容:长老站起来,震惊
- 台词:
长老:"这...这是什么力量?"
- 音效:颤抖的声音
镜头38(3秒):
- 景别:全景
- 内容:金色光柱消失,林枫站在原地,气质完全不同
- 运镜:从上往下俯视
- 音效:能量消散声
镜头39(2秒):
- 景别:近景
- 内容:雪儿震惊,不可置信
- 台词:
雪儿:"怎么可能..."
- 音效:颤抖的声音
镜头40(3秒):
- 景别:中景
- 内容:林枫抬头,看向雪儿,嘴角上扬
- 台词:
林枫:"不配?"(冷笑)
- 音效:冷笑声
镜头41(3秒):
- 景别:近景
- 内容:系统界面再次浮现
- 界面内容:
【检测到可吞噬目标】
【目标:王虎(炼气三层)】
【是否吞噬?】
- 音效:电子音
镜头42(2秒):
- 景别:中景
- 内容:林枫视线移向刚才嘲笑最凶的一个壮汉(王虎)
- 运镜:视线跟随
- 音效:锁定声(滴)
镜头43(2秒):
- 景别:近景
- 内容:王虎还在笑,突然感觉不对,笑容僵住
- 音效:笑声停止
镜头44(3秒):
- 景别:中景
- 内容:林枫伸出手,对准王虎
- 台词:
林枫:"你,过来。"
- 音效:低沉的声音
镜头45(2秒):
- 景别:近景
- 内容:王虎惊恐,想跑,但身体不受控制
- 台词:
王虎:"不!不要!"
- 音效:惊恐的叫声
镜头46(3秒):
- 景别:全景
- 内容:王虎被一股力量拉向林枫,在空中挣扎
- 运镜:跟随王虎移动
- 音效:能量拉扯声+惨叫声
镜头47(2秒):
- 景别:特写
- 内容:林枫的手,金色光芒涌动
- 音效:能量聚集声
镜头48(1秒):
- 景别:特写
- 内容:林枫的眼睛,金色光芒更盛
- 音效:能量爆发声
镜头49(2秒):
- 景别:全景
- 内容:黑屏,一声惨叫
- 音效:惨叫声(啊——!)
镜头50(3秒):
- 景别:全景
- 内容:画面恢复,王虎倒在地上,生死不明,林枫站在原地
- 音效:安静,只有呼吸声
镜头51(2秒):
- 景别:特写
- 内容:系统界面
- 界面内容:
【吞噬成功】
【获得修为:炼气三层】
【当前等级:炼气三层】
- 音效:电子音(成功提示音)
镜头52(3秒):
- 景别:近景
- 内容:林枫感受力量,握拳,金色光芒闪烁
- 台词:
林枫:"这就是...力量。"(低语)
- 音效:能量涌动声
镜头53(3秒):
- 景别:全景
- 内容:大厅所有人惊恐,鸦雀无声
- 音效:安静
镜头54(3秒):
- 景别:近景
- 内容:林枫转身看向雪儿
- 台词:
林枫:"你刚才说,我不配?"(冷笑)
- 音效:冷笑声
镜头55(2秒):
- 景别:特写
- 内容:雪儿惊恐,后退
- 音效:脚步声(后退)
镜头56(2秒):
- 景别:特写
- 内容:林枫嘴角上扬
- 音效:冷笑声
镜头57(1秒):
- 景别:黑屏
- 字幕:第2集 吞噬
- 音效:能量爆发声
第三幕总结:
- 时长:90秒
- 镜头数:31个
- 信息量:反转(系统觉醒)、能力展示(吞噬)、爽点(踩回去)
- 情绪:从绝望到震撼到爽
- 钩子:林枫会对雪儿做什么?
【全集总结】
- 总时长:180秒(3分钟)
- 总镜头数:57个
- 平均每个镜头:3.2秒
- 情绪曲线:压抑(0-30秒)→屈辱(30-90秒)→爽(90-180秒)
- 信息密度:每10秒一个信息点
- 爽点密度:每30秒一个小爽点,60秒一个大爽点
三、分镜阶段:把脚本转化成可执行的视觉指令
3.1 手绘分镜的标准流程
很多人以为AI时代不需要手绘分镜,这是最大的误区。手绘分镜是导演和AI之间的翻译器。
工具准备:
- A4纸(每页画4个分镜格子)
- 铅笔(方便修改)
- 橡皮
- 尺子(画分镜框)
- 参考图(角色、场景、运镜参考)
单个分镜的标准格式:
┌─────────────────────────────────┐
│ 镜号:01 时长:3秒 │
│ 景别:远景 机位:平视 │
├─────────────────────────────────┤
│ │
│ [这里画分镜草图] │
│ │
│ │
│ │
├─────────────────────────────────┤
│ 运镜:从门口推进到高台 │
│ 台词:无 │
│ 音效:低沉鼓声 │
│ 备注:强调纵深感和压迫感 │
└─────────────────────────────────┘
草图的绘制要求:
不需要画得很精美,但必须包含:
-
画面比例框(16:9)
用尺子画出标准比例框,不能随意 -
**透视线# AI漫剧"抽卡师"工作内容超细颗粒度拆解
让我把抽卡师的每一个动作、每一个思考环节都拆开来看。
一、接到任务的那一刻
1. 拿到分镜脚本
- 打开项目文件夹
- 看到导演/编剧给的分镜表格
- 这一行写着:第23镜,男主转身看向窗外,3秒
- 旁边可能有个参考图或者手绘分镜草图
2. 理解这个镜头要什么
- 读这句话:“男主转身看向窗外”
- 在脑子里想象这个动作
- 转多少度?180度还是90度?
- 转的速度?快还是慢?
- 表情有变化吗?
- 头发会飘吗?
- 衣服会动吗?
3. 找到对应的漫画素材
- 打开漫画源文件(PSD或PNG)
- 翻到对应的章节和页面
- 找到男主正面站立的那一格
- 找到男主侧身看窗外的那一格
- 把这两张图导出来
二、准备首尾帧(每一个小步骤)
4. 处理首帧图片
- 打开Photoshop或其他图像软件
- 导入男主正面图
- 检查图片尺寸:1920x1080?1080x1920?
- 如果是漫画格子,可能是奇怪的比例,比如800x1200
- 看一眼AI工具要求的比例
- 发现AI要求16:9或9:16
- 开始裁剪或调整画布
- 裁的时候要保证人物主体不被切掉
- 保存为"镜头23_首帧.png"
5. 处理尾帧图片
- 导入男主侧身图
- 重复上面的裁剪调整步骤
- 但要保证和首帧是完全相同的尺寸和比例
- 比如首帧是1920x1080,尾帧也必须是1920x1080
- 保存为"镜头23_尾帧.png"
6. 检查首尾帧的匹配度
- 把两张图并排放在屏幕上
- 看人物的位置:首帧里人在画面中间,尾帧里人也在中间吗?
- 看人物的大小:首帧里脸占画面1/4,尾帧里也是1/4吗?
- 看背景:窗户在首帧的右边,尾帧里还在右边吗?
- 如果不匹配,要重新调整其中一张图的构图
三、打开AI工具界面
7. 登录AI平台
- 打开浏览器
- 输入即梦/海螺/Sora的网址
- 登录账号
- 看一眼右上角的token余额:还剩35个
- 心里算一下:够做3个镜头,得省着点用
8. 进入视频生成页面
- 点击"创建新视频"按钮
- 页面跳转,出现上传区域和参数设置区域
- 界面上有:
- 首帧上传框
- 尾帧上传框
- 提示词输入框(一个大大的文本框)
- 时长选择(2秒/3秒/5秒)
- 运动幅度滑块(1-10)
- 生成按钮
9. 上传首尾帧
- 点击首帧上传框
- 从文件夹里选"镜头23_首帧.png"
- 等待上传,看到进度条从0%到100%
- 图片出现在预览区
- 重复操作,上传尾帧
- 两张图都显示在界面上了
四、编写第一版提示词(思考过程)
10. 开始构思提示词
- 鼠标点进提示词输入框
- 光标在闪烁
- 脑子里想:我要怎么描述这个动作?
11. 写下第一句
输入:
一个男性角色
- 停顿,想想还要加什么
- 要不要描述外貌?穿什么衣服?
- 看一眼首帧图片:黑色短发,白色衬衫
- 继续输入:
一个黑色短发、穿白色衬衫的男性角色
12. 描述动作
- 想:他要转身
- 输入:
转身
- 觉得太简单了,AI可能理解不准
- 改成:
从正面转向侧面
- 还是觉得不够清楚
- 再改:
身体从正面朝向逐渐旋转90度至侧面朝向
13. 描述目标
- 想:他转身是为了看窗外
- 加上:
视线转向画面右侧的窗户
14. 描述动作细节
- 想:转身的时候,是头先动还是身体先动?
- 回忆一下真人转身的样子
- 一般是头先转,身体跟着
- 加上:
头部先转动,身体随后跟随
15. 描述速度和流畅度
- 想:3秒的时长,应该是比较自然的速度
- 加上:
动作流畅自然,速度适中
16. 加上保持一致性的要求
- 想:AI经常会把人脸搞变形
- 必须强调一下
- 加上:
保持人物面部特征不变,五官位置固定
17. 检查背景
- 想:背景不要乱动
- 加上:
背景保持静止
18. 完整的第一版提示词
现在文本框里是:
一个黑色短发、穿白色衬衫的男性角色,身体从正面朝向逐渐旋转90度至侧面朝向,视线转向画面右侧的窗户,头部先转动,身体随后跟随,动作流畅自然,速度适中,保持人物面部特征不变,五官位置固定,背景保持静止。
19. 读一遍
- 从头到尾读一遍
- 觉得应该差不多了
- 但心里还是有点没底:AI会不会理解错?
五、第一次生成(抽卡开始)
20. 设置参数
- 时长:选择3秒
- 运动幅度:拖动滑块到6(中等)
- 其他参数保持默认
21. 检查token
- 再看一眼右上角:还剩35个token
- 这次会消耗10个(因为有首尾帧)
- 点击"生成"按钮
22. 等待生成
- 按钮变灰,不能再点击
- 出现提示:“正在生成中,预计需要1-2分钟”
- 下面有个进度条,但它不是线性增长的
- 有时候停在30%很久,突然跳到80%
- 盯着屏幕看
- 或者切出去刷个手机
- 但每隔10秒就切回来看一眼
- 心里想:这次应该能成吧?
23. 生成完成
- 听到"叮"的一声提示音
- 进度条到100%
- 视频预览窗口出现了画面
- 右上角token变成25了
24. 第一遍观看
- 鼠标移到播放按钮上
- 点击播放
- 眼睛盯着屏幕
- 3秒的视频开始播放
- 看到:
- 人物确实在转身
- 但是…
六、检查结果(第一次失败)
25. 发现问题
播放完3秒,暂停,倒回去重新看
第1秒:
- 人物开始转动
- 脸部开始变化
- 等等,鼻子好像变大了?
第2秒:
- 转身角度到了一半
- 脸已经明显变形了
- 眼睛一大一小
- 下巴变尖了
第3秒:
- 转到侧面
- 但这个侧脸和尾帧的侧脸不太一样
- 而且头发变长了
26. 逐帧检查
- 点击进度条,拖动到第1秒的位置
- 截图保存
- 拖到第2秒
- 截图保存
- 拖到第3秒
- 截图保存
- 把三张截图和首尾帧放在一起对比
27. 列出问题清单
在笔记本上写下:
- ❌ 鼻子变大
- ❌ 眼睛变形
- ❌ 下巴变尖
- ❌ 头发变长
- ✓ 转身角度还可以
- ✓ 背景没有乱动
28. 分析原因
想:
- 为什么脸会变形?
- 是不是提示词里"保持面部特征"这句话AI没理解?
- 还是说法不够强烈?
- 要不要换个说法?
七、调整提示词(第二次尝试)
29. 修改提示词策略
决定:
- 把"保持面部特征"改得更具体
- 不说"面部特征",直接说"鼻子、眼睛、下巴"
30. 修改提示词
回到提示词输入框,原来是:
保持人物面部特征不变,五官位置固定
改成:
严格保持鼻子大小和形状不变,眼睛大小和位置固定,下巴轮廓不改变,头发长度保持一致
31. 完整的第二版提示词
一个黑色短发、穿白色衬衫的男性角色,身体从正面朝向逐渐旋转90度至侧面朝向,视线转向画面右侧的窗户,头部先转动,身体随后跟随,动作流畅自然,速度适中,严格保持鼻子大小和形状不变,眼睛大小和位置固定,下巴轮廓不改变,头发长度保持一致,背景保持静止。
32. 再次生成
- 点击"重新生成"按钮
- Token从25变成15
- 又是1-2分钟的等待
- 刷手机,但心里惦记着
- 心想:这次应该好了吧?
33. 第二次结果
- 生成完成
- 播放
- 看到:
- 脸还是变形了
- 虽然和第一次不太一样
- 但鼻子还是有点歪
- 眼睛倒是没那么夸张了
- 但整个脸好像胖了一圈
34. 情绪波动
- 叹一口气
- 想:怎么还是不行?
- 看一眼token:还剩15个
- 算一下:只够再试1次了
- 今天的免费额度快用完了
八、第三次尝试(换个思路)
35. 重新思考策略
想:
- 可能不是提示词的问题
- 可能是首尾帧的问题
- 两张图里人物的角度差太大了?
- AI无法平滑过渡?
36. 检查首尾帧
- 打开首帧:正面,0度
- 打开尾帧:侧面,90度
- 想:从0度到90度,跨度确实挺大
- 要不要找一张45度的中间帧?
37. 寻找中间帧
- 回到漫画源文件
- 翻页查找
- 找了5分钟
- 没有找到合适的45度角度
- 想:要不自己P一张?
- 打开Photoshop
- 尝试用变形工具把正面图调整成45度
- 弄了10分钟
- 效果很差,看起来很假
38. 放弃中间帧方案
- 想:算了,还是继续改提示词吧
- 关闭Photoshop
39. 第三版提示词
这次换个完全不同的写法,参考网上看到的"高级提示词技巧":
[人物]黑色短发男性,白色衬衫
[动作]头部带动身体,从0度正面旋转至90度右侧面
[目标]视线落在右侧窗户
[时长]3秒,匀速
[约束]锁定面部几何结构,禁止五官变形,禁止头发长度改变
[背景]静止
[风格]自然流畅
40. 第三次生成
- 点击生成
- Token从15变成5
- 心里有点紧张:这是今天最后一次机会了
- 等待
- 1分钟
- 2分钟
- 生成完成
41. 第三次结果
- 播放
- 这次…
- 脸没那么变形了!
- 但是出现了新问题:
- 衣服的纹理在闪烁
- 白衬衫上出现了奇怪的阴影
- 而且阴影在跳动
- 背景的窗户边缘有点模糊抖动
42. 纠结时刻
想:
- 脸的问题算是解决了70%
- 但衣服和背景又出问题了
- 是接受这个版本?
- 还是继续改?
- 但token已经只剩5个了
- 不够再生成一次
九、决策与妥协
43. 评估可用性
把三次生成的结果放在一起对比:
- 第一次:脸变形严重,但衣服和背景还行
- 第二次:脸还是变形,整体更差
- 第三次:脸基本可以,但衣服背景有问题
44. 思考后期修复可能性
想:
- 衣服的闪烁能不能后期用AE修掉?
- 背景的抖动能不能用稳定器?
- 如果能修,第三次的结果就可以用
- 如果不能修,就得等明天token刷新了再继续
45. 咨询后期同事
- 打开微信
- 发给负责后期的同事
- “这个衣服闪烁能修吗?”
- 发送视频文件
- 等待回复
- 5分钟后收到回复:“可以试试,但很费时间,可能要逐帧处理”
46. 计算时间成本
想:
- 这个镜头已经花了:
- 准备首尾帧:20分钟
- 写提示词和生成:3次 × 15分钟 = 45分钟
- 总共65分钟
- 如果后期再花30分钟修
- 一个3秒镜头就是95分钟
- 一集150个镜头…
- 算不下去了
47. 做出决定
决定:
- 先标记这个镜头为"待优化"
- 继续做下一个镜头
- 等所有镜头都做完第一遍
- 再回来统一优化
十、开始下一个镜头(循环继续)
48. 看下一个任务
- 回到分镜表格
- 第24镜:女主回头微笑,2秒
- 想:这个应该简单点吧?就是个回头
- 但又想:上一个"转身"都这么难,"回头"会不会也…
49. 重复整个流程
- 找漫画素材
- 导出首尾帧
- 调整尺寸
- 上传
- 写提示词
- 生成
- 检查
- 发现问题
- 修改
- 再生成
- …
50. 遇到新问题:微笑表情
这次的新挑战:
- 首帧:女主面无表情
- 尾帧:女主微笑
- 不仅要转头,表情还要变化
- 提示词要怎么写?
- “从面无表情过渡到微笑”?
- “嘴角逐渐上扬”?
- “眼睛微微眯起,嘴唇弯曲成微笑”?
51. 第一次生成:表情僵硬
- 生成出来
- 女主确实在笑
- 但笑得很诡异
- 嘴角的弧度不自然
- 像是被强行拉扯出来的
- 有种恐怖片的感觉
52. 第二次生成:表情过度
- 改了提示词:“自然的、温柔的微笑”
- 生成出来
- 这次笑得太夸张了
- 从淡淡的微笑变成了哈哈大笑
- 完全不符合剧情需求
53. 第三次生成:又出现新bug
- 再改提示词:“嘴角轻微上扬3-5度”
- 生成出来
- 表情这次还可以
- 但头发炸了
- 回头的时候头发跟着甩
- 但甩出了一种爆炸的效果
- 发丝乱飞,像是在风洞里
十一、特殊情况:漫画格子的噩梦
54. 遇到竖版格子
- 第30镜:一个竖长条的格子
- 尺寸是600x1800
- AI要求的比例是16:9或9:16
- 600x1800换算是1:3
- 完全不匹配
55. 尝试裁剪
- 如果裁成9:16(比如1080x1920)
- 要么上下裁掉很多内容
- 要么左右加黑边
- 裁掉内容的话,人物可能不完整
- 加黑边的话,画面会很奇怪
56. 尝试拉伸
- 把600x1800强行拉伸成1080x1920
- 人物变形了,变矮变胖
- 完全不能用
57. 放弃这个镜头
- 在表格里标注:“此镜头无法使用AI生成”
- 决定后期用静态图+镜头推拉来处理
- 继续下一个
十二、特殊情况:台词乱码
58. 遇到带台词的格子
- 第45镜:人物说话,对话框里有台词
- 首帧:对话框里写着"你好吗?"
- 尾帧:对话框还在,台词一样
59. 第一次生成:台词变乱码
- 生成出来
- 对话框还在
- 但里面的字变成了:
- “伱女子马?”
- 或者"###@吗?"
- 或者完全不可读的符号
60. 尝试在提示词里强调
加上:
保持对话框内文字清晰可读,文字内容为"你好吗?"
61. 第二次生成:还是乱码
- 文字还是乱的
- 而且这次对话框的形状也变了
- 从圆角矩形变成了不规则形状
62. 尝试更强的约束
改成:
冻结对话框区域,文字完全不变,逐字保持:你、好、吗、?
63. 第三次生成:文字消失了
- 这次更绝
- 对话框还在
- 但里面的字完全消失了
- 变成空白对话框
64. 查找解决方案
- 打开搜索引擎
- 搜索:“AI视频生成 文字乱码 怎么办”
- 看到一堆讨论帖
- 大家都说这是AI的通病
- 目前没有完美解决方案
- 建议:生成无字版本,后期用PR或AE加字幕
65. 接受现实
- 决定:所有带台词的镜头都生成无字版
- 后期统一加字幕
- 但这又增加了大量后期工作
十三、特殊情况:群像戏
66. 遇到多人镜头
- 第67镜:三个人同时转头看向门口
- 首帧:三个人都是正面
- 尾帧:三个人都转向右侧
67. 第一次生成:集体变脸
- 生成出来
- 三个人确实都在转头
- 但:
- 左边的短发女生变成了长发
- 中间的男生脸变圆了
- 右边的长发女生的脸和左边的短发女生串了
- 三个人的脸在动画过程中互相"借用"特征
68. 尝试详细描述每个人
提示词改成:
画面左侧:黑色短发女性,圆脸,穿红色衣服
画面中间:棕色短发男性,方脸,穿蓝色衬衫
画面右侧:金色长发女性,瓜子脸,穿白色连衣裙
三人同时从正面转向右侧,各自保持独立的面部特征,不互相影响
69. 第二次生成:还是串脸
- 描述得这么详细了
- 还是串
- 而且这次更乱
- 三个人的衣服颜色都开始互换了
70. 尝试分开生成
决定:
- 把三个人分别抠出来
- 做三个单人转头的视频
- 然后后期合成到一起
71. 抠图工作
- 打开Photoshop
- 用魔棒工具选中左边的女生
- 删除其他两个人
- 填充背景
- 导出
- 重复操作,抠出另外两个人
- 花了30分钟
72. 分别生成三个视频
- 上传第一个人的首尾帧
- 写提示词,生成
- 上传第二个人的首尾帧
- 写提示词,生成
- 上传第三个人的首尾帧
- 写提示词,生成
- 每个都要检查、调整、重新生成
- 又花了1个小时
73. 后期合成
- 把三个视频导入AE
- 调整位置,让三个人回到原来的位置
- 处理边缘融合
- 调整光影一致性
- 渲染输出
- 又花了40分钟
74. 计算这个镜头的总时间
- 抠图:30分钟
- 生成三个视频:60分钟
- 后期合成:40分钟
- 总共:130分钟 = 2小时10分钟
- 这还只是一个3秒的镜头
十四、心理状态的变化
75. 第1-10个镜头:充满希望
- 觉得AI很神奇
- 虽然有问题,但觉得可以解决
- 每次点"生成"都很期待
- 心想:这次肯定能成!
76. 第11-30个镜头:开始疲惫
- 发现问题总是重复出现
- 脸变形、衣服闪烁、背景抖动
- 提示词改来改去,效果差不多
- 开始怀疑:是不是我的方法不对?
77. 第31-50个镜头:麻木
- 已经不抱太大期望了
- 生成出来,先看有没有致命bug
- 没有致命bug就算过关
- 不再追求完美
- 只求能用
78. 第51-80个镜头:挫败
- 遇到越来越多的特殊情况
- 竖版格子、台词乱码、群像戏
- 每个都是新的坑
- 开始怀疑:这个项目到底能不能做完?
79. 第81-100个镜头:机械重复
- 已经完全进入机械状态
- 上传、写提示词、生成、检查、修改
- 像流水线工人一样
- 不再思考,只是执行
- 脑子是空的
80. 第101-150个镜头:煎熬
- 看到进度条:还有50个
- 心里想:什么时候才能结束
- 每做完一个,就在表格里打个勾
- 盯着那些勾,数着数字
- 像在数刑期
十五、Token消耗的焦虑
81. 免费token用完
- 第二天,继续工作
- 打开AI平台
- 看到token又刷新到70个
- 心里松了一口气
82. 计算今天能做多少
- 70个token
- 每个镜头平均要生成3-5次
- 每次10个token
- 70 ÷ (4×10) = 1.75
- 今天只能完成1-2个镜头?
- 不对,算错了
- 70 ÷ 10 = 7次生成机会
- 如果每个镜头平均4次,能做1-2个镜头
- 150个镜头要做75-150天?
83. 考虑付费
- 看付费套餐
- 最便宜的:100元 = 500 token
- 500 ÷ 10 = 50次生成
- 能做10-12个镜头
- 150个镜头需要:150 ÷ 11 × 100 = 1364元
- 想:这个项目承制费是多少来着?
- 翻合同:10分钟,50元/分钟,共500元
- 如果花1364元做,亏864元
- 算了,还是慢慢用免费的吧
84. 每次生成前的犹豫
- 鼠标悬停在"生成"按钮上
- 想:这次会成功吗?
- 如果不成功,就浪费了10个token
- 要不要再检查一遍提示词?
- 再读一遍提示词
- 改了一个标点符号
- 还是觉得没把握
- 但总要试的
- 点击"生成"
- 心跳加速
85. 生成失败后的懊恼
- 又失败了
- 看着token数字减少
- 心里很难受
- 想:刚才如果提示词再改改,是不是就能成功?
- 但已经晚了,token已经扣了
- 无法撤回
十六、与AI的"玄学"互动
86. 发现规律的假象
- 做了30个镜头后
- 觉得自己找到规律了
- “只要提示词里加上’严格保持’这个词,效果就会好”
- 信心满满地应用到下一个镜头
- 结果还是失败
- 规律不存在
87. 迷信时刻
- 发现连续失败5次后
- 第6次突然成功了
- 想:是不是AI有"连败保护机制"?
- 像游戏抽卡一样,抽多了总会出好东西
- 开始相信这个理论
- 但后来又连续失败10次
- 理论破产
88. 对着电脑拜三拜
- 要做一个超级复杂的镜头
- 五个人的打斗场面
- 知道成功率很低
- 真的对着电脑拜了三拜
- 嘴里念叨:“求求你了,这次一定要成功”
- 点击生成
- 结果还是失败
- 苦笑
89. 尝试改变"运气"
- 失败太多次后
- 开始尝试各种"改运"方法:
- 换个时间段生成(凌晨AI会不会状态好点?)
- 换个浏览器(Chrome不行试Firefox?)
- 重启电脑(重启解决一切问题?)
- 先做简单的镜头"攒人品"
- 当然,这些都没用
90. 和AI"对话"
- 在提示词里加上:
- “拜托了”
- “请”
- “一定要”
- 知道AI不会理解这些
- 但还是忍不住加上
- 像是在和一个任性的小孩沟通
十七、和其他抽卡师的交流
91. 加入抽卡师群聊
- 在网上找到一个"AI漫剧制作交流群"
- 加入
- 发现里面500多人
- 都是和自己一样的抽卡师
92. 看到相似的吐槽
群里的消息:
- “又双叒叕变脸了,崩溃”
- “为什么我的角色总是长出六根手指?”
- “台词乱码有解吗?在线等,挺急的”
- “token烧完了,今天做不了了”
- “这个月已经亏了2000块”
93. 分享"成功经验"
有人发消息:
- “我发现了一个技巧!提示词里加上’高质量’三个字,效果会好很多!”
- 很多人回复:“真的吗?我试试!”
- 10分钟后:
- “没用”
- “还是失败”
- “可能是我运气不好”
94. 互相安慰
- “兄弟们,坚持住,熬过这个项目就好了”
- “下个项目我不做AI漫剧了,太折磨人了”
- “但是不做这个,还能做什么呢?”
- 群里沉默
95. 看到有人退出
- 有人发消息:“我不干了,这个钱赚得太痛苦”
- 有人问:“那你接下来做什么?”
- 回复:“不知道,先休息一段时间”
- 然后退群了
- 群成员数:499人
十八、身体和精神的消耗
96. 眼睛疲劳
- 盯着屏幕10个小时
- 检查每一帧的细节
- 眼睛干涩、发痛
- 滴眼药水
- 继续工作
97. 腰酸背痛
- 一直坐着
- 姿势僵硬
- 腰开始疼
- 站起来活动一下
- 但5分钟后又坐回去
- 因为还有100个镜头没做完
98. 睡眠质量下降
- 晚上躺在床上
- 闭上眼睛
- 脑子里还在想:
- 那个镜头的提示词要不要再改改?
- 明天的token够不够用?
- 这个项目什么时候能做完?
- 失眠到凌晨3点
99. 做梦都在抽卡
- 好不容易睡着了
- 梦到自己在生成视频
- 梦里的AI一直失败
- 一直失败
- 惊醒
- 一身冷汗
100. 情绪波动
- 早上起来:今天一定要多做几个镜头
- 中午:怎么又失败了,烦死了
- 下午:算了,差不多就行
- 晚上:我为什么要做这个工作?
- 深夜:明天继续吧,还能怎么办呢
十九、项目接近尾声
101. 还剩最后10个镜头
- 看到进度:140/150
- 心里有点激动:快结束了
- 但又有点担心:最后这10个会不会特别难?
102. 遇到最难的镜头
- 第145镜:大结局的高潮场面
- 10个人的群像
- 背景是复杂的城市街道
- 还有特效:爆炸、烟雾
- 看着这个需求
- 想:这根本不可能用AI做出来
103. 尝试简化
- 和导演商量:能不能改成简单点的?
- 导演:这是高潮,不能简化
- 只能硬着头皮做
104. 分解成20个子任务
- 把这个镜头拆成:
- 10个人物单独的动作
- 背景单独生成
- 爆炸特效单独生成
- 烟雾特效单独生成
- 最后合成
- 光是这一个镜头,就花了3天
105. 最终完成
- 第150个镜头做完
- 点击保存
- 导出最终视频
- 看着进度条:100%
- 长舒一口气
二十、项目复盘
106. 统计总耗时
- 打开工作日志
- 统计:
- 总工作时间:180小时
- 平均每个镜头:1.2小时
- 总生成次数:约600次
- 平均每个镜头生成4次
- Token总消耗:约6000个
- 付费购买token:500元
107. 计算收入
- 项目承制费:10分钟 × 50元 = 500元
- 减去token成本:500 - 500 = 0元
- 时薪:0元 ÷ 180小时 = 0元/小时
- 白干了
108. 身体代价
- 颈椎病加重
- 视力下降
- 失眠持续了一个月
- 体重下降了5斤(压力大,吃不下饭)
109. 心理代价
- 对AI产生了厌恶感
- 听到"生成"这个词就烦
- 看到"抽卡"两个字就想吐
- 对自己的工作价值产生怀疑
110. 思考未来
- 问自己:还要继续做抽卡师吗?
- 如果不做,能做什么?
- 如果继续做,怎么才能提高效率?
- 或者,这个行业本身就是个坑?
总结:抽卡师工作的本质
把上面110个步骤浓缩一下,抽卡师的工作本质是:
- 重复性:同样的流程重复几百次
- 不确定性:每次结果都不可预测
- 低技术含量:主要靠体力和耐心,不是技术
- 高时间成本:大量时间花在等待和重试上
- 低经济回报:投入和产出严重不成正比
- 心理消耗:持续的挫败感和无力感
- 身体损害:长时间盯屏幕、久坐
- 创造性缺失:不是在创作,是在和工具搏斗
这就是为什么抽卡师被称为"最惨牛马"——不是因为工作强度大(虽然确实大),而是因为这种工作把人变成了AI系统的修补工具,消耗了人的时间、金钱、健康和尊严,却没有给人带来相应的价值和成就感。
更多推荐


所有评论(0)