AI 又瞎发挥?用 JSON 写提示词,让它从 “开盲盒” 变 “听话执行”
用 JSON 结构化提示词,把模糊的感觉变成带分镜的拍摄清单。这不是什么高深技术,是真能让 AI 从 “野生创作” 变 “听话执行” 的硬办法。今天把我测了30多组案例攒出的模板和踩坑心得甩给你们,看完就能上手,不好用你来找我。
估计不少人都遇到过这种崩溃时刻:给AI的是精确指令,回来的是开盲盒结果。尤其做商业项目时,客户要的 “高级感”“电影感”,在AI眼里可能就是一场大型自由发挥现场。
但最近琢磨Veo3时,我找到了个治 AI “不听话” 的偏方 ——用 JSON 结构化提示词,把模糊的感觉变成带分镜的拍摄清单。这不是什么高深技术,是真能让 AI 从 “野生创作” 变 “听话执行” 的硬办法。今天把我测了30多组案例攒出的模板和踩坑心得甩给你们,看完就能上手,不好用你来找我。
一、为啥非得搞 JSON?一句话说不明白吗?
一开始我也觉得 “没必要这么复杂”,直到上个月接了个美妆广告单。客户明确要 “25 岁白皮女生涂正红色口红,背景是 ins 风化妆台”,结果用一句话提示词生成 5 版:
版 1:女生黄皮,口红是橘色的
版 2:背景成了厨房,女生手里拿的是酱油瓶
版 3:好不容易对上了,女生眨眼时眼皮直接穿模了
后来换成 JSON 格式,把 “女生” 拆成 “25 岁,鹅蛋脸,白皮,齐肩黑发”,把 “口红” 写成 “正红色哑光唇膏,唇线清晰”,生成 3 版几乎没差。这才明白,结构化提示词解决的是AI创作的两个死穴:
1.不猜了:“电影感” 这种词太空泛,JSON 能把它拆成 “24fps 帧率 + 暖色调 + 轻微胶片颗粒 + 浅景深”,AI不用纠结你要的是王家卫的暧昧还是诺兰的冷峻,照着参数干就行。
2.不跑偏了:同一套提示词,生成 10 次,主角服装、场景光线这些核心要素基本不会变。做系列短视频时,这点能省掉大把后期调整的时间。
说白了,一句话提示词是跟AI“商量着来”,结构化提示词是跟AI“下命令”—— 主动权完全不一样。
二、实测好用的 Veo 3 JSON 模板(带拆解)
这套模板是我对着一些电影的分镜,一点点加加减减磨出来的,从 “拍什么” 到 “怎么拍” 都覆盖到了。先上模板,后面挨个说怎么用:
1. 镜头:你手里的 “导演筒”
这部分决定观众 “怎么看”,是最能体现 “导演感” 的地方。
-
构图:画面里该放多少东西。想让观众盯着演员眼里的泪光?用 “特写”;想展现沙漠里的孤独感?用 “远景”;拍对话场景,“过肩镜头” 能天然带出身临其境的张力 —— 就像你站在角色身后看对方说话。
-
相机运动:画面动起来的方式。跟拍镜头(比如跟着主角走在街上)能让观众感觉 “我就在旁边跟着”;平移镜头(从左到右扫过咖啡馆)适合展示环境;摇臂镜头从下往上推,拍演唱会或者高楼时,史诗感直接拉满。
-
帧率:电影感的开关。24fps 是电影标配,动态模糊恰到好处,拍人物走路时裙摆飘动的柔美感就靠它;拍体育比赛或者快速动作,60fps 会更清晰,连跑步时肌肉的抖动都看得清。
-
胶片颗粒:复古感的调味剂。轻微颗粒像老照片,适合拍回忆场景;重度颗粒直接拉满年代感,拍 80 年代故事时,加这个参数,画面立马有内味儿了。
2. 拍摄主体:故事的 “心脏”
AI 生成视频最容易翻车的地方,就是把 “穿红色连衣裙的女孩” 搞成 “穿粉色短裙的大妈”。这部分描述越具体,AI 越不容易瞎编。
-
描述:别只说 “一个女人”,至少要写清 “30 岁左右,扎低马尾,颧骨微高的中国女性”—— 细节越多,AI “捏人” 越准。上次我漏了 “颧骨微高”,结果生成的全是圆脸,差点耽误交片。
-
着装:拒绝 “时尚”“好看” 这种废话。亲测 “藏青色收腰西装 + 白色缎面衬衫(领口微开)” 比 “职业装” 效果好 10 倍,AI 连衬衫褶皱的位置都能处理得更自然。
-
道具:加个道具,故事感瞬间拉满。同样是 “女人喝咖啡”,手里拿 “缺了个小口的马克杯” 比 “普通杯子” 更有生活气息,AI 还会自动加一些摩挲杯沿的小动作,人物一下子就鲜活了。
3. 场景:故事的 “舞台”
场景错了,再棒的主体也白搭。比如拍 “职场女性”,把地点写成 “菜市场” 就很违和。
-
地点:越具体越有 “地理标签”。“上海武康大楼门口的街角” 会比 “城市街角” 多很多细节 —— 老洋房的红砖墙、街角的梧桐树,甚至连行人的穿着都带上海味,AI 不会给你瞎加北京胡同的元素。
-
拍摄时间:光线是最好的 “滤镜”。黄金时段(日出后 1 小时 / 日落前 1 小时)的光线是暖金色,拍人物侧脸会有一圈金边;蓝色时刻(日落后 20 分钟)的天空是深蓝色,拍城市夜景加路灯,氛围感直接拉满。
-
环境:决定场景 “性格”。“杂乱的旧书店(书架歪歪扭扭,地上堆着泛黄的书)” 和 “整洁的网红书店(白色书架,ins 风摆件)”,哪怕拍同一个人看书,故事感也完全不同 —— 前者像文艺片,后者像小红书探店视频。
4. 视觉细节 + 摄影手法:质感的 “加分项”
这两块是让视频从 “能看” 到 “好看” 的关键,适合有进阶需求的同学。
-
动作:别写 “走路”,写 “双手插兜,脚步轻快地走,偶尔踢一下路边的小石子”——AI 会把这些细节融进去,人物瞬间就有了灵魂。上次我写 “慢慢走”,AI 生成的像机器人;改成 “拖着脚步,时不时低头看地面”,立马有了慵懒感。
-
视觉元素:加些 “特效”。比如 “阳光透过树叶的光斑落在脸上”“雨天窗户上的水流”,这些细节能让画面更有层次。不过别加太多,上次我同时写了 “光斑 + 雨滴 + 镜头光晕”,AI 直接懵了,生成的画面一团乱。
-
光线:不同光源出不同情绪。霓虹灯适合拍赛博朋克风,柔光箱(像影楼那种)适合拍人像,硬光(比如正午阳光)适合拍明暗对比强的画面,比如西部片里的牛仔侧脸 —— 亮部极亮,暗部极暗,张力十足。
-
色调:暖色调(橙、黄)适合拍温馨场景,冷色调(青、蓝)适合拍悬疑或科技感画面;想突出高级感,试试 “低饱和”,瞬间有大牌广告那味儿,比高饱和看着舒服多了。
5. 音频 + 其他:给后期留 “钩子”
目前 AI 视频的音频生成还不算强,但提前写清楚,要么能直接用,要么能给后期剪辑指方向。
-
环境音:“咖啡馆的杯碟碰撞声 + 轻声交谈”“海边的海浪声 + 风声”,加了这些,画面的真实感会翻倍。上次我忘写环境音,AI 给我加了个汽车鸣笛,直接把文艺片氛围毁了。
-
色调风格:最后给整体定个调。“高对比度(暗部更暗,亮部更亮)” 适合拍戏剧冲突强的场景;“柔和朦胧(边缘带轻微虚化)” 适合拍梦境或回忆,像蒙上一层薄纱,很有感觉。
三、上手实操:3 步走,少走弯路
拿到模板别着急填满,我踩过的坑告诉你:一步一步来更高效。
1.定核心:先把 “拍摄主体 + 动作” 写死。比如 “25 岁穿白大褂的医生,在实验室里低头记录数据”—— 这是故事的根,不能动。
2.搭舞台:围绕核心,构建场景。地点(医院实验室)、时间(上午 10 点,阳光从窗户照进来)、环境(摆满玻璃器皿,操作台整洁)—— 让主体有 “地方待”。
3.调镜头:思考你想怎么呈现这个故事,然后配置镜头参数。比如用“中景”(能看到医生和周围的仪器)、“静态镜头”(突出专注感)、“30fps”(比电影稍流畅,适合记录类画面)—— 让观众看得舒服。
四、生成不满意?这样改最有效
AI 第一次生成大概率不完美,但别瞎试,按这几点排查:
1.动作僵:看看是不是动作写太复杂。比如 “一边打字一边转头跟同事说话还翻文件”,AI 容易乱,拆成 “先打字,再转头说话,最后翻文件” 就行。
2.风格偏:检查光线和色调是不是 “打架”。比如 “霓虹灯 + 暖色调” 就很矛盾,换成 “霓虹灯 + 冷色调”,赛博朋克那味儿立刻就对了。
3.主体或场景错:加 “排他词”。比如总把 “短发女生” 生成长发,就在描述里加 “绝对短发,到耳垂位置,无刘海”—— 堵死 AI 瞎猜的空间。
其实玩下来你会发现,结构化提示词就像给 AI 写 “分镜头脚本”,每一个参数都是给 AI 的 “明确指令”。虽然 Veo 3 现在还有局限 —— 最长只能生成 8 秒,偶尔会犯“物理错误”(比如人物手穿过杯子),但用对了方法,已经能解决 80% 的商业创作需求。
更多推荐
所有评论(0)