AI 又瞎发挥？用 JSON 写提示词，让它从 “开盲盒” 变 “听话执行”

用 JSON 结构化提示词，把模糊的感觉变成带分镜的拍摄清单。这不是什么高深技术，是真能让 AI 从 “野生创作” 变 “听话执行” 的硬办法。今天把我测了30多组案例攒出的模板和踩坑心得甩给你们，看完就能上手，不好用你来找我。

AI导航猿

804人浏览 · 2025-08-18 18:58:13

AI导航猿 · 2025-08-18 18:58:13 发布

估计不少人都遇到过这种崩溃时刻：给AI的是精确指令，回来的是开盲盒结果。尤其做商业项目时，客户要的 “高级感”“电影感”，在AI眼里可能就是一场大型自由发挥现场。

但最近琢磨Veo3时，我找到了个治 AI “不听话” 的偏方 ——用 JSON 结构化提示词，把模糊的感觉变成带分镜的拍摄清单。这不是什么高深技术，是真能让 AI 从 “野生创作” 变 “听话执行” 的硬办法。今天把我测了30多组案例攒出的模板和踩坑心得甩给你们，看完就能上手，不好用你来找我。

一、为啥非得搞 JSON？一句话说不明白吗？

一开始我也觉得 “没必要这么复杂”，直到上个月接了个美妆广告单。客户明确要 “25 岁白皮女生涂正红色口红，背景是 ins 风化妆台”，结果用一句话提示词生成 5 版：

版 1：女生黄皮，口红是橘色的

版 2：背景成了厨房，女生手里拿的是酱油瓶

版 3：好不容易对上了，女生眨眼时眼皮直接穿模了

后来换成 JSON 格式，把 “女生” 拆成 “25 岁，鹅蛋脸，白皮，齐肩黑发”，把 “口红” 写成 “正红色哑光唇膏，唇线清晰”，生成 3 版几乎没差。这才明白，结构化提示词解决的是AI创作的两个死穴：

1.不猜了：“电影感” 这种词太空泛，JSON 能把它拆成 “24fps 帧率 + 暖色调 + 轻微胶片颗粒 + 浅景深”，AI不用纠结你要的是王家卫的暧昧还是诺兰的冷峻，照着参数干就行。

2.不跑偏了：同一套提示词，生成 10 次，主角服装、场景光线这些核心要素基本不会变。做系列短视频时，这点能省掉大把后期调整的时间。

说白了，一句话提示词是跟AI“商量着来”，结构化提示词是跟AI“下命令”—— 主动权完全不一样。

二、实测好用的 Veo 3 JSON 模板（带拆解）

这套模板是我对着一些电影的分镜，一点点加加减减磨出来的，从 “拍什么” 到 “怎么拍” 都覆盖到了。先上模板，后面挨个说怎么用：

1. 镜头：你手里的 “导演筒”

这部分决定观众 “怎么看”，是最能体现 “导演感” 的地方。

构图：画面里该放多少东西。想让观众盯着演员眼里的泪光？用 “特写”；想展现沙漠里的孤独感？用 “远景”；拍对话场景，“过肩镜头” 能天然带出身临其境的张力 —— 就像你站在角色身后看对方说话。

相机运动：画面动起来的方式。跟拍镜头（比如跟着主角走在街上）能让观众感觉 “我就在旁边跟着”；平移镜头（从左到右扫过咖啡馆）适合展示环境；摇臂镜头从下往上推，拍演唱会或者高楼时，史诗感直接拉满。

帧率：电影感的开关。24fps 是电影标配，动态模糊恰到好处，拍人物走路时裙摆飘动的柔美感就靠它；拍体育比赛或者快速动作，60fps 会更清晰，连跑步时肌肉的抖动都看得清。
胶片颗粒：复古感的调味剂。轻微颗粒像老照片，适合拍回忆场景；重度颗粒直接拉满年代感，拍 80 年代故事时，加这个参数，画面立马有内味儿了。

2. 拍摄主体：故事的 “心脏”

AI 生成视频最容易翻车的地方，就是把 “穿红色连衣裙的女孩” 搞成 “穿粉色短裙的大妈”。这部分描述越具体，AI 越不容易瞎编。

描述：别只说 “一个女人”，至少要写清 “30 岁左右，扎低马尾，颧骨微高的中国女性”—— 细节越多，AI “捏人” 越准。上次我漏了 “颧骨微高”，结果生成的全是圆脸，差点耽误交片。
着装：拒绝 “时尚”“好看” 这种废话。亲测 “藏青色收腰西装 + 白色缎面衬衫（领口微开）” 比 “职业装” 效果好 10 倍，AI 连衬衫褶皱的位置都能处理得更自然。
道具：加个道具，故事感瞬间拉满。同样是 “女人喝咖啡”，手里拿 “缺了个小口的马克杯” 比 “普通杯子” 更有生活气息，AI 还会自动加一些摩挲杯沿的小动作，人物一下子就鲜活了。

3. 场景：故事的 “舞台”

场景错了，再棒的主体也白搭。比如拍 “职场女性”，把地点写成 “菜市场” 就很违和。

地点：越具体越有 “地理标签”。“上海武康大楼门口的街角” 会比 “城市街角” 多很多细节 —— 老洋房的红砖墙、街角的梧桐树，甚至连行人的穿着都带上海味，AI 不会给你瞎加北京胡同的元素。
拍摄时间：光线是最好的 “滤镜”。黄金时段（日出后 1 小时 / 日落前 1 小时）的光线是暖金色，拍人物侧脸会有一圈金边；蓝色时刻（日落后 20 分钟）的天空是深蓝色，拍城市夜景加路灯，氛围感直接拉满。
环境：决定场景 “性格”。“杂乱的旧书店（书架歪歪扭扭，地上堆着泛黄的书）” 和 “整洁的网红书店（白色书架，ins 风摆件）”，哪怕拍同一个人看书，故事感也完全不同 —— 前者像文艺片，后者像小红书探店视频。

4. 视觉细节 + 摄影手法：质感的 “加分项”

这两块是让视频从 “能看” 到 “好看” 的关键，适合有进阶需求的同学。

动作：别写 “走路”，写 “双手插兜，脚步轻快地走，偶尔踢一下路边的小石子”——AI 会把这些细节融进去，人物瞬间就有了灵魂。上次我写 “慢慢走”，AI 生成的像机器人；改成 “拖着脚步，时不时低头看地面”，立马有了慵懒感。
视觉元素：加些 “特效”。比如 “阳光透过树叶的光斑落在脸上”“雨天窗户上的水流”，这些细节能让画面更有层次。不过别加太多，上次我同时写了 “光斑 + 雨滴 + 镜头光晕”，AI 直接懵了，生成的画面一团乱。
光线：不同光源出不同情绪。霓虹灯适合拍赛博朋克风，柔光箱（像影楼那种）适合拍人像，硬光（比如正午阳光）适合拍明暗对比强的画面，比如西部片里的牛仔侧脸 —— 亮部极亮，暗部极暗，张力十足。
色调：暖色调（橙、黄）适合拍温馨场景，冷色调（青、蓝）适合拍悬疑或科技感画面；想突出高级感，试试 “低饱和”，瞬间有大牌广告那味儿，比高饱和看着舒服多了。

5. 音频 + 其他：给后期留 “钩子”

目前 AI 视频的音频生成还不算强，但提前写清楚，要么能直接用，要么能给后期剪辑指方向。

环境音：“咖啡馆的杯碟碰撞声 + 轻声交谈”“海边的海浪声 + 风声”，加了这些，画面的真实感会翻倍。上次我忘写环境音，AI 给我加了个汽车鸣笛，直接把文艺片氛围毁了。
色调风格：最后给整体定个调。“高对比度（暗部更暗，亮部更亮）” 适合拍戏剧冲突强的场景；“柔和朦胧（边缘带轻微虚化）” 适合拍梦境或回忆，像蒙上一层薄纱，很有感觉。

三、上手实操：3 步走，少走弯路

拿到模板别着急填满，我踩过的坑告诉你：一步一步来更高效。

1.定核心：先把 “拍摄主体 + 动作” 写死。比如 “25 岁穿白大褂的医生，在实验室里低头记录数据”—— 这是故事的根，不能动。

2.搭舞台：围绕核心，构建场景。地点（医院实验室）、时间（上午 10 点，阳光从窗户照进来）、环境（摆满玻璃器皿，操作台整洁）—— 让主体有 “地方待”。

3.调镜头：思考你想怎么呈现这个故事，然后配置镜头参数。比如用“中景”（能看到医生和周围的仪器）、“静态镜头”（突出专注感）、“30fps”（比电影稍流畅，适合记录类画面）—— 让观众看得舒服。

四、生成不满意？这样改最有效

AI 第一次生成大概率不完美，但别瞎试，按这几点排查：

1.动作僵：看看是不是动作写太复杂。比如 “一边打字一边转头跟同事说话还翻文件”，AI 容易乱，拆成 “先打字，再转头说话，最后翻文件” 就行。

2.风格偏：检查光线和色调是不是 “打架”。比如 “霓虹灯 + 暖色调” 就很矛盾，换成 “霓虹灯 + 冷色调”，赛博朋克那味儿立刻就对了。

3.主体或场景错：加 “排他词”。比如总把 “短发女生” 生成长发，就在描述里加 “绝对短发，到耳垂位置，无刘海”—— 堵死 AI 瞎猜的空间。

其实玩下来你会发现，结构化提示词就像给 AI 写 “分镜头脚本”，每一个参数都是给 AI 的 “明确指令”。虽然 Veo 3 现在还有局限 —— 最长只能生成 8 秒，偶尔会犯“物理错误”（比如人物手穿过杯子），但用对了方法，已经能解决 80% 的商业创作需求。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

企业AI项目如何赚钱？资深架构师的回报分析方法论

AI 驱动的软件产品许多企业开发基于 AI 的软件解决方案，如智能客服系统、图像识别软件、数据分析工具等，然后将这些产品直接销售给其他企业或个人用户。例如，一家公司开发了一款利用 AI 技术进行精准营销的软件，通过分析客户数据来制定个性化的营销方案。其他企业购买这款软件后，可以提高营销效率，增加销售额。该软件公司通过收取软件授权费、订阅费等方式实现盈利。# 简单示例：模拟精准营销软件中的客户数据分