用一只“小”模型让老照片自己开口：3.7B 多模态 LLM 的「语音驱动人像」端侧落地笔记

本文提出了一种面向低成本智能相框的轻量化AI视频生成方案，通过多模态LLM将音频直接转换为连贯的说话视频。核心创新包括：1）3.7B参数时空LLM架构，采用ST-RoPE位置编码实现稳定口型；2）交叉LoRA蒸馏技术，使小模型达到接近14B大模型的表现；3）端侧全INT8优化，在RK3588芯片上实现280ms首帧延迟和25fps稳定输出。最终模型体积仅692MB，口型误差1.9mm，支持45°侧

Blossom.116

530人浏览 · 2026-01-23 17:47:04

Blossom.116 · 2026-01-23 17:47:04 发布

一、缘起：当“AI 复活老照片”遇上硬件预算 200 块

客户是做「智能相框」的硬件厂——

芯片：RK3588，NPU 算力 6 TOPS，内存 8 GB
目标：用户扫一张老照片→录 5 秒语音→相框自动输出 15 秒 1080p 说话视频
预算：整机 BOM 成本 ≤ 200 RMB，模型授权费还要摊进 10 块

开源「Wav2Lip + GFPGAN」方案试跑：

口型对不上侧脸
需要 GPU，功耗 45 W
模型体积 1.8 GB，加载 12 s

于是决定自己训一只「小而美」的多模态 LLM，端到端把「音频 → 视频帧」做成 next-token 预测，最终体积 692 MB，RK3588 上首帧 280 ms，25 fps 稳定输出，MA-MPJPE 口型误差 1.9 mm，用户侧「零感知」延迟。

二、总体思路：把「说话视频」当成时空 Token 序列

音频 MFCC ─┐
           ├─► 多模态小 LLM ──► 视频 Token ──► VQVAE Decoder ──► 1080p 帧
参考人脸 ─┘

Audio Encoder：Tiny-Transformer，把 80-dim MFCC 切成 25 fps 音频 token
Visual Prompt：单张人脸用 ViT-Base 抽 256 个语义 token，作为「第一帧」条件
时空 LLM：3.7B 参数，自回归生成「音频-视觉」混合序列
VQVAE Decoder：512 码本，把 token 映射为 64×64 特征，上采样到 1080p
后处理：轻量 GAN-Face 修复 2 MB，跑在 NPU INT8，耗时 6 ms/帧

三、模型结构：3.7B 里如何塞进「时序一致性」？

3.1 时空 Rotary 位置编码（ST-RoPE）

# 伪代码
def st_rope(q, frame_idx, token_idx, head_dim):
    cos_f = cos(frame_idx / 10000 ** (arange(0, head_dim, 2) / head_dim))
    cos_t = cos(token_idx / 10000 ** (arange(1, head_dim, 2) / head_dim))
    return q * (cos_f + cos_t)  # 帧内+跨帧联合编码

口型序列相邻帧 token 内积相似度 > 0.93，解决 Wav2Lip 常见的「抖动」问题。

3.2 单向 Audio → Visual 掩码

防止视觉 token 反向泄露到音频侧，保证推理时「只听不说」。

3.3 交叉 LoRA 蒸馏

Teacher：14B 多模态模型（内部数据 1.2 M 小时 4K 说话视频）
Student：本文 3.7B 结构
蒸馏策略：

只蒸馏 attention 分布，loss = KL(At, As)
每 100 step 交换一次 LoRA rank（64 ↔ 128）→ 收敛更快
最终口型误差 Teacher 1.6 mm → Student 1.9 mm，体积降 4×。

四、数据工程：让模型「见」过侧脸、胡子、眼镜

数据源	时长	清洗要点
内部 4K 棚拍	180 k 小时	逐帧 68 点人脸对齐 + 光流去抖
开源 VoxCeleb2	1.1 k 小时	人声活动检测 VAD，去掉 BGM
自采手机视频	12 k 小时	姿态>30° 自动增强翻转

增强策略：

随机遮挡 20 % 区域，强迫模型用音频补全
色彩 jitter，模拟老照片泛黄
15 % 样本只给「半边脸」，提升侧脸口型对齐

五、训练细节：在 32 张 A800 上 5 天搞定

# 关键超参
precision = bf16  mixed
batch_size = 1024  video（8 卡 * 128）
lr = 2e-4  with cosine
accumulate_grad = 8
gradient_clip = 1.0

显存优化：

activation checkpoint + flash-attn
把 VQVAE Decoder 拆到另一张卡，梯度异步更新
训练曲线 72 h 后口型误差下降趋于 1.9 mm，停止，LoRA 合并，总耗时 5 天。

六、端侧部署：RK3588 NPU 全链路 INT8

6.1 量化策略

权重：INT8 对称，per-channel
激活：INT8 非对称，per-token（防止口型幅度被压扁）
embedding 表：INT4，体积再减半，推理时反量化到 INT8

6.2 图优化

# 使用 rknn-toolkit2 图融合
g = rknn.Graph()
g.fold_constant()      # 常量折叠
g.fuse_bn_into_conv()  # BN 融合
g.fuse_gelu()          # 把 gelu 换成近似 LUT

最终 compute graph 节点数 470 → 82，NPU 利用率 89 %

6.3 内存布局

DDR 8 GB 分区：
├── 模型权重    692 MB
├── 音频环形缓冲  6 MB
├── 视频帧缓冲   18 MB  // 三帧乒乓
└── 临时特征    4 MB

单帧峰值内存 < 800 MB，Android 系统仍可流畅跑 Launcher。

七、性能对标

方案	体积	首帧	25 fps 稳跑	口型误差	侧脸角度
Wav2Lip-GFP	1.8 GB	1200 ms	NO	2.7 mm	<15°
SadTalker	925 MB	800 ms	YES	2.2 mm	<25°
本文 3.7B LLM	692 MB	280 ms	YES	1.9 mm	45°

功耗：平均 4.8 W（NPU 3.1 W + CPU 1.7 W），相框内置 5000 mAh 电池可连续输出 1.8 小时。

八、业务落地与灰度数据

上线 3 周，2.3 K 台设备，数据如下：

用户平均语音时长 4.7 s，生成 12 s 视频
完播率 78 %（传统幻灯片播放仅 41 %）
投诉：唇形错位 0.3 %，均已通过 OTA 更新 LoRA-Δ 修复

九、彩蛋：让老照片“唱歌”

把音频编码器换成 MIDI 旋律，visual-prompt 加「歌谱事件 token」，同一路径即可生成「唱歌人头」。
圣诞固件已推送，用户反馈“童年照片在唱 Jingle Bell”效果拉满。

十、总结与开源

关键经验：

把“视频帧”当 token，LLM 原生 handle 时序一致性
交叉 LoRA 蒸馏 → 小模型也能“模仿”大模型 attention
端侧 INT8 图优化比模型结构更决定帧率

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

构建高性能生成式AI应用：基于Rust Axum与蓝耘DeepSeek-V3.2大模型服务的全栈开发实战

2048 AI社区

C++模板：告别重复代码的利器

在开始今天的内容之前，我们先来看一下我们前面写过的交换函数：代码语言：javascriptAI代码解释//……我们看到，当想要交换int类型，double类型，char类型的数据，我们是不是要对各种类型的数据写对应的交换函数，ok，在我们还没有学函数重载的时候，甚至还要给这些交换不同类型的交换函数命不同的名字，现在我们学了函数重载，虽然可以实现，但是有一下几个不好的地方：重载的函数仅仅是类型不同，

2048 AI社区

网络协议和进程线程

并发：指在同一时刻只能有一条指令执行，但多个进程指令被快速的轮换执行，使得在宏观上具有多个进程同时执行的效果，但在微观上并不是同时执行的，只是把时间分成若干段，使多个进程快速交替的执行。第二次挥手：服务端收到 FIN 之后，会发送 ACK 报文，且把客户端的序列号值 +1 作为 ACK 报文的序列号值，表明已经收到客户端的报文了，此时服务端处于 CLOSE_WAIT 状态。①进程是操作系统资源分配