第17講：有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理) 学习记录

Sora 的demo。

15699

590人浏览 · 2025-08-06 15:54:55

15699 · 2025-08-06 15:54:55 发布

Sora 的demo
https://openai.com/sora/
https://openai.com/index/video-generation-models-as-world-simulators/

🧠 生成影像的生成式 AI —— 影像生影像

在生成式人工智能（Generative AI）领域中，图像生成技术已经从“文字生成图像”逐渐迈向更高层次的能力 —— 以图生图（Image-to-Image Generation）。也就是说，模型不仅可以从文本提示中“想象”出图像，还能基于一张已有图像，生成新的图像内容，实现风格迁移、画面补全、内容变换等操作。

这种“影像生成影像”的能力，背后依赖于扩散模型（Diffusion Models）、生成对抗网络（GANs）以及控制生成的条件机制（如 ControlNet、InstructPix2Pix 等）。应用范围涵盖：

🎨 图像风格迁移（如将照片转为动漫风）
🧱 图像修复与超分辨率重建
🧬 医疗影像模拟与增强
🕹️ 游戏素材自动生成
📷 文生图 + 图生图组合生成复杂画面

相比传统的生成方式，以图生图可以更精准地控制局部内容，同时保持整体一致性，是生成式 AI 应用于视觉创作的关键突破。

在这里插入图片描述
通过输入语音和图片，让图片按照嘴型说出来

Paper: https://arxiv.org/abs/2403.17694
Demo: https://huggingface.co/spaces/ZJYang/AniPortrait_official

在这里插入图片描述

影片都是由一张张图片构成的

在这里插入图片描述
人工智能看图片
在这里插入图片描述·
生成影片

在这里插入图片描述
sora的模型
请添加图片描述

以文字生图为例

https://laion.ai/blog/laion-5b/

image-text Paris 的 LAION 数据集 5.85B

文字生图

在这里插入图片描述

客制化你的图片–用一个特殊符号来代替

在这里插入图片描述

文字生影片

在这里插入图片描述
分解attention

Spatio- temporal attention
Spatial Attention
Temporal Attention

在这里插入图片描述

在这里插入图片描述

经典影片生成的方法

Variational Auto-encoder(VAE)
Flow-based Mehtod
Diffusion Method
Generative Adversarial Network(GAN)

Sora 应该是Diffusion model
在这里插入图片描述

在这里插入图片描述

https://openai.com/index/glow/

在这里插入图片描述

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

金融科技：利用AI风控模型重构信贷审批流程

智能AI镜头系统架构全方位对比分析

本文对智能AI镜头产品的芯片选型进行了全面对比分析。基于产品需求，从性能、成本、功耗等维度评估了瑞芯微RV1126、RK3588和地平线RDK3、RDK5四款方案。结果显示：瑞芯微RV1126性价比最优（单价8美元/2TOPS/1.5W），适合智能门锁等成本敏感场景；地平线RDK3（12美元/5TOPS）满足国产化需求；RK3588（45美元/6TOPS）适用于高性能产品；RDK5（35美元/12

cover

【AI模型】API-Anthropic

所有评论(0)

查看更多评论

15699

@weixin_55982578

已为社区贡献1条内容