Sora 的demo
https://openai.com/sora/
https://openai.com/index/video-generation-models-as-world-simulators/


🧠 生成影像的生成式 AI —— 影像生影像

在生成式人工智能(Generative AI)领域中,图像生成技术已经从“文字生成图像”逐渐迈向更高层次的能力 —— 以图生图(Image-to-Image Generation)。也就是说,模型不仅可以从文本提示中“想象”出图像,还能基于一张已有图像,生成新的图像内容,实现风格迁移、画面补全、内容变换等操作。

这种“影像生成影像”的能力,背后依赖于扩散模型(Diffusion Models)、生成对抗网络(GANs)以及控制生成的条件机制(如 ControlNet、InstructPix2Pix 等)。应用范围涵盖:

  • 🎨 图像风格迁移(如将照片转为动漫风)
  • 🧱 图像修复与超分辨率重建
  • 🧬 医疗影像模拟与增强
  • 🕹️ 游戏素材自动生成
  • 📷 文生图 + 图生图组合生成复杂画面

相比传统的生成方式,以图生图可以更精准地控制局部内容,同时保持整体一致性,是生成式 AI 应用于视觉创作的关键突破。


在这里插入图片描述
通过输入语音和图片,让图片按照嘴型说出来

Paper: https://arxiv.org/abs/2403.17694
Demo: https://huggingface.co/spaces/ZJYang/AniPortrait_official

在这里插入图片描述

影片都是由一张张图片构成的

在这里插入图片描述
人工智能看图片
在这里插入图片描述·
生成影片

在这里插入图片描述
sora的模型
请添加图片描述

以文字生图为例

https://laion.ai/blog/laion-5b/

image-text Paris 的 LAION 数据集 5.85B

文字生图

在这里插入图片描述

客制化你的图片–用一个特殊符号来代替

在这里插入图片描述

文字生影片

在这里插入图片描述
分解attention

  1. Spatio- temporal attention
  2. Spatial Attention
  3. Temporal Attention

在这里插入图片描述

在这里插入图片描述

经典影片生成的方法

  1. Variational Auto-encoder(VAE)
  2. Flow-based Mehtod
  3. Diffusion Method
  4. Generative Adversarial Network(GAN)

Sora 应该是Diffusion model
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
https://openai.com/index/glow/

在这里插入图片描述
D
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐