图像评估指标

FID、PSNR、SSIM、LPIPS等图像评估指标

东风中的蒟蒻

1273人浏览 · 2024-08-19 21:39:38

东风中的蒟蒻 · 2024-08-19 21:39:38 发布

图像评估指标

FID

FID（Frechet Inception Distance）是一种评估生成模型生成图像质量的指标。它通过比较生成图像与实际图像在Inception网络特征空间的分布来计算两者之间的距离。FID值越小，表示生成图像与实际图像越相似，质量越高。FID可以反映图像的多样性及生成模型的性能。

from torch_fidelity import calculate_metrics

# 输入生成图像和实际图像的路径
metrics_dict = calculate_metrics(
    input1='path_to_generated_images',  # 生成图像的路径
    input2='path_to_real_images',       # 实际图像的路径
    cuda=True,                          # 如果有GPU，可以启用 CUDA 加速
    isc=False,                          # 计算 Inception Score 可选，默认 False
    fid=True                            # 计算 FID
)
fid_score = metrics_dict['frechet_inception_distance']
print(f'FID: {fid_score}')

PSNR

PSNR（Peak Signal-to-Noise Ratio）用于量化图像重建质量，尤其适用于图像压缩和去噪等任务。它通过比较原始图像和重建图像之间的峰值信噪比来评估图像的恢复质量。PSNR值越高，表示重建图像与原始图像越接近。典型计算方法公式如下：
[ \text{PSNR} = 10 \cdot \log_{10}\left(\frac{\text{MAX}_I^2}{\text{MSE}}\right) ]
其中，MAX_I为图像中像素的最大可能值，MSE为均方误差。

import numpy as np
from skimage.metrics import peak_signal_noise_ratio
from skimage.io import imread

# 读取图像
original_image = imread('path_to_original_image')
compressed_image = imread('path_to_compressed_image')

# 计算 PSNR
psnr_value = peak_signal_noise_ratio(original_image, compressed_image)
print(f'PSNR: {psnr_value} dB')

SSIM

SSIM（Structural Similarity Index）是一种衡量两幅图像相似度的方法。不同于PSNR和MSE，SSIM更注重图像的结构信息，包括亮度、对比度和结构这三个方面。SSIM值从-1到1，越接近1表示两幅图像越相似。SSIM公式如下：
[ \text{SSIM}(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)} ]
其中，( \mu_x )、( \mu_y ) 是均值，( \sigma_x^2 )、( \sigma_y^2 ) 是方差，( \sigma_{xy} ) 是协方差，( c_1 )、( c_2 ) 是用来稳定分母的常数。

from skimage.metrics import structural_similarity

# 读取图像
original_image = imread('path_to_original_image')
compressed_image = imread('path_to_compressed_image')

# 计算 SSIM
ssim_value, ssim_map = structural_similarity(original_image, compressed_image, full=True, multichannel=True)
print(f'SSIM: {ssim_value}')

LPIPS

LPIPS（Learned Perceptual Image Patch Similarity）是一种基于深度学习的感知相似度指标, 用于评估两张图像之间的感知差异。不同于传统的图像相似度算法，LPIPS使用预训练的卷积神经网络根据单个图像块生成特征，并计算特征之间的距离来评估图像相似度。主要公式如下：
[ \text{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h=1}^{H_l} \sum_{w=1}^{W_l} ||\hat{y}_l^{(h,w)} - \hat{x}_l^{(h,w)}||2 ]
其中，( x )、( y ) 是输入图像，( \hat{x}_l )、( \hat{y}_l ) 是预训练网络l层的特征图，H_l 和 W_l 是特征图的高度和宽度。LPIPS值越小，表示两张图像在感知上越相似。

import torch
import lpips
from skimage.io import imread
from skimage.transform import resize

# 读取和预处理图像
def preprocess_image(image_path):
    image = imread(image_path)
    image = resize(image, (256, 256), anti_aliasing=True)  # 调整图像大小以匹配模型要求
    image = torch.tensor(image).permute(2, 0, 1).unsqueeze(0).float()  # 转换成 PyTorch 张量
    return image

image1 = preprocess_image('path_to_image1')
image2 = preprocess_image('path_to_image2')

# 初始化 LPIPS 模型
loss_fn = lpips.LPIPS(net='alex')  # 使用 alex 作为底层网络

# 计算 LPIPS value
lpips_value = loss_fn(image1, image2)
print(f'LPIPS: {lpips_value.item()}')

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI工具实战测评：30秒读懂技术真相

AI工具测评指南摘要：本文提出了一套系统化的AI工具测评方法，从测评目标设定到最终结论输出。测评涵盖文本生成、图像处理等工具类型，重点考察功能完整性、性能指标（响应时间、准确率）及资源消耗。通过设计典型测试用例，对比同类工具优劣，并结合实际应用场景验证。最后总结工具适用性，指出改进方向，为不同用户群体提供选用建议。测评过程强调量化分析与案例验证相结合，确保评估结果客观全面。

2048 AI社区

AI生成电影预告片：代码重构影视魔法

本文探讨了利用代码自动生成电影预告片的技术方案。首先分析了预告片的核心结构元素，包括悬念设置、节奏控制和情感传递。然后详细介绍了技术实现流程：通过FFmpeg和OpenCV处理原始素材，运用深度学习进行场景分类，采用动态时间规整算法匹配音乐与剪辑节奏，并利用NLP模型优化片段排序。文章还展示了Python工具链的实现方案，包括MoviePy等库的应用，以及参数化调整和A/B测试等优化方法。最后探讨

2048 AI社区

Anaconda加速AI训练的10大秘技

本文介绍了使用Anaconda加速AI模型训练的技术方案。主要内容包括：1）环境配置优化，如配置国内镜像源、创建独立虚拟环境；2）GPU加速支持，包括CUDA/cuDNN版本匹配、安装GPU版框架；3）高效数据预处理方法，如使用Dask/Modin替代Pandas；4）分布式训练优化技术，如Horovod多节点训练和PyTorch DDP模式；5）混合精度训练配置与监控；6）缓存与流水线优化策略。