YOLOv11最新创新改进系列：融入YOLOv9的ADwon，扩大YOLO+多模态网络模型感受野，降低过拟合，让小目标无处可遁！检测精度再提新高！！

YOLOv11最新改进系列融合YOLOv9的ADwon模块，通过优化下采样策略扩大模型感受野并降低过拟合，显著提升小目标检测精度。该系列提供40+单模态和20+多模态改进方案，组合方式可达上百万种。配套M3FD多模态数据集配置（包含可见光与红外图像），支持6类目标检测。改进重点包括：1）分析上下采样的实现方式及作用；2）引入YOLOv9的可编程梯度信息(PGI)解决信息丢失问题；3）提出轻量级GE

Super D

320人浏览 · 2025-09-05 13:23:35

Super D · 2025-09-05 13:23:35 发布

YOLOv11最新创新改进系列：融入YOLOv9的ADwon，扩大YOLO+多模态网络模型感受野，降低过拟合，让小目标无处可遁！检测精度再提新高！！

购买相关资料后畅享一对一答疑！

截止到发稿时，B站YOLOv11最新改进系列的源码包，已更新了40+种的单模态改进！20+种多模态改进！
自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！！专注AI学术，关注B站博主：Ai学术叫叫兽！

数据集准备

我给大家配置了默认的M3FD.yaml,大家可以直接在代码中使用，然后按照自己的数据进行简单的替换就行！非常简单！

# Ultralytics YOLO , AGPL-3.0 license
# M3FD dataset
# Example usage: yolo train data=M3FD.yaml

# Train/val/test sets as dir: path/to/imgs
path:  # dataset root dir
train: images/train  # train visible images (relative to 'path')
train2: imagesTR/train  # train infrared images (relative to 'path')
val: images/val  # val visible images (relative to 'path')
val2: imagesIR/val  # val infrared images (relative to 'path')
test:   # test images (optional)

#image_weights: True
nc: 6


# Classes
names:
  0: People
  1: Car
  2: Bus
  3: Motorcycle
  4: Lamp
  5: Truck

其中，ImagesIR 为红外线图像

请添加图片描述
Image为可见光（RGB）图像

请添加图片描述

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽源码在相簿的链接中，动态中也有链接，感谢支持！祝科研遥遥领先！

改进-融入YOLOv9的ADwon，扩大YOLO+多模态网络模型感受野，降低过拟合，让小目标无处可遁！检测精度再提新高！！

一、下采样详解

1.1 下采样的目的：

为了使得图像符合显示区域的大小，生成对应图像的缩略图。在信号处理的不同模块中，下采样可以带来许多好处，例如提高信噪比，减少计算量，防止过拟合，增大感受野，使得后面的卷积核能够学到更加全局的信息。

1.2上采样与下采样的区别

1.2.1上采样的方式：

它有反卷积(Deconvolution，也称转置卷积)、上池化(UnPooling)方法、双线性插值（各种插值算法）。
在卷积神经网络中，由于输入图像通过卷积神经网络(CNN)提取特征后，输出的尺寸往往会变小，而有时我们需要将图像恢复到原来的尺寸以便进行进一步的计算(如图像的语义分割)，这个使图像由小分辨率映射到大分辨率的操作，叫做上采样，它的实现一般有三种方式：

1.插值，一般使用的是双线性插值，因为效果最好，虽然计算上比其他插值方式复杂，但是相对于卷积计算可以说不值一提，其他插值方式还有最近邻插值、三线性插值等；

2.转置卷积又或是说反卷积(Transpose Conv)，通过对输入feature
map间隔填充0，再进行标准的卷积计算，可以使得输出feature map的尺寸比输入更大；

3.Up-Pooling - Max Unpooling && Avg Unpooling --Max Unpooling，在对称的max pooling位置记录最大值的索引位置，然后在unpooling阶段时将对应的值放置到原先最大值位置，其余位置补0；

1.2.2下采样的方式

1、采用stride为2的池化层，如Max-pooling和Average-pooling，目前通常使用Max-pooling，因为他计算简单而且能够更好的保留纹理特征；
2、采用stride为2的卷积层，下采样的过程是一个信息损失的过程，而池化层是不可学习的，用stride为2的可学习卷积层来代替pooling可以得到更好的效果，当然同时也增加了一定的计算量。

二、YOLOv9概述

如今的深度学习方法重点关注如何设计最合适的目标函数，从而使得模型的预测结果能够最接近真实情况。同时，必须设计一个适当的架构，可以帮助获取足够的信息进行预测。然而，现有方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，大量信息将会丢失。
因此，YOLOv9 深入研究了数据通过深度网络传输时数据丢失的重要问题，即信息瓶颈和可逆函数。研究者提出了可编程梯度信息（programmable gradient information，PGI）的概念，来应对深度网络实现多个目标所需要的各种变化。PGI 可以为目标任务计算目标函数提供完整的输入信息，从而获得可靠的梯度信息来更新网络权值。
此外，研究者基于梯度路径规划设计了一种新的轻量级网络架构，即通用高效层聚合网络（Generalized Efficient Layer Aggregation Network，GELAN）。该架构证实了 PGI 可以在轻量级模型上取得优异的结果。
研究者在基于 MS COCO 数据集的目标检测任务上验证所提出的 GELAN 和 PGI。结果表明，与基于深度卷积开发的 SOTA 方法相比，GELAN 仅使用传统卷积算子即可实现更好的参数利用率。
对于 PGI 而言，它的适用性很强，可用于从轻型到大型的各种模型。我们可以用它来获取完整的信息，从而使从头开始训练的模型能够比使用大型数据集预训练的 SOTA 模型获得更好的结果。

写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通，所以本文作者即B站Up主：Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑，本up主获得过国奖，发表多篇SCI，擅长目标检测领域，拥有多项竞赛经历，拥有软件著作权，核心期刊等经历。因为经历过所以更懂小白的痛苦！因为经历过所以更具有指向性的指导！

祝所有科研工作者都能够在自己的领域上更上一层楼！！！

所有科研参考资料均可点击此链接，合适的才是最好的，希望我的能力配上你的努力刚好合适！

请添加图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Pygame 游戏开发实战：迷宫寻宝游戏设计与实现

迷宫寻宝游戏（Maze Treasure Game）是一款融合了冒险、策略与动作元素的2D游戏。玩家需要操控一个角色在复杂多变的迷宫中收集金币，同时躲避或消灭追逐的敌人。游戏设计了三个难度递增的关卡，每关都有独特的迷宫布局和敌人配置。游戏的核心功能包括：多关卡渐进式难度设计流畅的角色动画与精准的移动控制智能敌人AI追逐系统子弹射击与冷却机制金币收集与道具获取系统动态雪花背景特效丰富的音效与背景音乐

2048 AI社区

从零到一构建企业级AI向量服务：AntSK-PyApi深度技术解析

2048 AI社区

基于langchain构建简单的数学agent

经过测试add_numbers（加法函数）、subtract_numbers（减法函数）、multiply_numbers（乘法函数）和 divide_numbers（除法函数）应进行修改，以使用浮点转换来处理小数，更严格地验证输入，并为边缘情况提供清晰的错误消息。但是，如果工具返回复杂的输出（例如像 sum_numbers_with_complex_output 中的字典），你就需要切换到像 G