全球最火的视觉AI「YOLO」首次来到中国,告诉我们视觉AI的下一站
YOLO Vision 2025(YV25)在深圳华侨城创意文化园首次亮相中国。本次大会吸引了 200 多名与会者亲临现场,还有许多的伙伴们通过 Bilibili 和 YouTube 在线参加了活动,在 Bilibili 共计有 2w+ 的观看量。
YOLO Vision 2025(YV25)在深圳华侨城创意文化园首次亮相中国。本次大会吸引了 200 多名与会者亲临现场,还有许多的伙伴们通过 Bilibili 和 YouTube 在线参加了活动,在 Bilibili 共计有 2w+ 的观看量。
这是继今年 9 月在伦敦举办的 YOLO Vision 之后,今年举办的第二届 YOLO Vision,也是 YOLO Vision 首次来到中国,我们非常开心能够在深圳和 Vision AI 社区的小伙伴们一起见面,也非常的荣幸能够邀请到AI领域内知名的企业以及社区一同分享大家的成果以及洞见。

Ultralytics YOLO 模型的发展历程
Ultralytics 创始人兼首席执行官 Glenn Jocher(格伦·乔彻)带来了当天的首场主题演讲,分享了 Ultralytics YOLO 模型如何从一次研究突破,现在成长为全球最广泛应用的视觉人工智能模型之一。
Glenn 回顾道,自己在早期的核心目标其实很简单——让 YOLO 更易用。他将模型迁移至 PyTorch 框架,完善了文档,并将所有成果开源共享,让世界各地的开发者都能在此基础上创新。
正如他回忆的那样:“2018 年我一头扎进了这个领域,当时我就知道——这就是我未来要走的路。”
从一位开发者的个人探索开始,YOLO 最终发展成了一场全球性的开源浪潮。

Glenn Jocher 在深圳 YOLO Vision 2025 大会上发言
如今,Ultralytics YOLO 模型每天为全球数十亿次推理提供动力。Glenn 在演讲中提到,这样的成就并非一人之功,而是来自无数人的共同努力。来自世界各地的研究者、工程师、学生、爱好者与开源贡献者,一起把 YOLO 打磨成了如今这款被广泛使用的视觉 AI 模型。
“在全球范围内,有近千名贡献者参与其中。我们对此深表感激——没有他们,就没有今天的 YOLO。”
Ultralytics YOLO26:迈向更快、更强、更智能的下一代视觉模型
在今年早些时候的 YOLO Vision 2025 伦敦站上,Ultralytics 首次发布了 YOLO26。而在深圳站,Glenn Jocher 带来了这一模型的最新进展,向 AI 社区展示了过去数月中它的成长与演进。
Glenn 介绍道,YOLO26 的设计目标十分明确:让模型更小、更快、更准,同时依然足够实用,适应真实世界的落地场景。过去一年,团队不断打磨架构、在多设备上进行性能基准测试,并广泛吸收社区和研究领域的反馈。团队的核心理念是——在不增加部署难度的前提下,追求最先进的性能表现。
YOLO26 的新特性亮点
-
超参数优化新策略:YOLO26 将引入专门的超参数调优机制,从“完全从零训练”转向基于更大数据集的精调(fine-tuning)策略。这一改变更贴近实际应用场景,让模型更高效地适应多样任务。
-
更简洁的模型结构:移除了 DFL(Distribution Focal Loss)层,使模型结构更轻、更快,同时保持原有精度不变。
-
原生端到端推理支持:YOLO26 原生支持 End-to-End Inference,无需独立的 NMS 层。这大大简化了模型导出与部署流程(如 ONNX、TensorRT 等格式),让其在边缘设备上部署更加轻松。
-
更强的小目标检测能力:新的损失策略优化了对小目标的识别表现,解决了计算机视觉中长期存在的难题。
-
全新混合优化器(Hybrid Optimizer):受大语言模型(LLM)训练研究启发,YOLO26 引入了全新的混合优化器,进一步提升模型精度,并已集成至最新版本的 Ultralytics Python 包中。
与 YOLO11 相比,YOLO26 在 CPU 上的推理速度提升最高可达 43% ,同时在精度上也实现了显著优化。这让 YOLO26 尤其适用于嵌入式设备、机器人以及边缘计算系统。
目前,YOLO26 计划支持与 YOLO11 相同的任务类型和模型规模,共计 25 个模型变体,涵盖检测、分割、姿态估计、旋转框检测及分类等任务,从 Nano 级到 Extra Large 一应俱全。
更值得期待的是,团队还在研发 5 个可提示式(Promptable)模型变体。这类模型能直接根据文本提示生成检测框,无需额外训练,为基于指令的视觉工作流(Instruction-based Vision)奠定基础,让模型在不同场景下的适应性更强,也更具灵活性。
目前,YOLO26 系列仍在积极开发中,但从早期测试结果来看,性能表现相当出色。
Ultralytics Platform:让视觉 AI 工作流更简单、更开放
在介绍完 YOLO26 的最新进展后,Ultralytics 产品工程负责人 Prateek Bhatnagar 登台,为大家带来了 Ultralytics Platform 的现场演示。
这是一款正在打造中的视觉 AI 平台,旨在将计算机视觉工作流的关键环节整合到一起——从数据集探索、图像标注、模型训练到结果对比,都能在同一环境中完成。

图 2. Prateek Bhatnagar 现场演示 Ultralytics Platform
Prateek 在演讲中强调,平台延续了 Ultralytics 的开源精神,并引入了两个全新的社区空间:
-
Dataset Community(数据集社区)
-
Projects Community(项目社区)
开发者可以在这里共享数据集、复用模型、改进他人项目,让开源协作更加高效。
现场演示中,他展示了平台的多项功能:包括 AI 辅助标注、便捷的云端训练,以及无需本地 GPU 即可直接在社区中微调模型 的能力。
目前,该平台仍在开发阶段。Ultralytics团队也正在中国扩充研发力量,以更好地支持平台的正式发布与本地化发展。
走进 YOLO 的幕后:听作者们讲述他们的故事
随着现场氛围不断升温,活动进入了圆桌论坛环节,本次论坛的嘉宾包括 Glenn Jocher、Ultralytics 高级机器学习工程师 邱靖、YOLOv10 & YOLOE 作者之一陈辉,以及 YOLOv6 作者之一张勃。

图 3. YOLO 模型发展圆桌论坛嘉宾(从左到右:黄雪莹、陈辉、张勃、邱靖、Glenn Jocher)
本次讨论的核心聚焦在 YOLO 如何在真实应用中不断演进。 嘉宾们提到,正是实际部署中的挑战不断的推动了 YOLO 的进步,例如如何在边缘设备上高效运行、提升小目标检测能力,以及简化模型导出流程等。相比单纯追求精度,嘉宾们强调在生产环境中,速度、可用性与稳定性之间的平衡同样重要。另一个共同观点是:持续迭代与社区反馈是推动 YOLO 成长的关键。
以下是讨论中一些有趣的观点:
-
开放词汇检测(Open-Vocabulary Detection)正在兴起:新一代 YOLO 模型展示了视觉-语言对齐(vision-language alignment)与基于提示的工作流如何突破固定类别,实现更灵活的目标检测。
-
轻量化注意力机制的崛起:嘉宾们讨论了如何在模型中使用高效注意力机制(efficient attention),而非全局注意力,以在保证推理轻量化的同时提升精度,这对边缘设备尤其重要。
-
与社区“早迭代、快反馈”:嘉宾们倡导“构建—测试—改进”的开发理念,通过更早发布模型、从用户中学习,比漫长的闭门开发周期更能带来优质成果。
从前沿研究到产业落地:视觉 AI 的新方向
来自全球 AI 社区的领军人物在现场分享了视觉 AI 的最新发展趋势——从数字人和机器人,到多模态推理与高效的边缘部署。
以人为中心的 AIGC 与虚拟人技术
来自阿里巴巴通义实验室的张鹏博士介绍了通义实验室 Human-AIGC 团队在基于视频大模型的可控人物视频生成和实时交互数字人方面的工作与探索。

阿里巴巴通义实验室张鹏博士
他深入解析了当前人物视频生成领域所面临的困境——如生成过程中的可控性不足、过度依赖“抽卡式”结果等问题。随后,他介绍了 Human-AIGC 团队近期开源的两项成果 Wan-S2V 与 Wan-Animate。这两项模型分别可通过输入音频或模板视频,实现更高可控度的人物生成,如讲话、演唱、动作模仿与视频人物替换等。在此基础上,团队还在探索如何将视频大模型应用于实时、交互式数字人场景。目前的研究方向包括:(1)实时的上下文免训练(in-context zero-shot)的人物形象、动作、音频风格联合克隆 (2)wan-animate的lite版本,实时从摄像头的视频驱动图片形象 (3)手机端实时运行的极地成本数字人。
软硬协同赋能机器人智能感知
地瓜机器人开发者生态副总裁胡春旭在分享中指出,机器人的“眼睛”和“大脑”正面临前所未有的挑战:复杂多变的场景、实时的决策需求,与有限的功耗和成本之间存在着巨大的矛盾。

地瓜机器人开发者生态副总裁胡春旭
地瓜机器人通过深度软硬件协同设计,推出了高性能、低功耗的计算平台 Sunrise 以及一站式开发套件 RDK,为机器人与视觉应用提供 5 至 128 TOPS 的强大算力支持。配合高度优化的算法工具链,让 YOLO、OCC、双目深度等视觉算法能够快速、高效地转化为机器人稳定可靠的实时感知能力。这不仅让机器人“看得清”,更“看得懂”——能够灵活应对现实世界中瞬息万变的复杂环境,实现真正意义上的智能感知与决策。
PaddleOCR:提取PDF和图片中的结构化数据

百度高级产品经理张晶
在本次分享中,来自百度的高级产品经理张晶回顾了 YOLO 与 PaddleOCR 在真实场景中的应用,展示了两者在车牌识别、无人机巡检、文档智能等任务中如何实现从“看见”到“读懂”的协同能力。同时,他介绍了 PaddleOCR 的发展历程及其在 2025 年发布的多语言文档解析模型 PaddleOCR-VL。他指出,在大模型时代,YOLO 与 PaddleOCR 的结合将为视觉理解和智能应用带来更深层次的合作与创新潜力。
DEEPX 与 Ultralytics YOLO:端侧与物理世界中的 AI 实践
在本次大会上,DEEPX销售总监郑韩彬和金禹光分享了与 Ultralytics 建立合作伙伴关系后的最新进展,介绍了双方在中国与欧洲地区的技术协作与应用落地情况。现场还展示了基于 YOLO 系列模型的多项性能对比结果,从帧率、AI 精度、功耗与能效比等多个维度,与竞品进行了全面对标,充分体现出 YOLO 在性能与效率上的优势。

DEEPX销售总监郑韩彬和金禹光
同时,DEEPX 团队还展示了其主要产品与核心技术,并通过 YOLO 系列 DEMO 呈现了端侧视觉 AI 的实际应用效果。大会还带来了第五代百度飞桨 OCR DEMO,并公布了与 RTX 2080 Ti 平台的性能对比结果,展示了 PaddleOCR 的强劲表现。最后,双方也分享了 DEEPX 与百度飞桨的合作进度,展现了在 AI 生态共建与模型优化方向上的深度协同与探索。
Ultralytics YOLO和CV类模型在E300 SOC上的部署实践
摩尔线程端侧技术负责人刘令飞介绍了 E300 AI 模组的最新进展。摩尔线程E300 AI模组凭借CPU+GPU+NPU异构融合算力,在端侧实现四路 1080P 高清视频下 YOLOv8s/m 模型分别跑到 170/101 FPS,充分展现 50TOPS INT8 稠密算力的实战价值。通过 MTNN 编译器一键完成 INT8 量化,与前处理融合,配合 Torch-MUSA AOT 静态编译,部署时间从小时级缩至分钟级;msys 可视化性能分析工具快速锁定瓶颈,指导优化。

摩尔线程端侧技术负责人刘令飞
团队已在 Gitee 开源 40+CV 模型,覆盖检测、分割、姿态、OCR、人脸识别等场景,提供从转模型、调优到落地的全套示例,显著降低开发者门槛。未来将继续完善工具链,推动更多 YOLO 系列及 Transformer 视觉模型在边缘端高效运行,让“高性能+低功耗”的端侧 AI 真正触手可及。
RWKV在视觉模型中的应用
围绕 “RWKV在视觉领域的应用”,元始智能高级算法工程师岳紫寅详细介绍了 RWKV 架构在视觉应用的技术优势以及活跃的技术生态,并分享了多篇知名产学研机构使用 RWKV 技术进行视觉优化的论文与重要成果。

元始智能高级算法工程师岳紫寅
技术展区:看见视觉 AI 的无限可能
如果说主会场的演讲让人看见了视觉 AI 的未来,那么展区的现场展示,则让大家切身感受到它已经如何改变现实。在这里,来自众多公司的团队带来了各自最新的技术成果与创新产品,让参会者能够近距离观看模型实时运行、体验不同硬件平台的差异,并与研发团队面对面交流,了解背后的故事与灵感。

从鼓舞人心的主题演讲,到沉浸式的实操展示,YOLO Vision 2025 深圳大会充分展现了 Ultralytics 社区的创新精神与凝聚力。在这场为期一整天的盛会中,研究人员、工程师、学生与开发者们畅所欲言,分享从模型训练到部署落地的实践经验,讲者与参会者们思想碰撞、探索前沿技术,共同描绘出对人工智能未来的愿景,也为 Ultralytics YOLO 的下一个篇章奠定了坚实的起点。
YOLO Vision 的故事仍在继续,未来,我们再相聚于创新的前沿!

关于Ultralytics
我们的使命是以不懈的行动推动人工智能的进步,开创世界一流的开源解决方案。我们希望通过便捷、前沿的技术为个人与企业赋能,让AI改变生活,让价值触手可及。
更多推荐


所有评论(0)