历史性时刻！等了五年，Transformers v5终于来了！它将如何改变每一个AI开发者？

刚刚，Transformers v5 发布首个 RC（候选）版本 v5.0.0rc0。

安卓老猴子

136人浏览 · 2025-12-02 15:55:12

安卓老猴子 · 2025-12-02 15:55:12 发布

刚刚，Transformers v5 发布首个 RC（候选）版本 v5.0.0rc0。

GitHub：https://github.com/huggingface/transformers/releases/tag/v5.0.0rc0

这次更新标志着这一全球最流行的 AI 基础设施库，正式跨越了从 v4 到 v5 长达五年的技术周期。

作为 Hugging Face 最核心的开源项目，自 2020 年 11 月 v4 版本发布以来，Transformers 的日下载量已从当时的 2 万次激增至如今的超过 300 万次，总安装量突破 12 亿次。

它定义了业界如何使用模型，支持的架构也从最初的 40 个扩展至超过 400 个，涵盖了文本、视觉、音频及多模态领域，社区贡献的模型权重更是超过 75 万个，涵盖了文本、视觉、音频及多模态领域。

官方表示，在人工智能领域，「重塑」是保持长盛不衰的关键。Transformers 作为生态系统中领先的模型定义库，需要不断演进并调整库的形态，以保持其相关性。

v5 版本将 PyTorch 确立为唯一核心后端，并聚焦于四大维度的进化：极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性，以及将量化提升为核心功能。

简洁性

团队的首要关注点是简洁性。

Hugging Face 希望模型的集成方式是干净、清晰的。简洁性能够带来更广泛的标准化、更强的通用性，以及更全面的生态支持。

新增模型

从本质上讲，Transformers 始终是一个模型架构工具箱。Hugging Face 目标是收录所有最新的模型架构，并成为模型定义的唯一可信来源。

在过去 5 年里，平均每周新增 1–3 个新模型，时间线如下图所示：

模块化方法

在过去一年里，Hugging Face 大力推进模块化设计。这种方式使维护更简单、集成速度更快，并能促进社区之间的协作。

尽管 Hugging Face 始终尊崇「一个模型，一个文件」的哲学，但他们仍在不断引入一些抽象层，以简化通用辅助函数的管理。这方面最典型的例子就是引入了 AttentionInterface，它为注意力机制提供了一个集中的抽象层。Eager 方法将保留在建模文件中；而其他方法，如 FA1/2/3 (FlashAttention)、FlexAttention 或 SDPA，则被移至该接口中。

模型转换工具

Hugging Face 也正在大力构建工具，以帮助识别某个新模型与现有模型架构之间的相似性。该功能通过机器学习来发现不同模型文件之间的代码相似度。

进一步来说，Hugging Face 希望自动化模型转换流程：当有新模型需要集成到 Transformers 中时，系统将自动创建一个草稿 PR（Pull Request），将其转换成符合 Transformers 格式的版本。

这一流程将减少大量手动工作，并确保整体的一致性。

代码精简

精简 Modeling & Tokenization/Processing 文件

Hugging Face 对建模文件和标注相关文件也进行了大规模重构。

得益于前文提到的模块化方法，加上对不同模型之间的统一标准化，建模文件得到了显著改善。标准化让许多不真正属于模型本体的工具都被抽象出去，使建模代码只保留模型前向 / 反向传播所需的核心部分。

与此同时，v5 也在简化 tokenization & processing 文件：未来将只关注 tokenizers 后端，并移除 Fast 和 Slow tokenizer 这两个概念。

图像处理器今后也将只保留 fast 版本，这些版本依赖 torchvision 作为后端。

最后，v5 将逐步停止对 Flax / TensorFlow 的支持，转而专注于 PyTorch 作为唯一后端；不过团队也在与 JAX 生态合作伙伴协作，以确保模型能够与该生态兼容。

PyTorch 基金会执行董事、Linux 基金会 AI 部总经理 Matt White 表示：随着 v5 版本的发布，Transformers 正全面转向 PyTorch。

训练

关于 v5 版本的训练仍然是团队工作的重点，之前 Hugging Face 专注于微调而不是大规模预训练以及完整训练，v5 加大了对后者的支持。

预训练

为了支持预训练，Hugging Face 重新设计了模型初始化方式，同时也加入了对前向与反向传播优化算子支持。目前，v5 已经与 torchtitan、megatron、nanotron 等工具实现了更广泛的兼容。

微调与后训练

Hugging Face 表示将继续与 Python 生态系统中的所有微调工具保持紧密合作。同时，Hugging Face 也在与 JAX 生态中的 MaxText 等工具兼容，以确保他们的框架与 Transformers 之间具备良好的互操作性。

现在，所有微调和后训练工具都可以依赖 Transformers 作为模型定义的来源；这也进一步可以通过 OpenEnv 或 Prime Environment Hub 来支持更多的 Agentic 使用场景。

推理

推理也是 v5 优化的重点方向之一，Hugging Face 带来了多项范式级的更新：包括专用内核、更干净的默认设置、新的 API，以及优化对推理引擎的支持。

此外，和训练阶段类似，Hugging Face 也投入了大量精力来封装推理内核。

在这项工作之外，他们还为推理新增了两个专用 API：

连续批处理和 paged attention 机制。这些功能已经在内部开始使用，之后会有使用指南放出。
全新的 transformers serve 服务系统，可部署一个兼容 OpenAI API 的服务器，用于部署 Transformers 模型。

在 v5 的更新中，Hugging Face 明确强化了对推理场景的支持，尤其是像模型评估这类需要同时处理大量请求的任务。

值得注意的是，Transformers v5 的定位并不是取代 vLLM、SGLang、TensorRT-LLM 这样的专业推理引擎。相反，他们的目标是与这些引擎实现兼容。

生产环境

本地部署

团队与最流行的推理引擎紧密合作，从而能够将 Transformers 作为后端使用。这带来了显著的价值：只要某个模型被添加到 Transformers 中，它就会立即在这些推理引擎中可用，同时还能充分利用各引擎的优势，例如推理优化、专用内核、动态批处理等。

另外，Hugging Face 也在与 ONNXRuntime、llama.cpp 和 MLX 展开密切合作，以确保 Transformers 与这些建模库之间具有良好的互操作性。例如，得益于社区的大量努力，现在在 Transformers 中加载 GGUF 文件以进行进一步微调变得非常简单。反之，也可以轻松地将 Transformers 模型转换为 GGUF 文件，以便在 llama.cpp 中使用。

对于 MLX 而言也是如此，transformers 的 safetensors 文件可以直接兼容 MLX 的模型。

最后，Hugging Face 也在推动本地推理的边界，并与 executorch 团队紧密合作，让 Transformers 模型能够在设备端直接运行，对多模态模型（视觉、音频）的支持也在快速扩展中。

量化

量化正迅速成为当代前沿模型开发的标准，许多 SOTA 模型如今都以低精度格式发布，例如 8-bit 和 4-bit（如 gpt-oss、Kimi-K2、DeepSeek-R1）。

紧跟技术前沿，v5 将量化作为 Transformers 的核心能力之一，确保它能够与主要功能完全兼容，并为训练与推理提供一个可靠的量化框架。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述