FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

DiagAgent 是由上海交通大学和上海人工智能实验室的 AI4Med 团队发布的诊断智能体（7B、8B、14B），能够主动管理诊断轨迹，选择最具信息量的检查、决定何时停止检查并给出准确的最终诊断。仅需约 13 GB 显存即可在消费级 GPU 上高效运行，并支持 FP8/NVFP4 量化，速度进一步提升最高 2.7 倍，将 AI 图像生成从「笨重的离线工具」转变为响应灵敏的实时协作者，为实时设计

HyperAI超神经

649人浏览 · 2026-02-02 16:33:47

HyperAI超神经 · 2026-02-02 16:33:47 发布

当前，主流图像生成模型虽能产出高质量结果，但推理速度慢、显存需求高，交互模式仍停留在「离线工具」时代，用户输入提示后只能被动等待，无法实现实时响应与交互。这限制了 AI 在实时设计、快速原型等场景的应用。

在此背景下，黑森林实验室（Black Forest Labs）开源发布 FLUX.2‑klein‑4B，该模型通过步数蒸馏将推理步骤压缩至 4 步，实现亚秒级（≤0.5 s）端到端推理。其统一架构同时支持文生图、图生图与多参考生成，免去多模型切换的麻烦；仅需约 13 GB 显存即可在消费级 GPU 上高效运行，并支持 FP8/NVFP4 量化，速度进一步提升最高 2.7 倍，将 AI 图像生成从「笨重的离线工具」转变为响应灵敏的实时协作者，为实时设计、交互编辑等场景提供了轻量、高效的解决方案。

目前，HyperAI超神经官网已上线了「FLUX.2-klein-4B：极速图像生成模型」，快来试试吧~

在线使用：https://go.hyper.ai/N7D6c

1 月 26 日-1 月 30 日，hyper.ai 官网更新速览：

* 优质教程精选：6 个

* 热门百科词条：5 条

* 2 月截稿顶会：6 个

访问官网：hyper.ai

公共教程精选

1.WeDLM 高效大语言模型解码框架

WeDLM（Window-based Efficient Decoding for Large Models）是由腾讯推出的高效大语言模型解码框架，旨在为新一代 AI 对话系统提供极速、智能且高度自适应的语言生成能力。该框架采用创新的基于窗口的并行解码架构，在保持高质量文本生成的同时，实现了显著的解码速度提升。其核心技术突破在于融合了熵值阈值决策与位置惩罚机制，有效解决了传统自回归解码在生成长序列时的速度瓶颈问题。

在线运行：https://go.hyper.ai/Cfahp

Demo 页面

2.FLUX.2-klein-4B：极速图像生成模型

FLUX.2-klein-4B 是 Black-Forest-Labs 最新推出的超快速图像生成模型。该模型基于 Rectified-Flow 架构，采用 40 亿参数蒸馏 Transformer 设计，在一个紧凑的模型权重中统一了文生图与多参考图像编辑功能。其运行时仅需约 13 GB 显存，可在消费级 GPU 上实现端到端推理速度低于 1 秒。

在线运行：https://go.hyper.ai/N7D6c

Demo 页面

3.DiagGym 诊断智能体

DiagAgent 是由上海交通大学和上海人工智能实验室的 AI4Med 团队发布的诊断智能体（7B、8B、14B），能够主动管理诊断轨迹，选择最具信息量的检查、决定何时停止检查并给出准确的最终诊断。与传统医学大模型仅提供一次性答案不同，DiagAgent 可以推荐相关检查并在多轮对话中自适应更新诊断，只有在获得足够信息时才给出最终诊断。DiagAgent 通过端到端多轮强化学习（GRPO）在 DiagGym 环境中优化。在每次交互中，智能体从初始问诊开始，通过推荐检查并接收模拟结果与 DiagGym 互动，并决定何时做出最终诊断。

在线运行：https://go.hyper.ai/FzOau

Demo 页面

4.Pocket-TTS：高质量轻量级流式 TTS 系统

Pocket-TTS 是由Kyutai Labs 发布的超轻量级语音合成模型。该模型专注于低延迟与流式输出，旨在为资源受限环境或需实时交互的场景（如 AI 助手）提供高质量的语音生成能力。

在线运行：https://go.hyper.ai/CwgHo

Demo 页面

5.Triton 编译器教程

Triton 是一种用于并行编程的语言和编译器，旨在提供一个基于 Python 的编程环境，以高效编写自定义 DNN 计算内核，并能够在 GPU 硬件上以最大吞吐量运行。

在线运行：https://go.hyper.ai/Xqd8j

6.TVM 教程 0.22.0

Apache TVM 是一个用于 CPU 、GPU 和机器学习加速器的开源机器学习编译器框架，旨在让机器学习工程师能够在任何硬件后端上高效地优化和运行计算。

在线运行：https://go.hyper.ai/s3yot

热门百科词条精选

1. 每秒帧数 FPS

2. 倒数排序融合 RRF

3. 视觉语言模型 VLM

4. 超网络 HyperNetworks

5. 门控注意力 Gated Attention

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://go.hyper.ai/wiki

一站式追踪人工智能学术顶会：https://go.hyper.ai/event

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Python与Cython中的高效文本处理库

你被斯蒂芬·金的建议说服了，他认为副词不是你的朋友，所以你想高亮显示所有副词。我们将使用一个他认为特别糟糕的例子：代码语言：pythonAI代码解释这很简单——但问题是我们也高亮了“back”。虽然“back”无疑是副词，但我们可能不想高亮它。如果我们的目标是标记可疑的文体选择，我们需要完善我们的逻辑。事实证明，只有特定类型的副词才是我们感兴趣的。根据我们想要标记的确切词语，我们有很多方法可以做到