高性能、低成本推理新标准：NVIDIA Dynamo 1.0 现已上线 DigitalOcean 推理云平台

NVIDIA Dynamo 是一个高性能推理服务框架，专为加速和优化大规模生成式 AI 和推理模型而设计。Dynamo 作为一个编排层，运行在 vLLM、SGLang 和 NVIDIA TensorRT-LLM 等引擎之上。你可以把它想象成 GPU 集群的分布式交通控制器，无缝编排跨集群的 GPU 和内存资源，并通过智能路由减少瓶颈。7 倍性能提升：与 NVIDIA Blackwell Ult

DO_Community

13人浏览 · 2026-03-23 16:58:16

DO_Community · 2026-03-23 16:58:16 发布

上周在 NVIDIA GTC 上发布的 NVIDIA Dynamo 1.0 现已面向 DigitalOcean 客户开放，有助于提升性能并降低成本。NVIDIA Dynamo 1.0 在 NVIDIA GB200 NVL 系统上提供 7 倍推理性能提升，通过与 DigitalOcean 的智能推理云结合，客户可以以更低的成本获得更高性能，同时受益于无缝部署。在共同努力下，DigitalOcean 与 NVIDIA 的优化已经为 Workato 等客户实现了 67% 的成本节省，而这一代新的 Dynamo 可以为企业级智能体（AI Agent）工作流解锁更大的收益。DigitalOcean 客户可以通过容器镜像获取 NVIDIA Dynamo 1.0，可以在 Droplet 云服务器上运行，也可以与推理运行时（vLLM、SGLang、TensorRT）一起直接部署在 DigitalOcean Kubernetes 上。

什么是 NVIDIA Dynamo 1.0？

Dynamo 1.0 提供的关键技术突破包括：

7 倍性能提升：与 NVIDIA Blackwell Ultra GPU 搭配使用时，Dynamo 可将推理性能提升高达 7 倍，显著降低每个 token 的成本。
KV 感知路由：Dynamo 摒弃了简单的轮询负载均衡，而是将请求路由到已在对话历史中缓存了相关“记忆”的特定 GPU 上。
分离式服务：Dynamo 将“预填充”（读取提示词）和“解码”（生成答案）两个阶段拆分到不同的 GPU 上执行，从而最大化利用率并降低延迟。
内存卸载：KV 块管理器（KVBM）在高速 GPU 内存与低成本的存储层之间动态迁移数据，使您能够处理超长上下文窗口而无需担心内存上限。

DigitalOcean 如何使用 Dynamo 优化推理工作负载以提升吞吐量和降低延迟

使用 DigitalOcean 上的 NVIDIA Dynamo，客户既能享受出色的性价比，又能获得简单的部署流程以及与 Dynamo 架构高度契合的运行环境，尤其是在需要严格管控 GPU 集群、进行 KV 缓存优化和路由的场景下。DigitalOcean 已通过 NVIDIA Dynamo 为客户带来了实实在在的成效。近期，我们与 Workato 的 AI 研究实验室合作，在其平台上扩展了代理型 AI 能力，该平台处理着超过 1 万亿次自动化工作负载。为满足生产级推理对效率与成本的严苛要求，该团队在 DigitalOcean 托管 Kubernetes (DOKS) 上部署了 NVIDIA Dynamo 与 vLLM。

在 DOKS 上使用 NVIDIA Dynamo v0.4.1 与 vLLM，Workato 实现了：

**每 GPU 吞吐量提升 67%**，端到端延迟降低 79%，首 token 响应时间降低 77%（相较于在相同硬件上的其他配置）
**硬件成本降低 33%**：在实现同等性能的前提下，使用 NVIDIA H200 GPU 相比 NVIDIA A100 GPU 成本更低
**模型成本降低 67%**，同时所用 GPU 数量减半

欢迎查阅卓普云官网的技术博客，了解更多 Workato 如何在 DigitalOcean 上取得如此显著成效的细节。

借助 Dynamo 1.0 的强大能力以及全新推出的 NVIDIA HGX B300s，我们期待为像 Workato 这样的客户带来更进一步的性能提升与成本优化。

NVIDIA 和 DigitalOcean 推理优化的未来

除了 Dynamo 1.0，作为今年 NVIDIA GTC 的一部分，我们激动地分享其他产品发布和更新，以进一步增强 DigitalOcean 智能推理云的能力。包括我们全新的 AI 优先 Richmond 数据中心，无缝体验 NVIDIA Agent Toolkit 和 NemoClaw 并部署到 DigitalOcean，支持 NVIDIA Nemotron 3 Super 等高性能模型，以及更多内容。了解更多关于 DigitalOcean 和 NVIDIA GTC 的详细信息，可访问卓普云 AI Droplet 官网博客。

目前 NVIDIA B300 GPU 云服务器已经开放预约申请，现在联系卓普云 AI Droplet 可提前锁定 B300 GPU 云服务器资源。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从AI场景剧本化到落地：四AI三阶段实施方案

2048 AI社区

几款静态扫描工具（SAST）比较

本文主要是比较各种SAST工具的特点，以及最新流行的AI技术的集成的效果，希望能够在选择SAST工具时能够有所帮助。

2048 AI社区

Java 26 正式发布！10大核心新特性全解析（附可运行代码+实战场景）

Java 26 作为非LTS版本，虽然不适合直接用于生产环境，但其中的10项核心新特性，每一项都直击开发者痛点，兼顾语法简洁性、并发安全性、性能高效性和网络现代化，为后续Java版本的发展奠定了基础。从开发视角来看，原始类型模式匹配、结构化并发、惰性常量能够大幅简化代码编写，提升开发效率；从性能视角来看，AOT对象缓存、G1 GC优化、向量API能够全方位提升应用运行效率，适配高并发、大数据、AI