高性能、低成本推理新标准:NVIDIA Dynamo 1.0 现已上线 DigitalOcean 推理云平台
NVIDIA Dynamo 是一个高性能推理服务框架,专为加速和优化大规模生成式 AI 和推理模型而设计。Dynamo 作为一个编排层,运行在 vLLM、SGLang 和 NVIDIA TensorRT-LLM 等引擎之上。你可以把它想象成 GPU 集群的分布式交通控制器,无缝编排跨集群的 GPU 和内存资源,并通过智能路由减少瓶颈。7 倍性能提升:与 NVIDIA Blackwell Ult
上周在 NVIDIA GTC 上发布的 NVIDIA Dynamo 1.0 现已面向 DigitalOcean 客户开放,有助于提升性能并降低成本。NVIDIA Dynamo 1.0 在 NVIDIA GB200 NVL 系统上提供 7 倍推理性能提升,通过与 DigitalOcean 的智能推理云结合,客户可以以更低的成本获得更高性能,同时受益于无缝部署。在共同努力下,DigitalOcean 与 NVIDIA 的优化已经为 Workato 等客户实现了 67% 的成本节省,而这一代新的 Dynamo 可以为企业级智能体(AI Agent)工作流解锁更大的收益。DigitalOcean 客户可以通过容器镜像获取 NVIDIA Dynamo 1.0,可以在 Droplet 云服务器 上运行,也可以与推理运行时(vLLM、SGLang、TensorRT)一起直接部署在 DigitalOcean Kubernetes 上。
什么是 NVIDIA Dynamo 1.0?
NVIDIA Dynamo 是一个高性能推理服务框架,专为加速和优化大规模生成式 AI 和推理模型而设计。Dynamo 作为一个编排层,运行在 vLLM、SGLang 和 NVIDIA TensorRT-LLM 等引擎之上。你可以把它想象成 GPU 集群的分布式交通控制器,无缝编排跨集群的 GPU 和内存资源,并通过智能路由减少瓶颈。
Dynamo 1.0 提供的关键技术突破包括:
- 7 倍性能提升:与 NVIDIA Blackwell Ultra GPU 搭配使用时,Dynamo 可将推理性能提升高达 7 倍,显著降低每个 token 的成本。
- KV 感知路由:Dynamo 摒弃了简单的轮询负载均衡,而是将请求路由到已在对话历史中缓存了相关“记忆”的特定 GPU 上。
- 分离式服务:Dynamo 将“预填充”(读取提示词)和“解码”(生成答案)两个阶段拆分到不同的 GPU 上执行,从而最大化利用率并降低延迟。
- 内存卸载:KV 块管理器(KVBM)在高速 GPU 内存与低成本的存储层之间动态迁移数据,使您能够处理超长上下文窗口而无需担心内存上限。
DigitalOcean 如何使用 Dynamo 优化推理工作负载以提升吞吐量和降低延迟
使用 DigitalOcean 上的 NVIDIA Dynamo,客户既能享受出色的性价比,又能获得简单的部署流程以及与 Dynamo 架构高度契合的运行环境,尤其是在需要严格管控 GPU 集群、进行 KV 缓存优化和路由的场景下。DigitalOcean 已通过 NVIDIA Dynamo 为客户带来了实实在在的成效。近期,我们与 Workato 的 AI 研究实验室合作,在其平台上扩展了代理型 AI 能力,该平台处理着超过 1 万亿次自动化工作负载。为满足生产级推理对效率与成本的严苛要求,该团队在 DigitalOcean 托管 Kubernetes (DOKS) 上部署了 NVIDIA Dynamo 与 vLLM。
在 DOKS 上使用 NVIDIA Dynamo v0.4.1 与 vLLM,Workato 实现了:
- **每 GPU 吞吐量提升 67%**,端到端延迟降低 79%,首 token 响应时间降低 77%(相较于在相同硬件上的其他配置)
- **硬件成本降低 33%**:在实现同等性能的前提下,使用 NVIDIA H200 GPU 相比 NVIDIA A100 GPU 成本更低
- **模型成本降低 67%**,同时所用 GPU 数量减半
欢迎查阅卓普云官网的技术博客,了解更多 Workato 如何在 DigitalOcean 上取得如此显著成效的细节。
借助 Dynamo 1.0 的强大能力以及全新推出的 NVIDIA HGX B300s,我们期待为像 Workato 这样的客户带来更进一步的性能提升与成本优化。
NVIDIA 和 DigitalOcean 推理优化的未来
除了 Dynamo 1.0,作为今年 NVIDIA GTC 的一部分,我们激动地分享其他产品发布和更新,以进一步增强 DigitalOcean 智能推理云的能力。包括我们全新的 AI 优先 Richmond 数据中心,无缝体验 NVIDIA Agent Toolkit 和 NemoClaw 并部署到 DigitalOcean,支持 NVIDIA Nemotron 3 Super 等高性能模型,以及更多内容。了解更多关于 DigitalOcean 和 NVIDIA GTC 的详细信息,可访问卓普云 AI Droplet 官网博客。
目前 NVIDIA B300 GPU 云服务器已经开放预约申请,现在联系卓普云 AI Droplet 可提前锁定 B300 GPU 云服务器资源。
更多推荐

所有评论(0)