阿里云国际站GPU：什么是推理引擎DeepGPU-LLM？

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）的推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。DeepGPU-LLM作为阿里云开发的一套推理引擎，具有易用性和广泛适用性，旨在优化大语言模型在GPU云服务器上的推理过程，通过优化和并行计算等技术手段，为您提供免费的高性能、低延迟推理服务。：Qwe

TG：@yunlaoda360 云老大

177人浏览 · 2025-10-24 09:43:19

TG：@yunlaoda360 云老大 · 2025-10-24 09:43:19 发布

TG：@yunlaoda360

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）的推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。

产品简介

DeepGPU-LLM作为阿里云开发的一套推理引擎，具有易用性和广泛适用性，旨在优化大语言模型在GPU云服务器上的推理过程，通过优化和并行计算等技术手段，为您提供免费的高性能、低延迟推理服务。

DeepGPU-LLM的关联布局图如下所示：

主流模型：Qwen等四种比较主流的大语言模型，作为DeepGPU-LLM优化和加速的对象。
开源平台：开源模型平台（Modelscope和Huggingface）提供了大量的预训练模型，该平台提供了模型的存储、管理和分发功能，方便您获取和使用上述主流大语言模型。
模型架构：DeepGPU-LLM利用Tensor Parallel技术优化大语言模型在GPU云服务器上的推理过程，提供了高性能、低延迟的推理服务。
底层硬件：GPU实例安装驱动和CUDA等基础环境后，作为DeepGPU-LLM运行的基础硬件，提供了强大的计算资源，支持大语言模型的高效推理。

功能介绍

DeepGPU-LLM的主要功能包括：

支持多GPU并行（Tensor Parallel）

将大模型分割到多个GPU上进行并行计算，从而提高计算效率。
支持多种主流模型

支持通义千问Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型，满足不同场景下的模型推理。
支持fp8/fp16以及int8/int4低精度推理

目前支持权重量化、KV-Cache量化、GPTQ量化和AWQ量化四种不同量化模式，实现模型的低精度推理，在保证模型性能的同时降低计算资源的消耗。
支持多卡之间通信优化

用以提高多GPU并行计算的效率和速度。
支持offline模式和serving模式输出

offline模式支持流式输出和普通输出；serving模式提供3类API接口（例如generate_cb、generate_cb_async、generate_cb_async_id调用函数）适配不同场景。