大模型推理部署指南：10+主流框架/引擎对比与实战应用！

本文介绍了大模型推理引擎与框架的区别，以及10+主流大模型推理工具/引擎/框架，包括LM Studio、llama.cpp、Ollama、vLLM、SGLang等。根据用户类型和使用场景将工具分为三类：普通用户、个人开发者和企业用户，详细分析了各类工具的特点、技术优势及适用场景，帮助读者根据自身需求选择合适的推理框架，实现大模型的高效部署与应用。

程序员王饱饱

233人浏览 · 2025-11-04 11:19:52

程序员王饱饱 · 2025-11-04 11:19:52 发布

大模型经过漫长的训练，最终需要推理评估，走向实际应用。就像人一样，经过多年的学习，最终需要通过面试，走向社会工作。

严格意义上，推理引擎和推理框架是不同的，推理引擎是实际执行大模型计算的代码库，提供了推理加速的功能，如PagedAttention、Continuous Batching等。推理框架集成了推理引擎，提供了更加完善的功能，背后实际提供计算的还是推理引擎。但目前业界似乎划分的没有那么明确。

大模型推理部署是大模型走向应用的关键一环，极致优化的推理框架能够缩短延迟、降低成本。

大模型推理技术发展的比较快，目前已有许多开源的大模型推理框架，很多大模型推理框架在2023年出现。

今天给大家介绍一些目前比较主流的大模型推理工具/引擎/框架。

LMStudio、llama.cpp、Ollama、vLLM、SGLang、LMDeploy、Hugging Face TGI、TensorRT-LLM、MLC-LLM、Xinference是比较有代表性的几个。

LM Studio、Ollama属于开箱即用的工具。

llama.cpp、vLLM、SGLang、LMDeploy、Hugging Face TGI、TensorRT-LLM、MLC-LLM、Xinference是推理引擎或者框架。

可以根据应用场景和使用难易程度简单的分为三类：

不会编程的普通用户：LM Studio、Ollama

个人开发者：llama.cpp、Ollama

企业用户：vLLM、SGLang、LMDeploy、TensorRT-LLM、MLC-LLM、Hugging Face TGI、Xinference。

其中使用起来最简单的是LMStudio，提供了图像化界面，即使不会编程也可以轻松使用。

Ollama使用也比较简单，对于普通用户提供了命令行，对于开发者，提供了API。

对于需要部署到生产环境中的企业用户，vLLM、SGLang、LMDeploy、TensorRT-LLM、MLC-LLM、Hugging Face TGI、Xinference这些框架提供了更灵活、可分布式部署的服务。

01 |

LM Studio

LM Studio是本地部署大模型的工具，提供了可视化的图形界面，适合没有编程经验的人使用，极大降低了大模型在本地部署的门槛，支持Windows、macOS、Linux系统。LM Studio是一个桌面应用程序，下载安装包安装后即可使用。

官方文档：

https://lmstudio.ai/docs/

02 |

llama.cpp

llama.cpp从其名字就能看出，它是一个使用C/C++进行开发的大模型推理引擎，最初是为了实现LLaMA系列模型的本地高效推理，现在也支持其他的大模型。针对CPU进行了优化，支持低性能硬件，如在笔记本电脑和手机上部署大模型。

核心特点：

通过 ARM NEON、Accelerate 和 Metal 框架进行了优化
支持x86架构AVX、AVX2、AVX512 和 AMX
支持1.5位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，以实现更快的推理和减少内存使用
支持英伟达、AMD、摩尔线程GPU
支持 Vulkan 和 SYCL 后端
CPU 与 GPU 混合推理，以部分加速大于总显存容量的模型

开源时间：[2023.03]

最新版本：[b6838]

github star：[88.3k]

目前有1302位贡献者。

主要使用C/C++开发，所以推理速度很快。

github地址：

https://github.com/ggml-org/llama.cpp

03 |

Ollama

Ollama是构建在llama.cpp上的大模型本地部署工具。支持maxOS/Windows/Linux系统。它支持通过下载软件安装包，以可视化的方式安装，使用起来比较简单，可以把它看作一个软件，安装后通过命令行的方式使用。也支持Docker、python包的方式安装。

开源时间：[2023.06]

最新版本：[v0.12.6]

github star：[155k]

目前有538位贡献者。

主要开发语言为Go。

github地址：

https://github.com/ollama/ollama

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

04 |

vLLM

vLLM 是一个开源的大模型推理引擎，快速且易于使用。vLLM起源于论文（《Efficient Memory Management for Large Language Model Serving with PagedAttention》），论文中提出了PagedAttention。vLLM 最初由加州大学伯克利分校的Sky Computing Lab开发，如今已发展为一个由开源社区驱动的项目，吸引了来自学术界和工业界的贡献。

核心特点：

PagedAttention
Continuous Batching
通过CUDA/HIP graph实现快速模型执行
GPTQ, AWQ, AutoRound, INT4, INT8, and FP8量化
优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成
Speculative decoding
Chunked prefill

开源时间：[2023.06]

最新版本：[v0.11.0]

github star：[60.9k]

贡献者非常多，已经有1728位贡献者。

主要开发语言为python。

github地址：

https://github.com/vllm-project/vllm

05 |

SGLang

SGLang最初是由斯坦福大学和加州大学伯克利分校的团队开源的，是一个高性能的大语言模型和视觉语言模型推理引擎。它旨在在各种环境中提供低延迟和高吞吐量的推理，从单个 GPU 到大型分布式集群。SGLang起源于论文《SGLang: Efficient Execution of Structured Language Model Programs》），论文中提出了RadixAttention，带来了5倍推理速度提升。

SGLang提出的零开销CPU调度（zero-overhead CPU scheduler）降低了CPU的调度开销。

核心特点：

RadixAttention
zero-overhead CPU scheduler
PD分离
speculative decoding
continuous batching
paged attention
tensor/pipeline/expert/data并行
结构化输出
chunked prefill
FP4/FP8/INT4/AWQ/GPTQ量化
multi-LoRA batching

开源时间：[2024.01]

最新版本：[v0.5.3]

github star：[19.4k]

目前有797位贡献者。

主要开发语言为python，还使用了13.2%的Rust。

github地址：

https://github.com/sgl-project/sglang

06 |

TensorRT-LLM

TensorRT LLM 是由英伟达开源的推理引擎，专门为英伟达GPU设计开发的，用于优化大语言模型（LLM）的推理。它提供了最先进的优化，包括自定义注意力内核、inflight batching、paged KV caching、量化（FP8、FP4、INT4 AWQ、INT8 SmoothQuant 等）、speculative decoding等功能，以高效地在 NVIDIA GPU 上执行推理。

核心特点：

自定义注意力内核（custom attention kernel）
inflight batching
paged KV caching
支持FP8，FP4，INT4 AWQ，INT8 SmoothQuant等量化
speculative decoding

开源时间：[2023.09]

最新版本：[v1.0.0]

github star：[12k]

目前有349位贡献者。

主要开发语言为C++/python。

github地址：

https://github.com/NVIDIA/TensorRT-LLM

07 |

LMDeploy

LMDeploy由上海人工智能实验室开源的大模型推理引擎，支持国产芯片。LMDeploy 通过引入关键功能，如continuous batching、blocked KV cache, dynamic split&fuse、张量并行等技术，实现了高吞吐。

LMDeploy中开发了两个推理引擎：TurboMind和PyTorch。这两个推理引擎的侧重点不同，前者具有极致优化的推理性能，而后者使用Python开发，旨在降低开发者的使用门槛。

核心特点：

continuous batching
blocked KV cache
dynamic split&fuse
张量并行
高性能的CUDA内核
支持AWQ/GPTQ、SmoothQuant、KV Cache INT4/INT8量化

开源时间：[2023.06]

最新版本：[v0.10.1]

github star：[7.2k]

目前有136位贡献者。

主要开发语言为python，还使用了21.9%的C++和14.2%的Cuda。

github地址：

https://github.com/InternLM/lmdeploy

08 |

Hugging Face TGI

TGI（Text Generation Inference ）是Hugging Face开源的大模型推理引擎。

核心特点：

支持生产环境（Open Telemetry, Prometheus metrics）
张量并行
使用SSE实现token流式传输
Continuous batching
FlashAttention
PagedAttention
bitsandbytes、GPTQ、EETQ、AWQ、Marlin、FP8
Safetensors 权重加载
大模型水印
speculative decoding
支持指定输出格式
支持英伟达GPU、AMD GPU、Intel GPU，还支持亚马逊AI芯片Inferentia、Intel AI芯片Gaudi、谷歌TPU
支持微调

开源时间：[2022.10]

最新版本：[v3.3.6]

github star：[10.6k]

目前有165位贡献者。

主要开发语言为python，还使用了16.2%的Rust。

github地址：

https://github.com/huggingface/text-generation-inference

09 |

MLC-LLM

开源时间：[2023.04]

最新版本：[v0.19.0]

github star：[21.5k]

MLC-LLM是AI大神陈天奇开源的，是一个面向大语言模型的机器学习编译器和高性能部署引擎。该项目的使命是使每个人都能在自己的平台上本地开发、优化和部署 AI 模型。

MLC-LLM工作流

MLC-LLM支持多种GPU和操作系统：

目前有148位贡献者。

主要开发语言为python，还使用了25.5%的C++。

github地址：

https://github.com/mlc-ai/mlc-llm

10 |

Xinference

开源时间：[2023.07]

最新版本：[v1.11.0.post1]

github star：[8.7k]

Xorbits Inference（Xinference）是一个功能强大的分布式推理框架，支持语言、语音识别和多模态模型。

Xinference支持不同的推理引擎，用户选择模型后，Xinference 会自动选择合适的引擎。

可以通过多种方式使用Xinference：Web UI、命令行、python等。

核心特点：

多引擎架构设计，支持多种推理引擎，如vLLM、SGLang、llama.cpp等
推理时根据模型以及硬件资源自动选择最优的推理引擎

目前有148位贡献者。

主要开发语言为python，还使用了10.9%的JavaScript。

github地址：

https://github.com/xorbitsai/inference

总结

各个大模型推理框架也在不断的更新，一些新的推理技术会逐渐支持，只是开发的快慢而已，就看谁的开源生态更繁荣了。

目前很多大模型框架已支持PagedAttention、Continuous Batching、Speculative Decoding、Chunked Prefill等特性。

LM Sdudio不需要任何编程经验就可以使用，非常适合没有编程经验的人在本地快速部署大模型。

Ollama使用起来也非常简单，不懂编程也没关系，只需要了解命令行的使用就行，适合不会编程的人、个人开发者和研究者在本地部署大模型。

TensorRT-LLM适合在英伟达GPU上部署大模型的开发者和企业，本地部署和生产环境部署都可以。

LMDeploy适合需要在国产芯片部署大模型的开发者和企业，本地部署和生产环境部署都可以。

另外，vLLM和SGLang是目前使用较多的大模型推理框架，并且在github上有较多的开发者参与项目的更新，新特性支持更快。本地部署和生产环境部署都可以。

Xinference适合企业进行生产环境的分布式部署。

llama.cpp 针对 CPU 进行了深度优化，适合个人开发者在资源有限的设备（例如树莓派、笔记本电脑、手机等）上部署大模型。

MLC-LLM的适用场景与llama.cpp类似，也适合在各种设备上本地部署大模型。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

一文搞懂大模型核心：Transformer架构全解析！

2048 AI社区

智能宠物玩具：AI Agent的宠物情绪识别

随着人们生活水平的提高，越来越多的人开始养宠物，宠物已经成为许多家庭的重要成员。然而，宠物无法用人类的语言表达自己的需求和情绪，这给宠物主人了解宠物的状态带来了一定的困难。智能宠物玩具结合AI Agent的宠物情绪识别技术应运而生，其目的是通过先进的技术手段准确识别宠物的情绪，为宠物提供更加个性化的互动体验，同时帮助宠物主人更好地照顾宠物。

2048 AI社区

都市办公族青睐的平板标准？联想YOGA质感取胜

很多都市办公族需要带着设备跑——咖啡厅改方案、机场赶报告、户外开短会，既希望设备轻便好带，又要颜值高、用着顺手。联想YOGA Pad Pro 14.5 AI元启版就是瞄准这些需求做的，不用复杂参数堆砌，核心就是解决“移动办公不方便”“设备颜值跟不上”“用着不舒服”这三个问题，很适合追求效率和审美，常在外办公的人。