深度学习推理框架对比表

未完待续…

Rem

1865人浏览 · 2025-03-05 14:51:49

Rem · 2025-03-05 14:51:49 发布

序号	推理框架名称	开发单位	主要应用场景	硬件支持	性能表现	易用性	量化支持	跨平台能力	移动端优化	视频流优化	模型支持
1	TVM	社区开源项目	跨平台（CPU/GPU/ARM）	CPU/GPU/ARM	中等（需手动调优）	需手动调优	支持 FP16/INT8	强（多种硬件架构）	支持	不支持	多框架（ONNX/TensorFlow/PyTorch）
2	TensorRT	NVIDIA	NVIDIA GPU	NVIDIA GPU	最快（GPU 优化）	开箱即用	支持 FP16/INT8	仅限 NVIDIA GPU	不支持	不支持	多框架（ONNX/TensorFlow/PyTorch）
3	ONNXRuntime	微软	跨平台（云、边缘、移动设备）	CPU/GPU/TPU/FPGA/边缘设备	高（多种硬件加速）	开箱即用，易于集成	支持 FP16/INT8	强（Windows、Linux、macOS、Android）	支持	不支持	多框架（ONNX、TensorFlow、PyTorch、Keras 等）
4	OpenVINO	Intel	Intel CPU/GPU	Intel CPU/GPU	快（CPU/GPU 优化）	开箱即用	支持 FP16/INT8	仅限 Intel 硬件	不支持	不支持	多框架（ONNX/TensorFlow/PyTorch）
5	NCNN	腾讯	移动端/嵌入式	ARM CPU/GPU	中等（移动端优化）	开箱即用	支持 FP16/INT8	跨平台（ARM/CPU/GPU）	最优（轻量级设计）	不支持	多框架（ONNX/Caffe/TensorFlow）
6	MNN	阿里巴巴	移动端	ARM CPU/GPU	中等	开箱即用	支持 INT8	跨平台	优化良好	不支持	多框架
7	MediaPipe	Google	移动端、嵌入式	多平台（支持 TPU）	中等	开箱即用	支持 TF Lite 量化	跨平台	支持	支持	主要支持 TensorFlow
8	ONNX Runtime	微软、亚马逊、Facebook 等	多平台（CPU/GPU）	CPU/GPU	中等	开箱即用	支持 FP16/INT8	多平台	支持	不支持	支持多种框架
9	DeepStream	NVIDIA	视频流处理	NVIDIA GPU	快（视频流优化）	开箱即用	支持 INT8	仅限 NVIDIA GPU	不支持	最优	支持多种框架
10	Paddle Inference	百度	跨平台（CPU/GPU）	CPU/GPU	中等	开箱即用	支持 FP16/INT8	跨平台	支持	不支持	支持多种框架
11	TNN	腾讯	移动端	ARM CPU/GPU	中等	开箱即用	支持 INT8	跨平台	优化良好	不支持	多框架
12	LibTorch	Facebook/Meta	跨平台	CPU/GPU	中等	开箱即用	不支持	跨平台	不支持	不支持	多框架
13	Paddle Lite	百度	移动端	ARM CPU/GPU	中等	开箱即用	支持 INT8	跨平台	优化良好	不支持	多框架
14	MegEngine Lite	旷视	移动端	ARM CPU/GPU	中等	开箱即用	支持 INT8	跨平台	优化良好	不支持	多框架
15	OpenPPL	商汤	跨平台	CPU/GPU	中等	开箱即用	支持 FP16	跨平台	不支持	不支持	多框架
16	Bolt	华为	移动端	CPU/GPU	中等	开箱即用	支持 FP16	跨平台	不支持	不支持	多框架
17	ExecuTorch	Facebook/Meta	跨平台	CPU/GPU	中等	开箱即用	不支持	跨平台	不支持	不支持	多框架
18	DeepSpeed	微软	高性能推理	CPU/GPU	高吞吐量	开箱即用	英特尔 INT8	跨平台	不支持	不支持	多框架
19	Llama.cpp	Meta	苹果设备优化	苹果设备	高性能	开箱即用	苹果设备优化	跨平台	不支持	不支持	苹果设备优化
20	FastDeploy	PaddlePaddle	轻量级推理	轻量级硬件	中等	开箱即用	轻量级量化	跨平台	优化良好	不支持	轻量级优化
21	DeepSparse	Intel	高性能推理	CPU/GPU	中等	开箱即用	英特尔 INT8	跨平台	不支持	不支持	高性能推理
22	ORT-Nightly	微软	夜间版本	CPU/GPU	中等	开箱即用	夜间版本优化	跨平台	不支持	不支持	夜间版本优化
23	Triton	NVIDIA	高性能推理	NVIDIA GPU	高性能	开箱即用	高性能优化	跨平台	不支持	不支持	高性能优化
24	OpenVINO-Quantized	Intel	量化优化	Intel 硬件	中等	开箱即用	量化优化	仅限 Intel 硬件	不支持	不支持	量化优化
25	TVM-Quantized	社区开源项目	量化优化	CPU/GPU/ARM	中等	开箱即用	量化优化	跨平台	不支持	不支持	量化优化
26	WebLLM	社区开源项目	浏览器端推理	WebGPU	高性能	开箱即用	无服务器架构	跨平台	不支持	不支持	支持多种模型
27	VLLM	社区开源项目	高并发推理	NVIDIA GPU	高性能	开箱即用	支持多种量化	仅限 Linux	不支持	不支持	支持 Hugging Face 模型
28	Ollama	社区开源项目	轻量级推理	CPU/GPU	高效推理	简单易用	支持多种量化	跨平台	不支持	不支持	支持多种模型
29	SGLang	社区开源项目	企业级推理	NVIDIA GPU	高性能	需技术基础	支持多种量化	Linux	不支持	不支持	支持多种模型
30	TensorFlow Lite	Google	移动端推理	CPU/GPU	中等	开箱即用	支持量化	跨平台	优化良好	不支持	支持 TensorFlow 模型
31	KTransformers	清华大学	优化大语言模型推理	CPU/GPU	高性能	开箱即用	支持多种量化	跨平台	不支持	不支持	支持多种模型
32	MACE	小米	移动端	ARM CPU/GPU	中等	开箱即用	支持 INT8	跨平台	优化良好	不支持	多框架