序号 推理框架名称 开发单位 主要应用场景 硬件支持 性能表现 易用性 量化支持 跨平台能力 移动端优化 视频流优化 模型支持
1 TVM 社区开源项目 跨平台(CPU/GPU/ARM) CPU/GPU/ARM 中等(需手动调优) 需手动调优 支持 FP16/INT8 强(多种硬件架构) 支持 不支持 多框架(ONNX/TensorFlow/PyTorch)
2 TensorRT NVIDIA NVIDIA GPU NVIDIA GPU 最快(GPU 优化) 开箱即用 支持 FP16/INT8 仅限 NVIDIA GPU 不支持 不支持 多框架(ONNX/TensorFlow/PyTorch)
3 ONNXRuntime 微软 跨平台(云、边缘、移动设备) CPU/GPU/TPU/FPGA/边缘设备 高(多种硬件加速) 开箱即用,易于集成 支持 FP16/INT8 强(Windows、Linux、macOS、Android) 支持 不支持 多框架(ONNX、TensorFlow、PyTorch、Keras 等)
4 OpenVINO Intel Intel CPU/GPU Intel CPU/GPU 快(CPU/GPU 优化) 开箱即用 支持 FP16/INT8 仅限 Intel 硬件 不支持 不支持 多框架(ONNX/TensorFlow/PyTorch)
5 NCNN 腾讯 移动端/嵌入式 ARM CPU/GPU 中等(移动端优化) 开箱即用 支持 FP16/INT8 跨平台(ARM/CPU/GPU) 最优(轻量级设计) 不支持 多框架(ONNX/Caffe/TensorFlow)
6 MNN 阿里巴巴 移动端 ARM CPU/GPU 中等 开箱即用 支持 INT8 跨平台 优化良好 不支持 多框架
7 MediaPipe Google 移动端、嵌入式 多平台(支持 TPU) 中等 开箱即用 支持 TF Lite 量化 跨平台 支持 支持 主要支持 TensorFlow
8 ONNX Runtime 微软、亚马逊、Facebook 等 多平台(CPU/GPU) CPU/GPU 中等 开箱即用 支持 FP16/INT8 多平台 支持 不支持 支持多种框架
9 DeepStream NVIDIA 视频流处理 NVIDIA GPU 快(视频流优化) 开箱即用 支持 INT8 仅限 NVIDIA GPU 不支持 最优 支持多种框架
10 Paddle Inference 百度 跨平台(CPU/GPU) CPU/GPU 中等 开箱即用 支持 FP16/INT8 跨平台 支持 不支持 支持多种框架
11 TNN 腾讯 移动端 ARM CPU/GPU 中等 开箱即用 支持 INT8 跨平台 优化良好 不支持 多框架
12 LibTorch Facebook/Meta 跨平台 CPU/GPU 中等 开箱即用 不支持 跨平台 不支持 不支持 多框架
13 Paddle Lite 百度 移动端 ARM CPU/GPU 中等 开箱即用 支持 INT8 跨平台 优化良好 不支持 多框架
14 MegEngine Lite 旷视 移动端 ARM CPU/GPU 中等 开箱即用 支持 INT8 跨平台 优化良好 不支持 多框架
15 OpenPPL 商汤 跨平台 CPU/GPU 中等 开箱即用 支持 FP16 跨平台 不支持 不支持 多框架
16 Bolt 华为 移动端 CPU/GPU 中等 开箱即用 支持 FP16 跨平台 不支持 不支持 多框架
17 ExecuTorch Facebook/Meta 跨平台 CPU/GPU 中等 开箱即用 不支持 跨平台 不支持 不支持 多框架
18 DeepSpeed 微软 高性能推理 CPU/GPU 高吞吐量 开箱即用 英特尔 INT8 跨平台 不支持 不支持 多框架
19 Llama.cpp Meta 苹果设备优化 苹果设备 高性能 开箱即用 苹果设备优化 跨平台 不支持 不支持 苹果设备优化
20 FastDeploy PaddlePaddle 轻量级推理 轻量级硬件 中等 开箱即用 轻量级量化 跨平台 优化良好 不支持 轻量级优化
21 DeepSparse Intel 高性能推理 CPU/GPU 中等 开箱即用 英特尔 INT8 跨平台 不支持 不支持 高性能推理
22 ORT-Nightly 微软 夜间版本 CPU/GPU 中等 开箱即用 夜间版本优化 跨平台 不支持 不支持 夜间版本优化
23 Triton NVIDIA 高性能推理 NVIDIA GPU 高性能 开箱即用 高性能优化 跨平台 不支持 不支持 高性能优化
24 OpenVINO-Quantized Intel 量化优化 Intel 硬件 中等 开箱即用 量化优化 仅限 Intel 硬件 不支持 不支持 量化优化
25 TVM-Quantized 社区开源项目 量化优化 CPU/GPU/ARM 中等 开箱即用 量化优化 跨平台 不支持 不支持 量化优化
26 WebLLM 社区开源项目 浏览器端推理 WebGPU 高性能 开箱即用 无服务器架构 跨平台 不支持 不支持 支持多种模型
27 VLLM 社区开源项目 高并发推理 NVIDIA GPU 高性能 开箱即用 支持多种量化 仅限 Linux 不支持 不支持 支持 Hugging Face 模型
28 Ollama 社区开源项目 轻量级推理 CPU/GPU 高效推理 简单易用 支持多种量化 跨平台 不支持 不支持 支持多种模型
29 SGLang 社区开源项目 企业级推理 NVIDIA GPU 高性能 需技术基础 支持多种量化 Linux 不支持 不支持 支持多种模型
30 TensorFlow Lite Google 移动端推理 CPU/GPU 中等 开箱即用 支持量化 跨平台 优化良好 不支持 支持 TensorFlow 模型
31 KTransformers 清华大学 优化大语言模型推理 CPU/GPU 高性能 开箱即用 支持多种量化 跨平台 不支持 不支持 支持多种模型
32 MACE 小米 移动端 ARM CPU/GPU 中等 开箱即用 支持 INT8 跨平台 优化良好 不支持 多框架

未完待续…

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐