【AI×实时Linux：极速实战宝典】极致加速 - TensorRT C++ API集成实战：从ONNX解析到推理引擎构建

在当今人工智能飞速发展的时代，深度学习模型的推理性能成为了众多开发者关注的焦点。NVIDIA TensorRT 是一款高性能的深度学习推理（Inference）优化器和运行时库，能够显著提升模型的推理速度，降低延迟，同时保持较高的吞吐量。在实际应用中，例如自动驾驶、智能安防、实时语音识别等领域，对模型推理的实时性要求极高。掌握 TensorRT C++ API 的集成技能，对于开发者来说，不仅可以

望获linux

917人浏览 · 2025-12-30 13:48:51

望获linux · 2025-12-30 13:48:51 发布

简介

核心概念

TensorRT 简介

TensorRT 是 NVIDIA 推出的深度学习推理优化器，它能够对训练好的深度学习模型进行优化，生成高效的推理引擎。通过量化、层融合等技术，TensorRT 可以显著减少模型的计算量和内存占用，从而提高推理速度。

ONNX 格式

ONNX（Open Neural Network Exchange）是一种开放的神经网络交换格式，它允许模型在不同的深度学习框架之间进行转换和共享。通过将模型导出为 ONNX 格式，开发者可以方便地将其导入到 TensorRT 中进行优化。

推理引擎

推理引擎是 TensorRT 优化后的模型表示形式，它包含了模型的结构和参数，并且经过了专门的优化，以实现高效的推理计算。开发者可以通过 TensorRT 的 C++ API 构建和使用推理引擎。

环境准备

硬件环境

NVIDIA GPU（支持 CUDA 的 GPU，如 NVIDIA RTX 系列、Tesla 系列等）
主机（支持 CUDA 的操作系统，如 Linux）

软件环境

操作系统：Ubuntu 20.04
CUDA Toolkit：11.4（与 TensorRT 兼容的版本）
cuDNN：8.2.1（与 CUDA Toolkit 兼容的版本）
TensorRT：8.2.1（与 CUDA 和 cuDNN 兼容的版本）
C++ 编译器：g++（版本 9 或更高）

环境安装与配置

安装 CUDA Toolkit

首先，需要安装 CUDA Toolkit。可以通过 NVIDIA 官方网站下载安装包，或者使用以下命令进行安装：

sudo apt-get update
sudo apt-get install cuda-11-4

安装完成后，将 CUDA 的路径添加到环境变量中：

export PATH=/usr/local/cuda-11.4/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.4/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

安装 cuDNN

下载 cuDNN 安装包，并解压到 CUDA 的目录下：

tar -xzvf cudnn-11.4-linux-x64-v8.2.1.32.tgz
sudo cp cuda/include/cudnn*.h /usr/local/cuda-11.4/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-11.4/lib64
sudo chmod a+r /usr/local/cuda-11.4/include/cudnn*.h /usr/local/cuda-11.4/lib64/libcudnn*

安装 TensorRT

下载 TensorRT 安装包，并解压：

tar -xzvf TensorRT-8.2.1.32.Linux.x86_64-gnu.cuda-11.4.cudnn8.2.tar.gz
sudo cp TensorRT-8.2.1.32/include/* /usr/local/cuda-11.4/include
sudo cp TensorRT-8.2.1.32/lib/* /usr/local/cuda-11.4/lib64

安装 C++ 编译器

确保系统中安装了 g++ 编译器：

sudo apt-get install g++-9
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-9 90 --slave /usr/bin/gcc gcc /usr/bin/gcc-9

应用场景

在智能安防领域，实时监控系统需要对视频流进行实时分析，以检测异常行为或识别特定目标。使用 TensorRT C++ API 构建的推理引擎可以将深度学习模型部署到边缘设备上，实现低延迟的推理计算，从而及时响应安全威胁。例如，一个基于 YOLOv5 的目标检测模型，通过 TensorRT 优化后，可以在 NVIDIA Jetson Nano 设备上以每秒 30 帧的速度进行推理，满足实时监控的需求。

实际案例与步骤

1. 创建项目目录

首先，创建一个项目目录，用于存放代码和模型文件：

mkdir TensorRT_Demo
cd TensorRT_Demo

2. 准备模型文件

将训练好的模型导出为 ONNX 格式，并将其放置在项目目录下。例如，假设我们有一个名为 model.onnx 的模型文件。

3. 编写代码

创建一个名为 main.cpp 的文件，并编写以下代码：

#include <iostream>
#include <fstream>
#include <vector>
#include <cuda_runtime_api.h>
#include "NvInfer.h"

using namespace nvinfer1;

// 读取 ONNX 模型文件
std::vector<char> read_file(const std::string& filename) {
    std::ifstream file(filename, std::ios::binary);
    if (!file) {
        std::cerr << "无法打开文件：" << filename << std::endl;
        exit(EXIT_FAILURE);
    }
    return std::vector<char>((std::istreambuf_iterator<char>(file)), std::istreambuf_iterator<char>());
}

// 构建推理引擎
ICudaEngine* build_engine(const std::string& onnx_file, ILogger& logger) {
    // 创建推理运行时
    IRuntime* runtime = createInferRuntime(logger);
    if (!runtime) {
        std::cerr << "创建推理运行时失败" << std::endl;
        return nullptr;
    }

    // 读取 ONNX 模型文件
    std::vector<char> model_data = read_file(onnx_file);

    // 创建序列化器
    IHostMemory* model_memory = runtime->deserializeCudaEngine(model_data.data(), model_data.size(), nullptr);
    if (!model_memory) {
        std::cerr << "反序列化模型失败" << std::endl;
        return nullptr;
    }

    // 创建推理引擎
    ICudaEngine* engine = runtime->deserializeCudaEngine(model_memory->data(), model_memory->size(), nullptr);
    if (!engine) {
        std::cerr << "创建推理引擎失败" << std::endl;
        return nullptr;
    }

    // 释放资源
    model_memory->destroy();
    runtime->destroy();

    return engine;
}

// 主函数
int main() {
    // 创建日志记录器
    ILogger logger;

    // 构建推理引擎
    ICudaEngine* engine = build_engine("model.onnx", logger);
    if (!engine) {
        std::cerr << "构建推理引擎失败" << std::endl;
        return EXIT_FAILURE;
    }

    // 创建执行上下文
    IExecutionContext* context = engine->createExecutionContext();
    if (!context) {
        std::cerr << "创建执行上下文失败" << std::endl;
        return EXIT_FAILURE;
    }

    // 分配输入和输出缓冲区
    int input_index = engine->getBindingIndex("input");
    int output_index = engine->getBindingIndex("output");

    void* buffers[2];
    cudaMalloc(&buffers[input_index], 1 * 3 * 224 * 224 * sizeof(float));
    cudaMalloc(&buffers[output_index], 1000 * sizeof(float));

    // 执行推理
    float input_data[1 * 3 * 224 * 224] = {0}; // 假设输入数据
    cudaMemcpy(buffers[input_index], input_data, 1 * 3 * 224 * 224 * sizeof(float), cudaMemcpyHostToDevice);

    context->executeV2(buffers);

    float output_data[1000];
    cudaMemcpy(output_data, buffers[output_index], 1000 * sizeof(float), cudaMemcpyDeviceToHost);

    // 打印输出结果
    for (int i = 0; i < 10; ++i) {
        std::cout << "Output[" << i << "]: " << output_data[i] << std::endl;
    }

    // 释放资源
    cudaFree(buffers[input_index]);
    cudaFree(buffers[output_index]);
    context->destroy();
    engine->destroy();

    return EXIT_SUCCESS;
}

4. 编译代码

使用以下命令编译代码：

g++ -o tensorrt_demo main.cpp -I/usr/local/cuda-11.4/include -L/usr/local/cuda-11.4/lib64 -lnvinfer -lcudart -lcublas -lcudnn

5. 运行程序

运行编译后的程序：

./tensorrt_demo

如果一切正常，程序将输出推理结果。

常见问题与解答

1. 如何解决 CUDA 内存不足的问题？

如果在运行程序时遇到 CUDA 内存不足的错误，可以尝试以下方法：

减少输入数据的批量大小。
使用混合精度推理（FP16）来减少内存占用。

2. 如何优化推理速度？

可以通过以下方法优化推理速度：

使用 TensorRT 的层融合功能，减少计算量。
使用 GPU 的并行计算能力，同时处理多个输入数据。
使用 TensorRT 的 INT8 量化功能，进一步提高推理速度。

3. 如何调试 TensorRT 程序？

可以使用 NVIDIA 的 nvprof 工具来分析程序的性能瓶颈：

nvprof ./tensorrt_demo

通过分析 nvprof 的输出，可以找到需要优化的部分。

实践建议与最佳实践

1. 使用混合精度推理

混合精度推理可以显著提高推理速度，同时减少内存占用。在 TensorRT 中，可以通过设置 setPrecisionMode 方法来启用混合精度推理。

2. 使用 INT8 量化

INT8 量化可以进一步提高推理速度，但可能会略微降低模型的精度。在使用 INT8 量化时，需要确保模型对精度损失的容忍度较高。

3. 性能优化技巧

在构建推理引擎时，使用 setMinFindIterations 和 setMinTimingIterations 方法来调整优化过程的迭代次数。
使用 setProfileStream 方法来指定推理引擎的执行流，以提高性能。

总结与应用场景

通过本实战教程，我们学习了如何使用 NVIDIA TensorRT C++ API 构建推理引擎，从 ONNX 模型的解析到推理引擎的构建和使用。TensorRT 的强大功能使得深度学习模型的推理速度得到了显著提升，适用于各种对实时性要求较高的应用场景，如自动驾驶、智能安防、实时语音识别等。希望读者能够将所学知识应用到实际项目中，充分发挥 TensorRT 的优势，实现高效的推理计算。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Llama-2 与 Llama-3：模型之间的井字棋对决

原文：towardsdatascience.com/llama-2-vs-llama-3-a-tic-tac-toe-battle-between-models-7301962ca65d在撰写这个故事的大约一周前，Meta 发布了新的开源 Llama-3 模型 ai.meta.com/blog/meta-llama-3/。Meta 声称，这些是“今天在 8B 和 70B 参数尺度上存在的最佳模型。

2048 AI社区

基于 Tornado + Scikit-learn 的实时在线预测引擎

相比于传统的推理方案，这种架构能够支撑更高的 QPS，尤其适合广告推荐或反欺诈等对延迟极其敏感的业务。的矢量化计算，单次预测可达毫秒级响应，真正实现了从“离线实验”到“在线实时”的跨越。在追求极致响应速度的 AI 推理场景中，传统的同步框架往往力不从心。的轻量级模型，是构建实时预测服务的黄金搭档。凭借其非阻塞 I/O 架构，结合。应用启动时预加载模型，利用其。完成模型训练并序列化为。实战中，我们首

2048 AI社区

Llama 是开源的，但为什么？

即使 Meta 不开源他们的模型，其他公司也会开源。所以，Meta 提前开源并领导开源模型将是明智之举。然后，Meta 可以与社区快速迭代，改进其模型，赶上 OpenAI 和 Google。在开源你的模型时，不必担心人们不使用你的服务，因为基础模型与构建良好的服务之间仍然存在巨大的差距。开源模型类似于开源软件，它们都遵循“自由代码付费服务”框架，但在用户留存率和所创建的生态系统类型上有所不同。未来