TensorRT教程10：部署推理的基本步骤（重点）

部署推理阶段此阶段主要完成推理，Kernel Auto-Tuning 和 Dynamic Tensor Memory 应该是在这里完成的。先创建一个runtime对象，再将plan文件反序列化，并创建一个 runtime engine，然后就可以输入数据（比如测试集或数据集之外的图片），然后输出分类向量结果或检测结果。tensorRT的好处就是不需要安装其他深度学习框架，就可以实现部署和推理。这个

米斯特龙_ZXL

2371人浏览 · 2021-07-25 16:54:25

米斯特龙_ZXL · 2021-07-25 16:54:25 发布

部署推理阶段

在这里插入图片描述

此阶段主要完成推理，Kernel Auto-Tuning 和 Dynamic Tensor Memory 应该是在这里完成的。先创建一个runtime对象，再将plan文件反序列化，并创建一个 runtime engine，然后就可以输入数据（比如测试集或数据集之外的图片），然后输出分类向量结果或检测结果。tensorRT的好处就是不需要安装其他深度学习框架，就可以实现部署和推理。

这个阶段需要给tensorRT提供一个标签文件（这个主要是将模型产生的数字标号分类，与真实的名称对应起来）

部署推理的11个基本步骤

step1：创建runtime

step2：反序列化创建engine

step3：创建context

step4：获取输入输出索引

step5：创建buffers

step6：为输入输出开辟GPU显存

step7：创建cuda流

step8：从CPU到GPU----拷贝input数据

step9：异步推理

step10：从GPU到CPU----拷贝output数据

step10：同步cuda流

step11：释放资源

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

硅谷大佬 Boris Tane 在高强度使用了 9 个月 Claude Code 后的心得：使用在审查并批准书面计划之前，绝不让AI直接写代码

深度阅读，写计划，标注计划直到正确，然后让 Claude 不停顿地执行整个流程，同时检查类型。没有魔法提示词，没有精心设计的系统指令，没有聪明的技巧。研究防止 Claude 做出无知的更改计划防止它做出错误的更改标注循环注入你的判断实施命令让它在所有决策做出后不中断地运行试试这个工作流程，你会惊讶于在没有标注计划文档的情况下，你是如何用编码代理交付任何东西的。

2048 AI社区

从聊天框到动态助手：MCP Apps 如何重塑 AI 交互的未来（拾）

在人工智能向“自主智能体”演进的道路上，我们正见证一个关键的范式转移：大型语言模型（LLM）不再仅仅是文本生成器，而是逐渐成为能感知环境、调用工具并执行复杂任务的智能核心。然而，传统的“文本输入-文本输出”模式，在面对需要精密逻辑、实时数据可视化与复杂业务流操控的生产力场景时，其交互深度的局限性暴露无遗。为了连接模型与广阔的外部世界，应运而生，旨在标准化模型与工具之间的通信，降低生态适配成本。