小模型VS大模型：深入探讨不同规模下的推理框架技术与应用！

文章系统介绍了AI模型推理引擎的架构与功能，对比了小模型(CNN)和大模型(LLaMa等)领域的差异。小模型推理框架如MNN、TVM等侧重于芯片加速和算子优化；而大模型框架如vLLM则更关注动态Batch处理和服务调度，实现Continuous Batching、Paged Attention等特性提升并发能力。两者虽在Build阶段有相似之处，但因模型特性不同，推理优化策略各有侧重。

Python程序员小泉

267人浏览 · 2025-12-01 15:32:11

Python程序员小泉 · 2025-12-01 15:32:11 发布

这里，分两个主要模块介绍AI模型推理引擎整体架构与主要功能。回顾AI落地的发展过程，我们可以简单地将AI模型的发展分为小模型领域与大模型领域。

在小模型领域以CNN模型为主，模型结构变化多样分为分割，检测，识别，NLP等各个类型。

在大模型领域，模型结构比较统一以LLaMa系列，Deespeek系列，Qwen系列等模型均起源于Transformer结构，新增比如MLA，MoE的一些局部改造。

小模型推理框架

在小模型领域推理框架发展已经比较成熟，从NCNN，TNN，到后来的MNN，TVM整体推理引擎的架构比较完善。

如上图，来源于MNN的介绍文档，借此图简单介绍整个CNN模型框架主要功能。

Tools 模块

1 . Converter模块：

a . 主要实现Torch模型/ONNX模型到框架上层IR或者框架自定义图的转换，包括模型解析，图生成，算子替换等主要功能。

b . 主要实现自定义图的优化，包括常量折叠，算子融合，模型结构优化，静态显存管理等主要功能。

2 . Compress模块：

在满足一定精度守护的前提，实现比如模型后量化，模型剪枝等模型压缩类处理。

3 . Express模块：

支持带控制流的模型运行，比如一些跳转OP的实现，支持自定义算子Plug-IN等。

4 . CV模块：

负责实现常见的CV类前后处理函数，支持框架跑模型完整的PipeLine流程，比如一些Resize函数。

Runtime 模块

1 . Pre-Inference模块：

比如实现模型的内存分配与管理，动态Shape推导以支持模型动态Shape推理，进一步提升模型性能。

2 . 后端设备与算子模块：

a . 各类不同算子极致优化，包括Stressen矩阵乘，Winograd卷积，低精度推理等。

b . 各类不同芯片的异构执行，CPU上的Neon/Avx优化，GPU上的OpenCL/CUDA优化等。

大模型推理框架

在大模型领域推理领域这几年也出现一批推理引擎，比如LightLLM,vLLM,LM-Deploy等。这里以vLLM的推理逻辑为例简单介绍下大模型引擎如何工作。

大模型推理框架在整个模型Build阶段或者说初始化阶段与小模型框架有很多相似之处，比如需要算子融合，显存复用，算子替代，模型压缩。

但是大语言模型因其自回归推理的特点，又有很多推理的特性实现，包括Continuous Batching，Paged Attention，Packing，Chunked Prefill等。这些特性的核心都是提升组Batch的并发能力，这也导致框架有其自有特点。

1 . vLLM以服务框架的形式提供一整套的API接口给调用者使用，针对不同应用场景分为Chat接口与Completion接口。

2 . 在推理模块分为两大块，调度器模块与执行器模块，调度器模块主要负责组Batch的特性实现比如Continuous Batching，Chunked Prefill，Paged Attentntion。执行器模块主要负责模型的具体推理，包括不同Rank上的Worker执行，模型的首Token推理与Decode推理。

3 . 其中Scheduler的Block Manager / Block Allocate主要负责KVCache的管理与分配。

总得来说，CNN领域小模型的推理更聚焦于与芯片上模型推理加速，大模型领域因为模型结构统一推理更多侧重于动态Batch，服务调度。

如何系统的学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述