RAG全链路各环节模型性能对比调研

RAG的效果由全链路各环节的模型选型共同决定,而非仅依赖最终的生成大模型。本次调研基于2024-2026年行业主流商用/开源模型,。

一、RAG全链路核心环节与通用选型原则

核心环节拆解

标准RAG全流程的5个核心模型依赖环节,按执行顺序为:

  1. 文档预处理环节:语义分块模型、多模态文档解析模型(决定知识拆分的合理性)
  2. 向量嵌入环节:稠密/稀疏/多模态嵌入模型(决定检索召回的准确率,是RAG的核心底座)
  3. 检索重排序环节:跨编码器重排模型、LLM重排模型(低成本提升检索精度的关键)
  4. 检索增强生成环节:RAG专用基座大模型(决定最终答案的忠实度、相关性与流畅度)
  5. 事实校验环节:幻觉检测/事实一致性模型(保障忠实推理,抑制幻觉的最后防线)

通用选型原则

  • 收益优先级:嵌入模型优化 > 重排模型优化 > 生成模型优化(80%的RAG效果问题来自检索环节,而非生成环节);
  • 算力匹配:优先在轻量环节做精度优化,而非盲目升级大参数生成模型;
  • 场景适配:强监管场景优先保障「忠实度」,通用场景优先平衡「效果-效率」。

二、各环节模型性能对比与选型调研

环节1:文档预处理环节

环节核心作用

替代固定长度分块,解决「语义断裂、上下文丢失、无关内容混入」问题,是提升检索召回率的前置关键;多模态解析模型则负责将PDF、图片、表格、公式等非结构化内容转为可检索的结构化文本。

核心评估指标
  • 语义分块模型:语义完整性、检索召回提升率、单文档处理速度、长文本适配能力
  • 多模态解析模型:文本/表格/公式识别准确率、布局还原度、多语言支持、处理速度
主流模型性能对比
表1-1 语义分块模型性能对比
模型类型 代表模型 核心优势 检索召回提升率 处理速度(千字/秒) 硬件要求 适用场景
规则式语义分块 SpaCy 分句模型 零成本、速度快、无依赖 5%-10%(对比固定分块) 500+ CPU即可运行 简单短文本、快速POC验证
小模型语义分块 BGE-Small-分块微调版 轻量、精准识别语义边界、支持中英文 15%-20% 100+ CPU/入门级GPU 通用中英文文档、企业知识库
小模型语义分块 Qwen2-0.5B-分块专用版 支持长文本、适配专业领域文档 18%-25% 80+ CPU/RTX 3060及以上 长文档、法律/金融专业文档
大模型语义分块 GPT-4o-mini 分块Prompt 极致精准、适配复杂语义、表格/代码分块 25%-35% 10-20(受API限速) 无本地硬件要求 高价值复杂文档、科研论文、多模态混合文档
大模型语义分块 Llama3.1-8B-分块微调版 开源可部署、适配垂直领域 22%-30% 30-50 RTX 4090 24G及以上 私有化部署的专业知识库
表1-2 多模态文档解析模型性能对比
模型 开源/闭源 文本识别准确率 表格识别准确率 公式识别准确率 支持格式 硬件要求
Adobe PDF Extract API 闭源 99.2% 98.5% 97.0% PDF/Word/图片 无本地要求
百度智能云文档解析 闭源 99.0% 97.8% 96.5% 全格式 无本地要求
LayoutLMv3 开源 97.5% 95.0% 90.0% PDF/图片 RTX 3090及以上
Qwen-VL-Max 开源 98.2% 96.5% 94.0% 全格式 A100 40G及以上
Nougat(学术专用) 开源 96.0% 92.0% 98.0% 科研论文PDF RTX 4090及以上

环节2:向量嵌入环节

环节核心作用

将文本/多模态内容编码为固定维度的向量,是实现语义检索的基础,直接决定RAG的召回率(能否找到正确的知识),是整个RAG链路中对最终效果影响最大的环节。

核心评估指标
  • 核心效果指标:MTEB榜单总分(通用语义检索能力)、BEIR榜单NDCG@10(零样本检索能力)、多语言支持、长文本支持上限;
  • 工程指标:向量维度、单句推理速度、显存占用、批量处理能力;
  • 专项指标:稀疏检索能力、多模态编码能力、领域适配性。
主流模型性能对比

按「闭源商用」「开源重量级」「开源轻量级」分类,数据来自2025年MTEB/BEIR最新榜单,贴合中英文RAG场景:

表2-1 闭源商用嵌入模型性能对比
模型名称 厂商 向量维度 MTEB总分 中英文能力 长文本上限 核心优势 适用场景
text-embedding-3-large OpenAI 3072 64.6 极强 8191 tokens 通用能力天花板、零样本泛化强 闭源商用、多语言通用场景
text-embedding-3-small OpenAI 1536 62.3 8191 tokens 性价比高、推理速度快 通用闭源场景、大规模知识库
Jina Embeddings v3 Base Jina AI 1024 65.2 极强(中英双语优化) 8192 tokens 中英文双语天花板、长文本适配 中英文混合知识库、长文档RAG
Jina Embeddings v3 Small Jina AI 512 62.8 8192 tokens 轻量高速、中英双语优化 高并发检索场景、轻量部署
阿里云通义千问嵌入v2 阿里 1536 63.1 极强(中文优化) 4096 tokens 中文场景适配、垂直领域优化 国内商用、中文知识库
表2-2 开源重量级嵌入模型(7B级,极致性能)
模型名称 开源方 向量维度 MTEB总分 中英文能力 核心特性 最低硬件要求
BGE-M3-Large 智源研究院 1024 66.5 极强(中英双语SOTA) 支持稠密+稀疏+多向量检索、长文本8192 tokens RTX 4090 24G
GTE-Qwen2-7B 阿里巴巴 1024 66.1 极强(中文优化) 中文检索SOTA、垂直领域适配性强 RTX 4090 24G
UAE-Large-V1 WhereIsAI 1024 65.8 通用能力均衡、零样本泛化性好 RTX 4090 24G
E5-Mistral-7B-Instruct 微软 1024 65.5 英文场景SOTA、指令微调适配 RTX 4090 24G
表2-3 开源轻量级嵌入模型(0.5B-1.5B,高性价比)
模型名称 开源方 向量维度 MTEB总分 中英文能力 核心特性 最低硬件要求
BGE-M3-Base 智源研究院 768 64.2 平衡性能与速度、支持混合检索 RTX 3060 12G
BGE-M3-Small 智源研究院 512 62.1 中强 轻量高速、CPU可运行 CPU即可运行
Qwen2-Embedding-0.5B 阿里 768 61.8 强(中文优化) 极致轻量、中文适配好、支持长文本 CPU即可运行
GTE-Small 阿里巴巴 512 60.5 中强 工业界落地最广、稳定性强 CPU即可运行
专项补充:KG增强RAG专用图嵌入模型

针对KG+RAG场景,除了通用文本嵌入模型,还需搭配图嵌入模型编码KG的实体与关系,主流选型对比如下:

模型类型 代表模型 核心优势 适用KG场景
平移距离模型 TransE、RotatE 轻量、训练速度快、适配大规模KG 静态KG、简单关系推理
GNN图嵌入模型 GraphSAGE、GAT 捕捉图结构信息、支持 inductive 推理 复杂多跳KG推理、动态KG
大模型图嵌入 KG-BERT、Llama3-KG-Embedding 融合文本语义与图结构、零样本泛化强 KGQA、忠实推理约束场景(GCR框架适配)
选型建议
  • 闭源商用首选:Jina Embeddings v3(中英文场景)、OpenAI text-embedding-3-large(纯英文场景);
  • 开源私有化部署首选:BGE-M3系列,通用场景用Base版,极致性能用Large版,轻量部署用Small版;
  • 中文轻量化场景:优先选Qwen2-Embedding-0.5B,CPU可运行,中文效果远超同量级其他模型;
  • KG增强RAG场景:通用文本用BGE-M3,KG实体关系用RotatE/GraphSAGE做图嵌入,双向量库融合检索。

环节3:检索重排序环节

环节核心作用

对嵌入模型召回的Top100条候选内容,做精细化的语义相关性排序,筛选出Top10最相关的内容送入生成模型,是用极低算力成本大幅提升RAG效果的关键环节(可让最终答案准确率提升20%-30%)。

核心评估指标
  • 效果指标:MRR@10(平均倒数排名)、NDCG@10(归一化折损累计增益)、BEIR榜单零样本性能;
  • 工程指标:推理速度、长文本支持、显存占用、批量处理能力。
主流模型性能对比

分为「跨编码器重排模型(主流)」和「LLM重排模型(高精度)」两类:

表3-1 跨编码器重排模型性能对比
模型分类 模型名称 参数量 MRR@10(BEIR平均) 中英文能力 长文本支持 推理速度(千句/秒) 最低硬件要求
重量级 BGE-Reranker-v2-Large 437M 76.8 极强(中英双语SOTA) 4096 tokens 20 RTX 3090 24G
重量级 Jina Reranker v3 Large 437M 76.2 极强(中英双语) 8192 tokens 18 RTX 3090 24G
中量级 BGE-Reranker-v2-Base 110M 74.5 4096 tokens 50 RTX 3060 12G
中量级 Jina Reranker v3 Base 137M 73.9 8192 tokens 45 RTX 3060 12G
轻量级 BGE-Reranker-v2-Small 28M 71.2 中强 512 tokens 150+ CPU即可运行
轻量级 msmarco-MiniLM-L-6-v3 22M 68.5 512 tokens 200+ CPU即可运行
表3-2 LLM重排模型性能对比
模型名称 类型 MRR@10(BEIR平均) 核心优势 适用场景
GPT-4o-mini 闭源API 82.1 极致精准、支持复杂逻辑排序、长文本适配 高价值小批量检索、复杂多跳问题
Claude 3.5 Haiku 闭源API 81.5 长文本支持极强(200k tokens)、多模态内容排序 超长文档、多模态混合内容排序
Llama3.1-8B-Rerank 开源 78.3 开源可部署、支持指令微调、垂直领域适配 私有化部署、专业领域排序
Qwen2.5-7B-Rerank 开源 77.9 中文优化、轻量易部署 中文私有化场景
选型建议
  • 通用场景首选:BGE-Reranker-v2-Base,平衡性能与速度,RTX 3060即可流畅运行,准确率提升显著;
  • 轻量化/CPU场景:选BGE-Reranker-v2-Small,零GPU成本,比无重排的检索效果提升15%以上;
  • 高要求复杂场景:先用跨编码器重排模型做粗筛,再用GPT-4o-mini做精排,兼顾效率与精度;
  • 长文档场景:优先选Jina Reranker v3,支持8192 tokens长文本,避免上下文截断导致的排序错误。

环节4:检索增强生成环节

环节核心作用

基于检索到的知识,生成流畅、相关、忠实的最终答案,是RAG的最终输出环节,核心选型目标是最小化幻觉、最大化与检索知识的一致性,而非模型的通用对话能力。

核心评估指标
  • 核心效果指标:RAGBench忠实度FaithDial幻觉率、答案相关性、逻辑连贯性;
  • 工程指标:上下文窗口大小、推理速度、显存占用、微调成本;
  • 专项指标:指令遵循能力、引用溯源能力、垂直领域适配性。
主流模型性能对比

分为「闭源商用模型」「开源重量级模型」「开源轻量级模型」三类,数据来自2025年RAGBench、Hugging Face Open LLM Leaderboard最新榜单:

表4-1 闭源商用生成模型RAG性能对比
模型名称 厂商 上下文窗口 RAGBench忠实度 幻觉率 核心优势 适用场景
GPT-4o OpenAI 128k 94.2% 3.1% RAG效果天花板、忠实度拉满、多模态支持 高价值商用场景、强监管领域(金融/医疗/法律)
Claude 3.5 Sonnet Anthropic 200k 93.8% 3.5% 超长上下文适配、长文档RAG效果极佳 书籍/合同/财报等超长文档RAG
GPT-4o-mini OpenAI 128k 92.5% 4.8% 性价比天花板、速度快、成本低 通用商用场景、高并发问答
通义千问4 Plus 阿里 128k 91.8% 5.2% 中文优化、垂直领域适配好 国内中文商用场景
豆包4.0 Ultra 字节 128k 91.5% 5.5% 中文场景适配、本土化能力强 国内ToC/ToB通用场景
表4-2 开源重量级生成模型(8B-70B,私有化高性能场景)
模型名称 参数量 上下文窗口 RAGBench忠实度 幻觉率 最低硬件要求 核心优势
Llama3.1-70B-Instruct 70B 128k 90.2% 7.8% A100 80G*2 开源通用能力天花板、忠实度高
Qwen2.5-14B-Instruct 14B 128k 88.7% 9.2% A100 40G 中文优化、平衡性能与算力、RAG适配性强
Llama3.1-8B-Instruct 8B 128k 87.5% 10.5% RTX 4090 24G 开源最均衡、生态完善、微调成本低
Qwen2.5-7B-Instruct 7B 128k 86.9% 11.2% RTX 4090 24G 中文优化极致、轻量高性能
Mistral-Small-24B-Instruct 24B 64k 89.1% 8.7% A100 40G 长上下文适配、推理速度快
表4-3 开源轻量级生成模型(0.5B-2B,轻量化/CPU场景)
模型名称 参数量 RAGBench忠实度 幻觉率 最低硬件要求 适用场景
Qwen2.5-1.5B-Instruct 1.5B 80.2% 18.5% RTX 3060 12G 轻量私有化部署、简单问答场景
Qwen2.5-0.5B-Instruct 0.5B 76.8% 22.3% CPU即可运行 快速POC、端侧部署、简单知识库
Gemma-2-2B-Instruct 2B 79.5% 19.2% RTX 3060 12G 英文轻量场景、端侧部署
专项补充:RAG专用微调模型

针对RAG场景做了专项微调的开源模型,比通用基座的忠实度更高、幻觉率更低,核心选型:

  • Llama-3-RAG:基于Llama3-8B微调,专门适配检索增强生成,忠实度比通用版提升8%,幻觉率下降40%;
  • Qwen-RAG-Series:基于Qwen2系列微调,中文RAG场景优化,支持引用溯源、多文档融合;
  • Phi-3-RAG:基于Phi-3-4B微调,轻量高性能,适配端侧RAG部署。
选型建议
  • 闭源商用首选:GPT-4o-mini,性价比拉满,90%的场景都能覆盖;超长文档选Claude 3.5 Sonnet,高要求强监管场景选GPT-4o;
  • 开源私有化部署首选:Llama3.1-8B-Instruct(通用场景)、Qwen2.5-7B-Instruct(中文场景),RTX 4090即可部署,效果远超同量级其他模型;
  • 轻量化/CPU场景:优先选Qwen2.5-0.5B/1.5B,配合强检索和重排环节,可满足简单知识库的问答需求;
  • 忠实推理/零幻觉场景:优先选RAG专用微调模型,或在通用基座上用RAG专用数据做微调,可大幅降低幻觉率。

环节5:事实校验环节

环节核心作用

对生成模型的输出做事实一致性校验,检测并修正幻觉内容,确保生成答案与检索知识100%对齐,是你关注的「忠实推理」的核心保障环节。

核心评估指标
  • 效果指标:事实一致性准确率、幻觉检测F1值、假阳性率;
  • 工程指标:推理速度、显存占用、部署成本。
主流模型性能对比
模型类型 代表模型 开源/闭源 事实检测F1值 推理速度 硬件要求 核心优势
闭源API GPT-4o-mini 校验Prompt 闭源 96.2% 无本地要求 极致精准、支持复杂逻辑校验、多语言
闭源API Claude 3.5 Haiku 校验Prompt 闭源 95.8% 无本地要求 长文本适配、支持多文档交叉校验
开源重量级 LongAlign-LLaMA3-8B-FactCheck 开源 91.5% 较快 RTX 4090 24G 开源SOTA、支持长文本校验、可微调
开源中量级 Qwen2-7B-FactCheck 开源 89.7% RTX 3090 24G 中文优化、适配中文知识库校验
开源轻量级 BGE-FactCheck-Small 开源 85.3% 极快 CPU即可运行 轻量高速、零GPU成本、适配简单场景
开源轻量级 FactCC-Light 开源 82.1% 极快 CPU即可运行 专门针对RAG场景优化、误报率低
选型建议
  • 商用高要求场景:用GPT-4o-mini做事实校验,配合引用溯源,实现「生成-校验-修正」的闭环;
  • 私有化部署场景:优先选LongAlign-LLaMA3-8B-FactCheck(通用)、Qwen2-7B-FactCheck(中文);
  • 轻量化场景:用BGE-FactCheck-Small做粗筛,过滤明显幻觉内容,降低后续校验成本。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐