什么是粗排和精排

摘要：在RAG、推荐系统等场景中，粗排（Coarse-grained Ranking）和精排（Fine-grained Ranking）通过“先海选、再精选”的两级策略平衡效率与精度。粗排快速筛选候选集（如ANN算法），侧重召回率；精排精细化排序（如交叉编码器），提升准确性。该策略尤其适用于海量数据场景，避免全局精排的低效问题。LangChain与Milvus结合可实现：粗排召回候选文档，精排重

专注于大数据技术栈

898人浏览 · 2026-01-15 16:35:12

专注于大数据技术栈 · 2026-01-15 16:35:12 发布

在 RAG、推荐系统、搜索引擎等场景中，粗排（Coarse-grained Ranking） 和 精排（Fine-grained Ranking） 是一套 **“先海选、再精选”** 的两级检索排序策略，核心目的是在保证检索效率的前提下，大幅提升结果的精准度。

简单类比：

粗排 = 简历初筛：HR 快速扫一遍简历，把 “学历、工作年限” 达标的候选人挑出来，不纠结细节；
精排 = 复试面试：对初筛通过的候选人，深入考察专业技能、项目经验，最终确定录用名单。

在 RAG 的向量检索流程中，这套策略尤其适合海量数据场景（比如向量库中有百万 / 千万级文档片段），直接全局精排会严重拖慢速度，两级排序能兼顾 “快” 和 “准”。

一、粗排：快速筛选，缩小范围

1. 核心目标

从全量向量数据中，快速筛选出与问题 “可能相关” 的候选集，过滤掉明显不相关的数据，减少后续精排的计算量。

2. 技术特点

计算速度快：采用轻量级模型 / 规则，不追求高精度，只做 “快速过滤”；
- 向量检索中：常用近似最近邻（ANN）算法（比如 Milvus 的 IVF_FLAT、HNSW），牺牲一点点精度换速度；
- 其他场景：也可以用关键词匹配、标签过滤等简单规则（比如用户问 Spark，直接过滤掉 Hadoop 相关文档）。
召回率优先：粗排要保证 “不漏掉潜在相关数据”，所以筛选条件比较宽松，候选集的数量通常是最终需要结果的 10~100 倍（比如要最终返回 10 条结果，粗排先选出 200 条候选）。

3. 在 RAG 中的应用示例

假设 Milvus 中有 100 万条技术文档向量，用户提问 “Spark 宽依赖和窄依赖的区别”：

粗排步骤：用问题向量通过 HNSW 算法检索，快速返回 200 条候选片段（耗时毫秒级），这些片段都和 Spark 相关，但可能包含部署、调优、依赖关系等不同内容。

二、精排：精准排序，择优输出

1. 核心目标

对粗排筛选出的候选集，进行精细化相关性计算，最终按 “与问题的匹配度” 排序，选出最相关的 Top-K 结果。

2. 技术特点

计算精度高：采用更复杂的模型 / 算法，深入计算 “问题与候选片段” 的语义相关性；
- 向量检索中：常用余弦相似度、点积等精准度量方式，或引入交叉编码器（Cross Encoder）—— 专门用于计算 “文本对” 的相关性得分，比单向 Embedding 更精准；
- 其他场景：也可以用深度学习模型（如 BERT 变体），建模问题与文本的深层语义关联。
效率要求低：因为候选集已经被粗排缩小，所以即使精排算法复杂，整体耗时也可控。

3. 在 RAG 中的应用示例

对粗排选出的 200 条 Spark 相关候选片段：

精排步骤 1：用 Cross Encoder 计算 “用户问题 ↔ 每个候选片段” 的相关性得分（置信度）；
精排步骤 2：按得分从高到低排序，选出 Top-5 最相关的片段（比如直接讲解依赖关系的文档）；
最终：把这 5 条片段传给大模型生成答案。

三、粗排 + 精排的完整流程（RAG 场景）

用户提问 → 问题向量化 → 粗排（ANN 检索全量数据，选出 N 条候选） → 精排（Cross Encoder 计算相关性，选出 K 条 Top 结果） → 传给大模型生成答案

阶段	核心算法	目标	速度	精度
粗排	近似最近邻（HNSW/IVF）、关键词过滤	快速召回候选集	快（毫秒级）	较低
精排	余弦相似度、交叉编码器（Cross Encoder）	精准排序候选集	中等（百毫秒级）	较高

四、为什么需要两级排序？

只做粗排：速度快，但结果精度低，可能混入很多弱相关数据，影响 RAG 效果；
只做精排：对全量数据逐一计算精准相似度，在海量数据下速度极慢（比如千万级数据需要几秒甚至几十秒），无法满足实时检索需求；
粗排 + 精排：平衡了效率和精度，是海量数据场景下的最优解。

五、实操小技巧（LangChain + Milvus 实现粗排 + 精排）

粗排：用 Milvus 的 HNSW 索引做近似检索，获取候选集；
精排：用 LangChain 的 CrossEncoderReranker 对候选集重新排序。

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder
from langchain_community.vectorstores import Milvus

# 1. 初始化 Milvus 粗排检索器
vector_db = Milvus(...)
coarse_retriever = vector_db.as_retriever(search_kwargs={"k": 200})  # 粗排召回 200 条

# 2. 初始化精排重排器（用 HuggingFace 的 Cross Encoder 模型）
model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-base")
compressor = CrossEncoderReranker(model=model, top_n=5)  # 精排选 Top-5

# 3. 组合粗排+精排
compression_retriever = ContextualCompressionRetriever(
    base_retriever=coarse_retriever,
    base_compressor=compressor
)

# 4. 检索
docs = compression_retriever.get_relevant_documents("Spark 宽依赖和窄依赖的区别")

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【大模型】Claude code的原理是什么？Anthropic 的 Claude Code 原理解析

ClaudeCode是Anthropic推出的智能编程代理工具，通过整合大语言模型与工具调用能力实现自动化编程。其核心架构包含五层：用户指令→Claude模型推理→代理决策→工具调用→执行反馈，形成闭环循环。关键技术包括：LLM决策引擎、结构化工具调用（文件读写/终端执行等）、多轮代理循环、智能上下文管理（压缩历史/工作记忆）以及沙箱执行环境。与普通聊天模型相比，ClaudeCode具备文件操作、

2048 AI社区

2026实操｜GEO搜索引擎优化系统源码搭建定制开发+AI文章生成功能落地全解析

2048 AI社区

毕业答辩倒计时，别慌！让百考通AI做你的论文智能「外挂」

毕业季的忙碌与焦虑是真实的，但这份压力不应完全吞噬你对学术探索的最后热情，以及对未来生活的美好憧憬。毕业论文是一次综合演练，是你向下一阶段人生提交的一份重要“能力证明”。善用像百考通AI这样的现代技术工具，不是偷懒的捷径，而是一种更聪明、更高效的工作与学习方式。它让你从机械重复的劳动中解放出来，将最宝贵的心智资源，投入到最体现你个人价值的创造性工作中去。愿每一位正在灯火下奋斗的毕业生，都能驾驭好工