LLM大模型技术解析（五）：RAG检索增强生成实战

zhengpeiqi

958人浏览 · 2026-03-02 20:14:04

zhengpeiqi · 2026-03-02 20:14:04 发布

LLM大模型技术解析（五）：RAG检索增强生成实战

本文是《LLM大模型技术解析》系列的第五篇，深入讲解RAG技术的原理、架构设计与企业级落地实践。

一、为什么需要RAG？

1.1 纯LLM的局限性

大型语言模型虽然强大，但存在三个核心问题：

| 问题 | 说明 | 影响 |

|------|------|------|

| **知识截止** | 训练数据有明确的时间边界 | 无法回答最新事件 |

| **幻觉问题** | 会生成看似合理但实际错误的内容 | 降低可信度 |

| **领域局限** | 对专业领域知识掌握不足 | 难以满足企业需求 |

1.2 RAG的核心价值

RAG（Retrieval-Augmented Generation）通过将外部知识检索与文本生成结合，有效解决上述问题：


用户提问 → 向量检索 → 获取相关文档 → 拼接Prompt → LLM生成答案

**优势对比：**

| 维度 | 纯LLM | Fine-tuning | RAG |

|------|-------|-------------|-----|

| 实现成本 | ✅ 低 | ❌ 高 | ⚠️ 中等 |

| 可解释性 | ❌ 差 | ⚠️ 一般 | ✅ 可追溯来源 |

二、RAG系统架构设计

2.1 经典RAG流程


class RAGSystem:
    def __init__(self, vector_store, llm):
        self.vector_store = vector_store  # 向量数据库
        self.llm = llm                    # 大语言模型
        
    def answer(self, query: str) -> str:
        # Step 1: 查询向量化
        query_embedding = self.embed(query)
        
        # Step 2: 相似度检索
        relevant_docs = self.vector_store.similarity_search(
            query_embedding, 
            k=5  # Top-K检索
        )
        
        # Step 3: 构建增强Prompt
        context = "\n\n".join([doc.content for doc in relevant_docs])
        prompt = f"""基于以下参考资料回答问题：

{context}

问题：{query}
答案："""
        
        # Step 4: LLM生成
        return self.llm.generate(prompt)

2.2 模块化架构


┌─────────────────────────────────────────────────────────────┐
│                        RAG Pipeline                         │
├──────────────┬──────────────┬──────────────┬──────────────┤
│   数据加载    │   文档处理    │   索引存储    │   检索生成    │
│  (Loaders)   │ (Processors) │  (Indexers)  │  (Retrievers)│
├──────────────┼──────────────┼──────────────┼──────────────┤
│ • PDF        │ • 分块策略    │ • 向量数据库  │ • 相似度检索  │
│ • Word       │ • 元数据提取  │ • 倒排索引   │ • 重排序     │
│ • Web页面    │ • 去重清洗    │ • 混合索引   │ • 多路召回   │
│ • 数据库      │ • 质量过滤    │              │ • Prompt工程 │
└──────────────┴──────────────┴──────────────┴──────────────┘

三、关键技术细节

3.1 文档分块策略

分块粒度直接影响检索质量：

| 策略 | 块大小 | 适用场景 | 优缺点 |

|------|--------|----------|--------|

**代码示例（LangChain）：**


from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,        # 每块最大字符数
    chunk_overlap=50,      # 重叠字符数（保证上下文连贯）
    separators=["\n\n", "\n", "。", "！", "？"]  # 优先切分位置
)

chunks = text_splitter.split_documents(documents)

3.2 Embedding模型选择

| 模型 | 维度 | 语言支持 | 特点 |

|------|------|----------|------|

| **text-embedding-ada-002** | 1536 | 多语言 | OpenAI出品，效果稳定 |

| **M3E-base** | 768 | 中文 | 轻量级，适合资源受限场景 |

| **GTE-large** | 1024 | 多语言 | 阿里巴巴，长文本支持好 |

3.3 向量数据库选型

| 数据库 | 特点 | 适用规模 | 部署方式 |

|--------|------|----------|----------|

| **Milvus** | 企业级功能全 | 十亿级 | 分布式 |

四、高级优化技巧

4.1 查询重写（Query Rewriting）

原始查询可能不够精确，需要进行扩展或改写：


def rewrite_query(original_query: str) -> List[str]:
    """生成多个查询变体，提高召回率"""
    
    # HyDE: 假设文档嵌入
    hypothetical_doc = llm.generate(
        f"为这个问题写一段简短回答：{original_query}"
    )
    
    # 子查询分解
    sub_queries = llm.generate(
        f"将'{original_query}'分解为2-3个子问题，用换行分隔"
    ).split("\n")
    
    return [original_query, hypothetical_doc] + sub_queries

4.2 重排序（Re-ranking）

初筛后的Top-K结果需要进一步精排：


from sentence_transformers import CrossEncoder

# 加载交叉编码器（比双塔更精准但慢）
reranker = CrossEncoder('BAAI/bge-reranker-large')

def rerank_results(query: str, candidates: List[Document]) -> List[Document]:
    pairs = [[query, doc.content] for doc in candidates]
    scores = reranker.predict(pairs)
    
    # 按重排序分数排序
    ranked = sorted(
        zip(candidates, scores), 
        key=lambda x: x[1], 
        reverse=True
    )
    return [doc for doc, _ in ranked[:3]]  # 取Top-3

4.3 混合检索

结合向量检索和关键词检索的优势：


def hybrid_search(query: str, alpha: float = 0.7):
    """
    alpha: 向量检索权重，1-alpha为关键词检索权重
    """
    # 向量检索结果
    vector_results = vector_store.similarity_search(query, k=10)
    
    # BM25关键词检索
    keyword_results = bm25_index.search(query, k=10)
    
    # 融合排序（RRF算法）
    fused_results = reciprocal_rank_fusion(
        vector_results, 
        keyword_results,
        k=60  # RRF常数
    )
    
    return fused_results

五、企业级RAG落地实践

5.1 典型应用场景

| 场景 | 数据源 | 核心价值 |

|------|--------|----------|

| **智能客服** | 产品手册、FAQ | 7×24小时自动回复 |

| **知识库问答** | 内部文档、规范 | 快速定位信息 |

| **代码助手** | API文档、代码库 | 提升开发效率 |

| **法律合规** | 法规条文、案例 | 辅助决策分析 |

| **医疗咨询** | 医学文献、指南 | 提供参考建议 |

5.2 性能优化清单

[ ] **索引优化**：使用HNSW等近似最近邻算法
[ ] **缓存策略**：热门查询结果缓存
[ ] **异步处理**：文档入库异步化
[ ] **增量更新**：只更新变化的部分
[ ] **监控告警**：检索质量、响应时间监控
5.3 常见问题排查

| 现象 | 可能原因 | 解决方案 |

|------|----------|----------|

| 检索不到相关内容 | 分块过大/Embedding不合适 | 调整分块策略，更换模型 |

| 答案包含无关信息 | 上下文过长 | 压缩Prompt，过滤低相关文档 |

| 回答不准确 | 幻觉问题 | 添加引用标注，降低temperature |

| 响应慢 | 检索耗时 | 优化索引，增加缓存 |

六、总结与展望

RAG技术正在快速发展，未来趋势包括：

1. **多模态RAG**：支持图片、视频等非文本内容

2. **Agentic RAG**：结合工具调用，主动获取信息

3. **GraphRAG**：利用知识图谱增强推理能力

4. **端到端优化**：联合训练检索器和生成器

---

**系列文章：**
（一）Transformer架构深度解析
（二）提示工程最佳实践
（三）模型微调实战指南
（四）Agent智能体开发入门
**（五）RAG检索增强生成实战 ← 本文**
（六）多模态大模型应用探索
*关注我，持续分享LLM前沿技术与实战经验！*

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

一句“你好”，烧掉5万Tokens？运营商AI算力套餐为何让开发者直呼“用不起”

把Token简单类比为“分钟数”或“流量”，是一种危险的简化。AI的价值在于智能输出，而非资源消耗。若不能提供高效、透明、低成本的服务，再便宜的“白菜价”也只会沦为营销噱头。未来，真正的竞争不在“谁卖得便宜”，而在“谁用得聪明”。一句“你好”不该烧掉5万Token——它应该开启一段有价值的对话，而不是一场昂贵的误会。