【破局AI时代：核心攻坚】5、RAG技术全解析：构建企业级私有知识库的核心逻辑

RAG技术全解析：构建企业级私有知识库摘要：本文深入探讨检索增强生成(RAG)技术在企业级私有知识库中的应用。RAG通过结合大语言模型与外部知识库，有效解决知识过期和幻觉问题。文章详细解析RAG工作流，包括多源文档加载(支持PDF、Word、Excel等格式)、智能分块技术(保持语义完整性)以及向量数据库集成。重点介绍了企业级实现方案，如数据库连接器、API集成等特殊场景处理，并提供了Pytho

无心水

266人浏览 · 2026-01-23 06:19:42

无心水 · 2026-01-23 06:19:42 发布

点击投票为我的2025博客之星评选助力！

RAG技术全解析：构建企业级私有知识库的核心逻辑

引言：大模型的局限性与RAG的崛起

在人工智能的浪潮中，大型语言模型（LLM）展现了令人惊叹的能力，但它们并非万能。当我们尝试将大模型应用于企业级场景时，两个核心问题逐渐浮现：知识过期与幻觉问题。企业数据在不断更新，而大模型的训练数据往往滞后于现实；同时，模型可能基于过时的信息生成看似合理但实际错误的回答。

检索增强生成（Retrieval-Augmented Generation，RAG）技术应运而生，它通过将外部知识库与大模型相结合，为这一问题提供了优雅的解决方案。本文将深入剖析RAG技术的每一个环节，从基础原理到企业级实践，为您呈现构建私有知识库的完整架构。

一、RAG工作流深度拆解

1.1 RAG核心架构全景图

让我们首先通过一个完整的架构图来理解RAG的工作流程：

1.2 文档加载：多源数据集成

文档加载是RAG流程的起点。企业数据往往分散在多个系统中，需要统一集成：

from langchain.document_loaders import (
    PyPDFLoader, 
    Docx2txtLoader,
    UnstructuredExcelLoader,
    SeleniumURLLoader,
    GitLoader
)
from typing import List
import os

class MultiSourceDocumentLoader:
    """多源文档加载器"""
    
    def __init__(self):
        self.loaders = {
            '.pdf': PyPDFLoader,
            '.docx': Docx2txtLoader,
            '.xlsx': UnstructuredExcelLoader,
            '.txt': lambda path: self._load_text_file(path)
        }
    
    def load_documents(self, source_path: str) -> List[Document]:
        """根据文件类型选择加载器"""
        documents = []
        
        if os.path.isfile(source_path):
            # 单文件加载
            ext = os.path.splitext(source_path)[1].lower()
            if ext in self.loaders:
                loader = self.loaders[ext](source_path)
                documents.extend(loader.load())
        elif os.path.isdir(source_path):
            # 目录批量加载
            for root, _, files in os.walk(source_path):
                for file in files:
                    file_path = os.path.join(root, file)
                    ext = os.path.splitext(file_path)[1].lower()
                    if ext in self.loaders:
                        try:
                            loader = self.loaders[ext](file_path)
                            documents.extend(loader.load())
                        except Exception as e:
                            print(f"加载文件 {file_path} 失败: {e}")
        elif source_path.startswith(('http://', 'https://')):
            # 网页加载
            loader = SeleniumURLLoader([source_path])
            documents.extend(loader.load())
            
        return documents
    
    def _load_text_file(self, path: str) -> List[Document]:
        """纯文本文件加载"""
        with open(path, 'r', encoding='utf-8') as f:
            content = f.read()
        return [Document(page_content=content, metadata={"source": path})]

# 使用示例
loader = MultiSourceDocumentLoader()
documents = loader.load_documents("./企业文档")
print(f"加载了 {len(documents)} 个文档")

对于企业级应用，我们还需要考虑数据库连接、API集成等复杂场景：

// Java版本的数据库文档加载器
public class DatabaseDocumentLoader implements DocumentLoader {
    
    private final DataSource dataSource;
    private final DocumentExtractor extractor;
    
    public DatabaseDocumentLoader(DataSource dataSource) {
        this.dataSource = dataSource;
        this.extractor = new DatabaseExtractor();
    }
    
    @Override
    public List<Document> load() {
        List<Document> documents = new ArrayList<>();
        
        try (Connection conn = dataSource.getConnection()) {
            // 加载数据库表结构
            List<TableSchema> tables = extractTableSchemas(conn);
            documents.addAll(convertToDocuments(tables));
            
            // 加载关键业务数据
            List<BusinessData> businessData = extractBusinessData(conn);
            documents.addAll(convertToDocuments(businessData));
            
        } catch (SQLException e) {
            log.error("数据库加载失败", e);
        }
        
        return documents;
    }
    
    private List<TableSchema> extractTableSchemas(Connection conn) {
        // 提取表结构和注释
        List<TableSchema> schemas = new ArrayList<>();
        // ... 实现细节
        return schemas;
    }
}

1.3 智能分块：语义完整性的艺术

文档分块是RAG系统中的关键环节，直接影响检索质量：

from langchain.text_splitter import (
    RecursiveCharacterTextSplitter,
    MarkdownHeaderTextSplitter,
    SentenceTransformersTokenTextSplitter
)
import re

class IntelligentTextSplitter:
    """智能文本分割器"""
    
    def __init__(self, chunk_size=1000, chunk_overlap=200):
        # 基础分割器
        self.recursive_splitter = RecursiveCharacterTextSplitter(
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap,
            separators=["\n\n", "\n", "。", "！", "？", "；", "，", " "]
        )
        
        # 语义分割器
        self.semantic_splitter = SentenceTransformersTokenTextSplitter(
            chunk_overlap=chunk_overlap,
            tokens_per_chunk=chunk_size
        )
    
    def split_document(self, document: Document, doc_type: str = "general") -> List[Document]:
        """根据文档类型智能分割"""
        
        content = document.page_content
        metadata = document.metadata.copy()
        
        if doc_type == "markdown":
            # Markdown文档按标题分割
            return self._split_markdown(content, metadata)
        elif doc_type == "code":
            # 代码文件按结构分割
            return self._split_code(content, metadata)
        elif doc_type == "table":
            # 表格数据特殊处理
            return self._split_table(content, metadata)
        else:
            # 通用文档分割
            chunks = self.recursive_splitter.split_text(content)
            
        # 为每个分块添加元数据
        chunk_docs = []
        for i, chunk in enumerate(chunks):
            chunk_metadata = metadata.copy()
            chunk_metadata.update({
                "chunk_id": i,
                "chunk_size": len(chunk),
                "char_count": len(chunk)
            })
            chunk_docs.append(Document(page_content=chunk, metadata=chunk_metadata))
            
        return chunk_docs
    
    def _split_markdown(self, content: str, metadata: dict) -> List[Document]:
        """Markdown文档分割"""
        headers_to_split_on = [
            ("#", "H1"),
            ("##", "H2"),
            ("###", "H3"),
        ]
        
        markdown_splitter = MarkdownHeaderTextSplitter(
            headers_to_split_on=headers_to_split_on
        )
        return markdown_splitter.split_text(content)
    
    def _split_code(self, content: str, metadata: dict) -> List[Document]:
        """代码文件分割"""
        # 按函数/方法分割
        chunks = []
        
        # 提取函数定义
        function_patterns = {
            'python': r'def\s+\w+\s*\([^)]*\)\s*:',
            'java': r'(public|private|protected)\s+\w+\s+\w+\s*\([^)]*\)\s*\{',
            'javascript': r'function\s+\w+\s*\([^)]*\)\s*\{'
        }
        
        lang = metadata.get('language', 'python')
        pattern = function_patterns.get(lang, function_patterns['python'])
        
        functions = re.finditer(pattern, content, re.MULTILINE)
        
        prev_end = 0
        for match in functions:
            # 获取函数前的注释
            func_start = match.start()
            
            # 查找函数结束
            func_end = self._find_code_block_end(content, func_start, lang)
            
            chunk = content[prev_end:func_end]
            if chunk.strip():
                chunks.append(Document(
                    page_content=chunk,
                    metadata={**metadata, "chunk_type": "function"}
                ))
            
            prev_end = func_end
        
        # 添加剩余部分
        if prev_end < len(content):
            chunk = content[prev_end:]
            if chunk.strip():
                chunks.append(Document(
                    page_content=chunk,
                    metadata={**metadata, "chunk_type": "remaining"}
                ))
        
        return chunks
    
    def _find_code_block_end(self, content: str, start: int, lang: str) -> int:
        """查找代码块结束位置"""
        if lang == 'python':
            # Python使用缩进判断
            lines = content[start:].split('\n')
            base_indent = len(lines[0]) - len(lines[0].lstrip())
            
            for i, line in enumerate(lines[1:], 1):
                if line.strip() and len(line) - len(line.lstrip()) <= base_indent:
                    # 找到相同或更少缩进的行
                    return start + sum(len(l) + 1 for l in lines[:i])
        
        # 默认返回下一个空行
        next_empty = content.find('\n\n', start)
        return next_empty if next_empty != -1 else len(content)

分块策略对比分析

二、文本向量化：模型选型与性能优化

2.1 向量化模型全景对比

文本向量化是将文本转换为计算机可理解的数值向量的过程。选择合适的嵌入模型是RAG系统成功的关键：

import numpy as np
from sentence_transformers import SentenceTransformer
from openai import OpenAI
import torch
from typing import List, Union

class EmbeddingModelManager:
    """嵌入模型管理器"""
    
    def __init__(self, model_name: str = "BAAI/bge-large-zh", device: str = None):
        """
        初始化嵌入模型
        Args:
            model_name: 模型名称
                - 开源模型: BAAI/bge-large-zh, sentence-transformers/all-MiniLM-L6-v2
                - 商用API: openai, cohere, azure
            device: 计算设备 (cpu/cuda)
        """
        self.model_name = model_name
        self.device = device or ('cuda' if torch.cuda.is_available() else 'cpu')
        
        if 'openai' in model_name.lower():
            self.model_type = 'api'
            self.client = OpenAI(api_key=os.getenv('OPENAI_API_KEY'))
        elif 'cohere' in model_name.lower():
            self.model_type = 'api'
            # 初始化Cohere客户端
        else:
            self.model_type = 'local'
            self.model = self._load_local_model(model_name)
    
    def _load_local_model(self, model_name: str):
        """加载本地模型"""
        model = SentenceTransformer(model_name, device=self.device)
        
        # 优化推理速度
        if self.device == 'cuda':
            model = model.half()  # 使用半精度浮点数
            model = torch.compile(model)  # PyTorch 2.0编译优化
            
        return model
    
    def encode(self, texts: Union[str, List[str]], 
               batch_size: int = 32,
               normalize: bool = True) -> np.ndarray:
        """编码文本为向量"""
        
        if isinstance(texts, str):
            texts = [texts]
        
        if self.model_type == 'api':
            return self._encode_api(texts)
        else:
            return self._encode_local(texts, batch_size, normalize)
    
    def _encode_local(self, texts: List[str], 
                     batch_size: int = 32,
                     normalize: bool = True) -> np.ndarray:
        """本地模型编码"""
        embeddings = self.model.encode(
            texts,
            batch_size=batch_size,
            show_progress_bar=True,
            convert_to_numpy=True,
            normalize_embeddings=normalize
        )
        
        return embeddings
    
    def _encode_api(self, texts: List[str]) -> np.ndarray:
        """API服务编码"""
        if 'openai' in self.model_name:
            response = self.client.embeddings.create(
                model="text-embedding-ada-002",
                input=texts
            )
            embeddings = [data.embedding for data in response.data]
            return np.array(embeddings)
        
        # 其他API实现...
        raise NotImplementedError(f"API {self.model_name} not implemented")

# 性能优化：批处理与缓存
class OptimizedEmbeddingPipeline:
    """优化后的嵌入流水线"""
    
    def __init__(self, model_manager: EmbeddingModelManager):
        self.model_manager = model_manager
        self.cache = {}  # 简单的内存缓存
        self.batch_queue = []
        self.max_batch_size = 64
    
    async def encode_with_cache(self, text: str) -> np.ndarray:
        """带缓存的编码"""
        # 生成缓存键
        cache_key = hash(text)
        
        if cache_key in self.cache:
            return self.cache[cache_key]
        
        # 添加到批处理队列
        self.batch_queue.append(text)
        
        # 达到批处理大小时执行
        if len(self.batch_queue) >= self.max_batch_size:
            embeddings = await self._process_batch()
            return embeddings[self.batch_queue.index(text)]
        
        # 立即处理小批量
        if len(self.batch_queue) > 0:
            embeddings = await self._process_batch()
            return embeddings[0]
    
    async def _process_batch(self) -> List[np.ndarray]:
        """处理批量的文本"""
        if not self.batch_queue:
            return []
        
        texts = self.batch_queue.copy()
        self.batch_queue.clear()
        
        embeddings = self.model_manager.encode(texts)
        
        # 更新缓存
        for text, emb in zip(texts, embeddings):
            self.cache[hash(text)] = emb
        
        return embeddings.tolist()

2.2 向量化模型选型指南

2.3 维度权衡与性能优化

import time
from dataclasses import dataclass
from enum import Enum
import pandas as pd

class EmbeddingDimension(Enum):
    """嵌入维度配置"""
    LOW_384 = 384      # 最小可用维度
    MEDIUM_768 = 768   # 平衡选择
    HIGH_1024 = 1024   # 高精度需求
    ULTRA_1536 = 1536  # OpenAI标准
    
@dataclass
class ModelPerformance:
    """模型性能数据类"""
    model_name: str
    dimension: int
    accuracy: float
    latency_ms: float
    memory_mb: float
    throughput: float  # 每秒处理文本数

class EmbeddingOptimizer:
    """嵌入优化器"""
    
    def __init__(self):
        self.performance_data = self._load_benchmark_data()
    
    def recommend_model(self, 
                       requirements: dict) -> List[str]:
        """
        根据需求推荐模型
        
        Args:
            requirements: 包含以下键的字典
                - max_latency_ms: 最大延迟
                - min_accuracy: 最低准确率
                - max_memory_mb: 最大内存使用
                - language: 支持语言
                - budget: 预算限制
        """
        
        candidates = []
        
        for _, perf in self.performance_data.iterrows():
            # 筛选条件
            if (perf['latency_ms'] <= requirements.get('max_latency_ms', float('inf')) and
                perf['accuracy'] >= requirements.get('min_accuracy', 0) and
                perf['memory_mb'] <= requirements.get('max_memory_mb', float('inf')) and
                requirements.get('language', 'zh') in perf['languages']):
                
                # 成本考虑
                if 'budget' in requirements:
                    model_cost = self._estimate_cost(perf['model_name'])
                    if model_cost <= requirements['budget']:
                        candidates.append(perf['model_name'])
                else:
                    candidates.append(perf['model_name'])
        
        # 按综合评分排序
        candidates.sort(key=lambda x: self._calculate_score(x, requirements))
        
        return candidates[:5]  # 返回前5个推荐
    
    def _calculate_score(self, model_name: str, requirements: dict) -> float:
        """计算模型综合评分"""
        perf = self.performance_data[self.performance_data['model_name'] == model_name].iloc[0]
        
        # 权重配置
        weights = {
            'accuracy': 0.4,
            'latency': 0.3,
            'memory': 0.2,
            'cost': 0.1
        }
        
        score = 0
        if 'min_accuracy' in requirements:
            accuracy_norm = min(perf['accuracy'] / requirements['min_accuracy'], 1.0)
            score += accuracy_norm * weights['accuracy']
        
        if 'max_latency_ms' in requirements:
            latency_norm = min(requirements['max_latency_ms'] / perf['latency_ms'], 1.0)
            score += latency_norm * weights['latency']
        
        return score
    
    def optimize_throughput(self, 
                          model_name: str,
                          batch_sizes: List[int] = [1, 4, 8, 16, 32, 64]) -> dict:
        """寻找最优批处理大小"""
        
        results = {}
        model = self._load_model(model_name)
        
        # 准备测试数据
        test_texts = [f"测试文本{i}" for i in range(max(batch_sizes))]
        
        for batch_size in batch_sizes:
            times = []
            memory_usages = []
            
            for _ in range(10):  # 多次测试取平均
                start_time = time.time()
                start_memory = self._get_memory_usage()
                
                # 执行编码
                batch = test_texts[:batch_size]
                embeddings = model.encode(batch)
                
                end_time = time.time()
                end_memory = self._get_memory_usage()
                
                times.append(end_time - start_time)
                memory_usages.append(end_memory - start_memory)
            
            avg_time = np.mean(times)
            avg_memory = np.mean(memory_usages)
            
            results[batch_size] = {
                'throughput': batch_size / avg_time,
                'latency_ms': avg_time * 1000,
                'memory_increase_mb': avg_memory
            }
        
        return results

三、向量数据库实战：三大主流方案对比

3.1 向量数据库架构对比

3.2 Milvus：企业级向量数据库

from pymilvus import (
    connections,
    FieldSchema, CollectionSchema, DataType,
    Collection, utility
)
import numpy as np

class MilvusVectorStore:
    """Milvus向量存储管理类"""
    
    def __init__(self, 
                 host: str = "localhost",
                 port: int = 19530,
                 collection_name: str = "knowledge_base"):
        self.host = host
        self.port = port
        self.collection_name = collection_name
        self.collection = None
        
        # 连接Milvus
        self._connect()
    
    def _connect(self):
        """建立连接"""
        connections.connect(
            "default", 
            host=self.host, 
            port=self.port
        )
        
        # 检查集合是否存在
        if utility.has_collection(self.collection_name):
            self.collection = Collection(self.collection_name)
        else:
            self._create_collection()
    
    def _create_collection(self):
        """创建集合"""
        # 定义字段
        fields = [
            FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
            FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=65535),
            FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1024),
            FieldSchema(name="metadata", dtype=DataType.JSON),
            FieldSchema(name="source", dtype=DataType.VARCHAR, max_length=255),
            FieldSchema(name="chunk_id", dtype=DataType.INT64),
            FieldSchema(name="created_at", dtype=DataType.INT64),
        ]
        
        # 创建schema
        schema = CollectionSchema(
            fields=fields, 
            description="知识库文档存储",
            enable_dynamic_field=True
        )
        
        # 创建集合
        self.collection = Collection(
            name=self.collection_name,
            schema=schema,
            using='default',
            shards_num=2
        )
        
        # 创建索引
        index_params = {
            "metric_type": "IP",  # 内积相似度
            "index_type": "IVF_FLAT",
            "params": {"nlist": 1024}
        }
        
        self.collection.create_index(
            field_name="embedding",
            index_params=index_params
        )
        
        print(f"集合 {self.collection_name} 创建成功")
    
    def insert_documents(self, 
                        texts: List[str],
                        embeddings: List[List[float]],
                        metadatas: List[dict] = None):
        """插入文档"""
        
        if metadatas is None:
            metadatas = [{} for _ in texts]
        
        # 准备数据
        entities = [
            texts,  # text字段
            embeddings,  # embedding字段
            metadatas,  # metadata字段
            [m.get('source', 'unknown') for m in metadatas],  # source字段
            [m.get('chunk_id', 0) for m in metadatas],  # chunk_id字段
            [int(time.time()) for _ in texts]  # created_at字段
        ]
        
        # 插入数据
        mr = self.collection.insert(entities)
        
        # 刷新数据使其可搜索
        self.collection.flush()
        
        return mr.primary_keys
    
    def search_similar(self, 
                      query_embedding: List[float],
                      top_k: int = 5,
                      filter_expr: str = None) -> List[dict]:
        """相似性搜索"""
        
        # 加载集合到内存
        self.collection.load()
        
        # 搜索参数
        search_params = {
            "metric_type": "IP",
            "params": {"nprobe": 10}
        }
        
        # 执行搜索
        results = self.collection.search(
            data=[query_embedding],
            anns_field="embedding",
            param=search_params,
            limit=top_k,
            expr=filter_expr,
            output_fields=["text", "metadata", "source", "chunk_id"]
        )
        
        # 处理结果
        hits = []
        for hits_per_query in results:
            for hit in hits_per_query:
                hits.append({
                    'id': hit.id,
                    'score': hit.score,
                    'text': hit.entity.get('text'),
                    'metadata': hit.entity.get('metadata'),
                    'source': hit.entity.get('source'),
                    'chunk_id': hit.entity.get('chunk_id')
                })
        
        return hits
    
    def hybrid_search(self,
                     query_embedding: List[float],
                     query_text: str,
                     top_k: int = 5,
                     alpha: float = 0.5) -> List[dict]:
        """混合搜索：向量 + 关键词"""
        
        # 1. 向量搜索
        vector_results = self.search_similar(query_embedding, top_k=top_k*2)
        
        # 2. 关键词搜索（使用Milvus的标量过滤）
        keyword_results = self._keyword_search(query_text, top_k=top_k*2)
        
        # 3. 结果融合（Reciprocal Rank Fusion）
        fused_results = self._reciprocal_rank_fusion(
            vector_results, 
            keyword_results,
            alpha=alpha
        )
        
        return fused_results[:top_k]
    
    def _keyword_search(self, query: str, top_k: int) -> List[dict]:
        """关键词搜索实现"""
        # 使用标量字段的模糊匹配
        filter_expr = f"text like '%{query}%'"
        
        results = self.collection.query(
            expr=filter_expr,
            output_fields=["text", "metadata", "source", "chunk_id"],
            limit=top_k
        )
        
        return [
            {
                'id': r.get('id'),
                'text': r.get('text'),
                'metadata': r.get('metadata'),
                'source': r.get('source'),
                'chunk_id': r.get('chunk_id'),
                'score': 1.0  # 关键词匹配的默认分数
            }
            for r in results
        ]

3.3 Chroma：轻量级嵌入式方案

import chromadb
from chromadb.config import Settings
from typing import Optional, List, Dict

class ChromaVectorStore:
    """Chroma向量存储管理"""
    
    def __init__(self, 
                 persist_directory: str = "./chroma_db",
                 collection_name: str = "knowledge_base"):
        
        self.client = chromadb.Client(Settings(
            chroma_db_impl="duckdb+parquet",
            persist_directory=persist_directory,
            anonymized_telemetry=False
        ))
        
        self.collection_name = collection_name
        self.collection = self._get_or_create_collection()
    
    def _get_or_create_collection(self):
        """获取或创建集合"""
        try:
            collection = self.client.get_collection(self.collection_name)
            print(f"加载现有集合: {self.collection_name}")
        except:
            # 创建新集合
            collection = self.client.create_collection(
                name=self.collection_name,
                metadata={"hnsw:space": "cosine"}  # 使用余弦相似度
            )
            print(f"创建新集合: {self.collection_name}")
        
        return collection
    
    def add_documents(self,
                     documents: List[str],
                     embeddings: List[List[float]],
                     metadatas: Optional[List[Dict]] = None,
                     ids: Optional[List[str]] = None):
        """添加文档到集合"""
        
        if ids is None:
            ids = [f"doc_{i}" for i in range(len(documents))]
        
        if metadatas is None:
            metadatas = [{} for _ in documents]
        
        # 批量添加
        batch_size = 100
        for i in range(0, len(documents), batch_size):
            batch_end = min(i + batch_size, len(documents))
            
            self.collection.add(
                embeddings=embeddings[i:batch_end],
                documents=documents[i:batch_end],
                metadatas=metadatas[i:batch_end],
                ids=ids[i:batch_end]
            )
        
        print(f"添加了 {len(documents)} 个文档")
    
    def query(self,
             query_embeddings: List[List[float]],
             n_results: int = 5,
             where: Optional[Dict] = None,
             where_document: Optional[Dict] = None) -> Dict:
        """查询相似文档"""
        
        results = self.collection.query(
            query_embeddings=query_embeddings,
            n_results=n_results,
            where=where,
            where_document=where_document
        )
        
        return results
    
    def semantic_search(self,
                       query: str,
                       query_embedding: List[float],
                       n_results: int = 5,
                       filter_metadata: Optional[Dict] = None) -> List[Dict]:
        """语义搜索"""
        
        # 查询向量
        vector_results = self.query(
            query_embeddings=[query_embedding],
            n_results=n_results * 2,
            where=filter_metadata
        )
        
        # 如果需要，可以结合关键词搜索
        keyword_results = self._keyword_search(query, n_results * 2)
        
        # 结果融合
        combined = self._combine_results(
            vector_results, 
            keyword_results,
            query_embedding
        )
        
        return combined[:n_results]

3.4 Redis Stack：生产级混合方案

// Java版本的Redis Stack向量存储实现
import io.redisearch.client.Client;
import io.redisearch.client.IndexDefinition;
import io.redisearch.Document;
import io.redisearch.Schema;
import io.redisearch.SearchResult;
import io.redisearch.Query;
import io.redisearch.aggregation.AggregationBuilder;
import redis.clients.jedis.JedisPooled;
import redis.clients.jedis.search.aggr.AggregationResult;

import java.util.*;

public class RedisVectorStore {
    
    private final JedisPooled jedis;
    private final String indexName;
    private final int vectorDimension;
    
    public RedisVectorStore(String host, int port, 
                           String indexName, int vectorDimension) {
        this.jedis = new JedisPooled(host, port);
        this.indexName = indexName;
        this.vectorDimension = vectorDimension;
        
        // 检查并创建索引
        createIndexIfNotExists();
    }
    
    private void createIndexIfNotExists() {
        try {
            // 尝试获取索引信息
            Map<String, Object> info = jedis.ftInfo(indexName);
            System.out.println("索引已存在: " + indexName);
        } catch (Exception e) {
            // 索引不存在，创建新索引
            createVectorIndex();
        }
    }
    
    private void createVectorIndex() {
        // 定义Schema
        Schema schema = new Schema()
            .addTextField("content", 1.0)
            .addTextField("source", 0.5)
            .addNumericField("chunk_id")
            .addVectorField("embedding", 
                Schema.VectorField.VectorAlgo.HNSW,
                Map.of(
                    "TYPE", "FLOAT32",
                    "DIM", String.valueOf(vectorDimension),
                    "DISTANCE_METRIC", "COSINE"
                )
            );
        
        // 创建索引定义
        IndexDefinition indexDefinition = new IndexDefinition()
            .setPrefixes(new String[]{"doc:"});
        
        // 创建索引
        try {
            jedis.ftCreate(indexName, indexDefinition, schema);
            System.out.println("创建向量索引: " + indexName);
        } catch (Exception e) {
            System.err.println("创建索引失败: " + e.getMessage());
        }
    }
    
    public void addDocument(String id, 
                           String content, 
                           float[] embedding,
                           Map<String, Object> metadata) {
        
        Map<String, Object> fields = new HashMap<>();
        fields.put("content", content);
        fields.put("embedding", embedding);
        
        // 添加元数据字段
        if (metadata != null) {
            metadata.forEach((key, value) -> {
                if (value instanceof String) {
                    fields.put(key, value);
                } else if (value instanceof Number) {
                    fields.put(key, value);
                }
            });
        }
        
        // 存储文档
        String key = "doc:" + id;
        jedis.hset(key, fields);
        
        // 添加TTL（可选）
        jedis.expire(key, 30 * 24 * 3600); // 30天过期
    }
    
    public List<SearchResult> vectorSearch(float[] queryEmbedding, 
                                          int topK,
                                          Map<String, Object> filters) {
        
        // 构建向量查询
        StringBuilder queryBuilder = new StringBuilder();
        
        // 添加过滤条件
        if (filters != null && !filters.isEmpty()) {
            filters.forEach((key, value) -> {
                if (value instanceof String) {
                    queryBuilder.append("@").append(key)
                               .append(":").append(value)
                               .append(" ");
                } else if (value instanceof Number) {
                    queryBuilder.append("@").append(key)
                               .append(":[")
                               .append(value)
                               .append(" ")
                               .append(value)
                               .append("] ");
                }
            });
        }
        
        // 添加向量搜索
        queryBuilder.append("=>[KNN ").append(topK)
                   .append(" @embedding $vector AS vector_score]");
        
        // 构建查询对象
        Query query = new Query(queryBuilder.toString())
            .addParam("vector", queryEmbedding)
            .setSortBy("vector_score", true)  // 按相似度排序
            .limit(0, topK)
            .dialect(2);  // 使用RediSearch 2.0方言
        
        // 执行查询
        io.redisearch.client.Client client = new Client(indexName, jedis);
        return client.search(query).docs;
    }
    
    public List<Document> hybridSearch(String queryText,
                                      float[] queryEmbedding,
                                      int topK,
                                      double alpha) {
        
        // 1. 向量搜索
        List<SearchResult> vectorResults = vectorSearch(queryEmbedding, topK * 2, null);
        
        // 2. 全文搜索
        List<SearchResult> textResults = textSearch(queryText, topK * 2);
        
        // 3. 结果融合
        return fuseResults(vectorResults, textResults, alpha, topK);
    }
    
    private List<SearchResult> textSearch(String query, int topK) {
        Query textQuery = new Query(query)
            .limit(0, topK)
            .highlightFields("content");
        
        io.redisearch.client.Client client = new Client(indexName, jedis);
        return client.search(textQuery).docs;
    }
    
    private List<Document> fuseResults(List<SearchResult> vectorResults,
                                      List<SearchResult> textResults,
                                      double alpha,
                                      int topK) {
        
        // 使用RRF（Reciprocal Rank Fusion）算法
        Map<String, Document> fusedResults = new LinkedHashMap<>();
        Map<String, Double> scores = new HashMap<>();
        
        // 融合向量搜索结果
        for (int i = 0; i < vectorResults.size(); i++) {
            SearchResult result = vectorResults.get(i);
            String id = result.getId();
            double rrfScore = 1.0 / (60 + i + 1);  // RRF公式
            scores.put(id, scores.getOrDefault(id, 0.0) + alpha * rrfScore);
            
            if (!fusedResults.containsKey(id)) {
                fusedResults.put(id, result);
            }
        }
        
        // 融合全文搜索结果
        for (int i = 0; i < textResults.size(); i++) {
            SearchResult result = textResults.get(i);
            String id = result.getId();
            double rrfScore = 1.0 / (60 + i + 1);
            scores.put(id, scores.getOrDefault(id, 0.0) + (1 - alpha) * rrfScore);
            
            if (!fusedResults.containsKey(id)) {
                fusedResults.put(id, result);
            }
        }
        
        // 按融合分数排序
        return fusedResults.values().stream()
            .sorted((a, b) -> 
                Double.compare(
                    scores.getOrDefault(b.getId(), 0.0),
                    scores.getOrDefault(a.getId(), 0.0)
                ))
            .limit(topK)
            .collect(Collectors.toList());
    }
}

3.5 向量数据库选型矩阵

四、检索优化：高级技巧与实战

4.1 混合检索策略

混合检索结合了密集向量检索和稀疏关键词检索的优势：

from rank_bm25 import BM25Okapi
import numpy as np
from typing import List, Tuple

class HybridRetriever:
    """混合检索器"""
    
    def __init__(self, 
                 vector_store,
                 bm25_weight: float = 0.3,
                 fusion_method: str = "rrf"):
        
        self.vector_store = vector_store
        self.bm25_weight = bm25_weight
        self.fusion_method = fusion_method
        
        # BM25索引
        self.bm25 = None
        self.documents = []
        self.doc_ids = []
    
    def build_bm25_index(self, documents: List[str], doc_ids: List[str]):
        """构建BM25索引"""
        self.documents = documents
        self.doc_ids = doc_ids
        
        # 中文分词（简化版）
        tokenized_docs = [self._tokenize_chinese(doc) for doc in documents]
        
        self.bm25 = BM25Okapi(tokenized_docs)
    
    def _tokenize_chinese(self, text: str) -> List[str]:
        """简单中文分词"""
        # 实际应用中应使用jieba等分词工具
        return list(text)
    
    def hybrid_search(self,
                     query: str,
                     query_embedding: List[float],
                     top_k: int = 10) -> List[dict]:
        """混合搜索"""
        
        # 1. 向量搜索
        vector_results = self.vector_store.search(
            query_embedding=query_embedding,
            top_k=top_k * 2
        )
        
        # 2. BM25关键词搜索
        bm25_results = self._bm25_search(query, top_k * 2)
        
        # 3. 结果融合
        if self.fusion_method == "rrf":
            fused_results = self._reciprocal_rank_fusion(
                vector_results, 
                bm25_results
            )
        elif self.fusion_method == "weighted":
            fused_results = self._weighted_score_fusion(
                vector_results,
                bm25_results
            )
        else:
            fused_results = self._simple_merge(vector_results, bm25_results)
        
        return fused_results[:top_k]
    
    def _bm25_search(self, query: str, top_k: int) -> List[dict]:
        """BM25搜索"""
        if not self.bm25:
            return []
        
        tokenized_query = self._tokenize_chinese(query)
        scores = self.bm25.get_scores(tokenized_query)
        
        # 获取top_k结果
        top_indices = np.argsort(scores)[::-1][:top_k]
        
        results = []
        for idx in top_indices:
            if scores[idx] > 0:
                results.append({
                    'id': self.doc_ids[idx],
                    'text': self.documents[idx],
                    'score': float(scores[idx]),
                    'type': 'bm25'
                })
        
        return results
    
    def _reciprocal_rank_fusion(self, 
                               results_a: List[dict],
                               results_b: List[dict],
                               k: int = 60) -> List[dict]:
        """Reciprocal Rank Fusion算法"""
        
        fused_scores = {}
        
        # 处理第一组结果
        for rank, result in enumerate(results_a):
            doc_id = result['id']
            rrf_score = 1.0 / (k + rank + 1)
            fused_scores[doc_id] = {
                'score': rrf_score,
                'data': result,
                'vector_rank': rank,
                'bm25_rank': None
            }
        
        # 处理第二组结果
        for rank, result in enumerate(results_b):
            doc_id = result['id']
            rrf_score = 1.0 / (k + rank + 1)
            
            if doc_id in fused_scores:
                fused_scores[doc_id]['score'] += rrf_score
                fused_scores[doc_id]['bm25_rank'] = rank
            else:
                fused_scores[doc_id] = {
                    'score': rrf_score,
                    'data': result,
                    'vector_rank': None,
                    'bm25_rank': rank
                }
        
        # 按融合分数排序
        sorted_results = sorted(
            fused_scores.items(),
            key=lambda x: x[1]['score'],
            reverse=True
        )
        
        return [item[1]['data'] for item in sorted_results]
    
    def _weighted_score_fusion(self,
                              vector_results: List[dict],
                              bm25_results: List[dict]) -> List[dict]:
        """加权分数融合"""
        
        # 归一化分数
        vector_scores = [r['score'] for r in vector_results]
        bm25_scores = [r['score'] for r in bm25_results]
        
        if vector_scores:
            max_vector = max(vector_scores)
            min_vector = min(vector_scores)
            vector_range = max_vector - min_vector if max_vector != min_vector else 1
        else:
            vector_range = 1
        
        if bm25_scores:
            max_bm25 = max(bm25_scores)
            min_bm25 = min(bm25_scores)
            bm25_range = max_bm25 - min_bm25 if max_bm25 != min_bm25 else 1
        else:
            bm25_range = 1
        
        # 创建分数映射
        vector_score_map = {}
        for result in vector_results:
            normalized_score = (result['score'] - min_vector) / vector_range
            vector_score_map[result['id']] = normalized_score
        
        bm25_score_map = {}
        for result in bm25_results:
            normalized_score = (result['score'] - min_bm25) / bm25_range
            bm25_score_map[result['id']] = normalized_score
        
        # 融合所有文档
        all_docs = {}
        for result in vector_results + bm25_results:
            doc_id = result['id']
            if doc_id not in all_docs:
                vector_score = vector_score_map.get(doc_id, 0)
                bm25_score = bm25_score_map.get(doc_id, 0)
                
                fused_score = (
                    (1 - self.bm25_weight) * vector_score +
                    self.bm25_weight * bm25_score
                )
                
                all_docs[doc_id] = {
                    'data': result,
                    'fused_score': fused_score
                }
        
        # 按融合分数排序
        sorted_docs = sorted(
            all_docs.values(),
            key=lambda x: x['fused_score'],
            reverse=True
        )
        
        return [item['data'] for item in sorted_docs]

4.2 重排序（Re-ranking）

重排序可以显著提升检索质量：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from typing import List

class Reranker:
    """重排序器"""
    
    def __init__(self, model_name: str = "BAAI/bge-reranker-large"):
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        
        # 加载模型和tokenizer
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForSequenceClassification.from_pretrained(model_name)
        self.model.to(self.device)
        self.model.eval()
    
    def rerank(self,
               query: str,
               documents: List[str],
               top_k: int = 5,
               batch_size: int = 16) -> List[dict]:
        """对文档进行重排序"""
        
        if not documents:
            return []
        
        # 准备查询-文档对
        pairs = [(query, doc) for doc in documents]
        
        all_scores = []
        
        # 分批处理
        for i in range(0, len(pairs), batch_size):
            batch_pairs = pairs[i:i+batch_size]
            
            # tokenize
            inputs = self.tokenizer(
                batch_pairs,
                padding=True,
                truncation=True,
                return_tensors='pt',
                max_length=512
            )
            
            # 移动到设备
            inputs = {k: v.to(self.device) for k, v in inputs.items()}
            
            # 推理
            with torch.no_grad():
                outputs = self.model(**inputs)
                scores = outputs.logits[:, 0].cpu().numpy()
            
            all_scores.extend(scores.tolist())
        
        # 组合结果
        results = []
        for doc, score in zip(documents, all_scores):
            results.append({
                'text': doc,
                'rerank_score': float(score)
            })
        
        # 按重排序分数排序
        results.sort(key=lambda x: x['rerank_score'], reverse=True)
        
        return results[:top_k]
    
    def cascade_reranking(self,
                         query: str,
                         documents: List[dict],
                         stages: int = 2) -> List[dict]:
        """级联重排序"""
        
        if stages < 1:
            return documents
        
        current_docs = documents
        
        for stage in range(stages):
            # 每个阶段使用不同的策略
            
            if stage == 0:
                # 第一阶段：快速粗排
                top_n = min(100, len(current_docs))
                texts = [doc['text'] for doc in current_docs[:top_n]]
                reranked = self.rerank(query, texts, top_k=top_n)
                
            elif stage == 1:
                # 第二阶段：精排
                top_n = min(20, len(current_docs))
                texts = [doc['text'] for doc in current_docs[:top_n]]
                reranked = self.rerank(query, texts, top_k=top_n, batch_size=4)
            
            # 更新文档分数
            reranked_map = {item['text']: item['rerank_score'] 
                           for item in reranked}
            
            for doc in current_docs:
                if doc['text'] in reranked_map:
                    doc['final_score'] = (
                        doc.get('vector_score', 0) * 0.3 +
                        doc.get('bm25_score', 0) * 0.2 +
                        reranked_map[doc['text']] * 0.5
                    )
                else:
                    doc['final_score'] = doc.get('vector_score', 0) * 0.5
        
        # 按最终分数排序
        current_docs.sort(key=lambda x: x.get('final_score', 0), reverse=True)
        
        return current_docs

4.3 查询扩展与改写

class QueryEnhancer:
    """查询增强器"""
    
    def __init__(self, llm_client):
        self.llm_client = llm_client
    
    def expand_query(self, original_query: str) -> List[str]:
        """查询扩展"""
        
        prompt = f"""请为以下查询生成3个相关的扩展查询，用于文档检索：

原始查询：{original_query}

扩展查询（每个查询一行）："""
        
        response = self.llm_client.complete(prompt)
        expanded_queries = [line.strip() for line in response.split('\n') 
                           if line.strip() and not line.startswith(('#', '//'))]
        
        # 添加原始查询
        expanded_queries.insert(0, original_query)
        
        return expanded_queries[:4]  # 最多4个查询
    
    def rewrite_query(self, query: str, history: List[str] = None) -> str:
        """查询改写（考虑对话历史）"""
        
        if not history:
            return query
        
        history_context = "\n".join(
            [f"用户：{q}\n助手：{a}" for q, a in history[-3:]]  # 最近3轮对话
        )
        
        prompt = f"""基于对话历史，将用户的最新查询改写为更完整、更适合检索的形式。

对话历史：
{history_context}

最新查询：{query}

改写后的查询："""
        
        rewritten = self.llm_client.complete(prompt)
        
        return rewritten.strip()
    
    def generate_hybrid_query(self, query: str) -> dict:
        """生成混合查询组件"""
        
        prompt = f"""分析以下查询，生成用于混合检索的组件：

查询：{query}

请提供：
1. 关键词（用逗号分隔）
2. 同义词扩展
3. 可能的拼写变体
4. 查询意图分类

格式：
关键词：xxx, xxx, xxx
同义词：xxx=yyy; xxx=zzz
变体：xxx, xxx
意图：信息检索/事实查询/比较分析/..."""

        response = self.llm_client.complete(prompt)
        
        components = {
            'original': query,
            'keywords': [],
            'synonyms': {},
            'variants': [],
            'intent': 'information_retrieval'
        }
        
        # 解析响应
        for line in response.split('\n'):
            if line.startswith('关键词：'):
                components['keywords'] = [k.strip() 
                                        for k in line[4:].split(',')]
            elif line.startswith('同义词：'):
                pairs = line[4:].split(';')
                for pair in pairs:
                    if '=' in pair:
                        k, v = pair.split('=', 1)
                        components['synonyms'][k.strip()] = v.strip()
            elif line.startswith('变体：'):
                components['variants'] = [v.strip() 
                                         for v in line[4:].split(',')]
            elif line.startswith('意图：'):
                components['intent'] = line[4:].strip()
        
        return components

4.4 完整的RAG优化流水线

class OptimizedRAGPipeline:
    """优化的RAG流水线"""
    
    def __init__(self, 
                 embedder,
                 vector_store,
                 llm_client,
                 reranker=None,
                 query_enhancer=None):
        
        self.embedder = embedder
        self.vector_store = vector_store
        self.llm_client = llm_client
        self.reranker = reranker
        self.query_enhancer = query_enhancer
        
        # 检索配置
        self.retrieval_config = {
            'top_k_initial': 50,
            'top_k_final': 5,
            'use_reranking': True,
            'use_hybrid': True,
            'hybrid_alpha': 0.7,
            'expand_queries': False
        }
    
    def retrieve(self, 
                query: str,
                conversation_history: List[Tuple[str, str]] = None) -> List[dict]:
        """检索相关文档"""
        
        # 1. 查询增强
        if self.query_enhancer and self.retrieval_config['expand_queries']:
            if conversation_history:
                query = self.query_enhancer.rewrite_query(query, conversation_history)
            
            expanded_queries = self.query_enhancer.expand_query(query)
        else:
            expanded_queries = [query]
        
        all_results = []
        
        # 2. 多查询检索
        for q in expanded_queries:
            # 生成查询向量
            query_embedding = self.embedder.encode(q)
            
            if self.retrieval_config['use_hybrid']:
                # 混合检索
                results = self.vector_store.hybrid_search(
                    query_text=q,
                    query_embedding=query_embedding,
                    top_k=self.retrieval_config['top_k_initial'],
                    alpha=self.retrieval_config['hybrid_alpha']
                )
            else:
                # 纯向量检索
                results = self.vector_store.search_similar(
                    query_embedding=query_embedding,
                    top_k=self.retrieval_config['top_k_initial']
                )
            
            # 标记查询来源
            for r in results:
                r['source_query'] = q
            
            all_results.extend(results)
        
        # 3. 去重
        unique_results = self._deduplicate_results(all_results)
        
        # 4. 重排序
        if self.reranker and self.retrieval_config['use_reranking']:
            texts = [r['text'] for r in unique_results]
            reranked = self.reranker.rerank(
                query=query,
                documents=texts,
                top_k=min(len(texts), self.retrieval_config['top_k_initial'] * 2)
            )
            
            # 更新分数
            reranked_map = {item['text']: item['rerank_score'] 
                           for item in reranked}
            
            for result in unique_results:
                if result['text'] in reranked_map:
                    result['final_score'] = (
                        result.get('score', 0) * 0.4 +
                        reranked_map[result['text']] * 0.6
                    )
                else:
                    result['final_score'] = result.get('score', 0)
            
            # 按最终分数排序
            unique_results.sort(key=lambda x: x.get('final_score', 0), reverse=True)
        
        # 5. 返回top_k结果
        return unique_results[:self.retrieval_config['top_k_final']]
    
    def generate(self,
                query: str,
                retrieved_docs: List[dict],
                generation_config: dict = None) -> str:
        """生成回答"""
        
        if not retrieved_docs:
            return "抱歉，我没有找到相关的信息。"
        
        # 构建上下文
        context = self._build_context(retrieved_docs)
        
        # 准备prompt
        prompt = self._construct_prompt(query, context, generation_config)
        
        # 生成回答
        response = self.llm_client.complete(
            prompt,
            temperature=generation_config.get('temperature', 0.1),
            max_tokens=generation_config.get('max_tokens', 1000)
        )
        
        # 添加引用
        response_with_citations = self._add_citations(response, retrieved_docs)
        
        return response_with_citations
    
    def _build_context(self, docs: List[dict]) -> str:
        """构建上下文"""
        context_parts = []
        
        for i, doc in enumerate(docs, 1):
            source = doc.get('source', '未知来源')
            chunk_id = doc.get('chunk_id', '')
            
            context_parts.append(
                f"[文档{i}] 来源：{source} (片段{chunk_id})\n"
                f"内容：{doc['text'][:500]}..."  # 限制长度
            )
        
        return "\n\n".join(context_parts)
    
    def _construct_prompt(self, 
                         query: str, 
                         context: str,
                         config: dict = None) -> str:
        """构造prompt"""
        
        template = """请基于以下提供的参考文档，回答用户的问题。

参考文档：
{context}

用户问题：{query}

请遵守以下要求：
1. 只基于参考文档中的信息回答
2. 如果文档中没有相关信息，请说明不知道
3. 保持回答专业、准确
4. 在回答中引用相关文档的编号，格式如[文档1]

回答："""
        
        return template.format(context=context, query=query)
    
    def _add_citations(self, response: str, docs: List[dict]) -> str:
        """添加引用标注"""
        # 这里可以更智能地匹配引用
        if '[文档' in response:
            return response
        
        # 简单添加引用
        sources = set(doc.get('source', '') for doc in docs)
        if sources:
            source_str = "、".join([s for s in sources if s])
            if source_str:
                response += f"\n\n（信息来源：{source_str}）"
        
        return response
    
    def _deduplicate_results(self, results: List[dict]) -> List[dict]:
        """结果去重"""
        seen_texts = set()
        unique_results = []
        
        for result in results:
            text = result['text']
            
            # 简单去重：基于文本相似度
            is_duplicate = False
            for seen_text in seen_texts:
                similarity = self._text_similarity(text, seen_text)
                if similarity > 0.9:  # 相似度阈值
                    is_duplicate = True
                    break
            
            if not is_duplicate:
                seen_texts.add(text)
                unique_results.append(result)
        
        return unique_results
    
    def _text_similarity(self, text1: str, text2: str) -> float:
        """计算文本相似度（简化版）"""
        # 实际应用中可以使用更复杂的相似度计算
        words1 = set(text1.split())
        words2 = set(text2.split())
        
        if not words1 or not words2:
            return 0.0
        
        intersection = len(words1 & words2)
        union = len(words1 | words2)
        
        return intersection / union if union > 0 else 0.0

五、企业级私有知识库架构设计

5.1 完整架构设计

5.2 生产环境部署架构

// Java版本的RAG微服务架构
@RestController
@RequestMapping("/api/rag")
public class RAGController {
    
    @Autowired
    private DocumentIngestionService ingestionService;
    
    @Autowired
    private RetrievalService retrievalService;
    
    @Autowired
    private GenerationService generationService;
    
    @Autowired
    private MonitoringService monitoringService;
    
    @PostMapping("/ingest")
    public ResponseEntity<ApiResponse> ingestDocuments(
            @RequestBody IngestRequest request) {
        
        long startTime = System.currentTimeMillis();
        
        try {
            // 1. 文档摄取
            List<Document> documents = ingestionService.process(request);
            
            // 2. 异步向量化
            CompletableFuture<List<Embedding>> embeddingsFuture = 
                ingestionService.vectorizeAsync(documents);
            
            // 3. 存储到向量数据库
            embeddingsFuture.thenAccept(embeddings -> {
                ingestionService.storeToVectorDB(documents, embeddings);
            });
            
            // 记录指标
            monitoringService.recordIngestion(
                documents.size(),
                System.currentTimeMillis() - startTime
            );
            
            return ResponseEntity.ok(ApiResponse.success("文档摄取开始"));
            
        } catch (Exception e) {
            monitoringService.recordError("ingest", e);
            return ResponseEntity.status(500)
                .body(ApiResponse.error("摄取失败: " + e.getMessage()));
        }
    }
    
    @PostMapping("/query")
    public ResponseEntity<ApiResponse> query(
            @RequestBody QueryRequest request,
            @RequestHeader("Authorization") String authToken) {
        
        // 1. 认证授权
        if (!authService.validateToken(authToken)) {
            return ResponseEntity.status(401)
                .body(ApiResponse.error("未授权"));
        }
        
        // 2. 权限检查
        if (!permissionService.canQuery(request.getUserId(), request.getCollection())) {
            return ResponseEntity.status(403)
                .body(ApiResponse.error("无权限访问该知识库"));
        }
        
        long startTime = System.currentTimeMillis();
        
        try {
            // 3. 检索
            List<RetrievedDocument> retrieved = retrievalService.retrieve(
                request.getQuery(),
                request.getFilters(),
                request.getTopK()
            );
            
            // 4. 生成
            String answer = generationService.generate(
                request.getQuery(),
                retrieved,
                request.getGenerationConfig()
            );
            
            // 5. 记录审计日志
            auditService.logQuery(
                request.getUserId(),
                request.getQuery(),
                retrieved,
                answer
            );
            
            // 6. 记录性能指标
            long latency = System.currentTimeMillis() - startTime;
            monitoringService.recordQueryLatency(latency);
            
            QueryResponse response = new QueryResponse(answer, retrieved, latency);
            
            return ResponseEntity.ok(ApiResponse.success(response));
            
        } catch (Exception e) {
            monitoringService.recordError("query", e);
            return ResponseEntity.status(500)
                .body(ApiResponse.error("查询失败: " + e.getMessage()));
        }
    }
    
    @GetMapping("/health")
    public ResponseEntity<HealthCheckResponse> healthCheck() {
        HealthCheckResponse health = new HealthCheckResponse();
        
        // 检查各组件健康状态
        health.setVectorDbHealthy(vectorDbHealthCheck());
        health.setEmbeddingServiceHealthy(embeddingHealthCheck());
        health.setLlmServiceHealthy(llmHealthCheck());
        health.setCacheHealthy(cacheHealthCheck());
        
        boolean overallHealth = health.isOverallHealthy();
        
        return overallHealth ? 
            ResponseEntity.ok(health) :
            ResponseEntity.status(503).body(health);
    }
}

5.3 性能监控与优化

# 性能监控系统
from prometheus_client import Counter, Histogram, Gauge
import time
from dataclasses import dataclass
from typing import Dict, Any

@dataclass
class RAGMetrics:
    """RAG性能指标"""
    
    # 计数器
    queries_total = Counter('rag_queries_total', '总查询数')
    documents_ingested = Counter('rag_documents_ingested', '文档摄取数')
    errors_total = Counter('rag_errors_total', '错误总数', ['error_type'])
    
    # 直方图
    query_latency = Histogram('rag_query_latency_seconds', '查询延迟')
    embedding_latency = Histogram('rag_embedding_latency_seconds', '向量化延迟')
    retrieval_latency = Histogram('rag_retrieval_latency_seconds', '检索延迟')
    generation_latency = Histogram('rag_generation_latency_seconds', '生成延迟')
    
    # 仪表盘
    active_connections = Gauge('rag_active_connections', '活跃连接数')
    queue_size = Gauge('rag_queue_size', '处理队列大小')
    cache_hit_rate = Gauge('rag_cache_hit_rate', '缓存命中率')
    
    @classmethod
    def record_query(cls, latency: float, success: bool):
        """记录查询指标"""
        cls.queries_total.inc()
        cls.query_latency.observe(latency)
        
        if not success:
            cls.errors_total.labels(error_type='query').inc()
    
    @classmethod
    def record_retrieval(cls, 
                        latency: float,
                        num_docs: int,
                        cache_hit: bool):
        """记录检索指标"""
        cls.retrieval_latency.observe(latency)
        
        if cache_hit:
            cls.cache_hit_rate.set(cls._calculate_hit_rate())

class PerformanceOptimizer:
    """性能优化器"""
    
    def __init__(self, config: Dict[str, Any]):
        self.config = config
        self.metrics = RAGMetrics()
        self.performance_data = []
    
    def optimize_parameters(self) -> Dict[str, Any]:
        """自动优化参数"""
        
        optimal_params = {
            'chunk_size': 512,
            'overlap': 50,
            'top_k': 10,
            'batch_size': 32,
            'cache_ttl': 3600
        }
        
        # 基于历史数据调整
        if self.performance_data:
            avg_latency = np.mean([d['latency'] for d in self.performance_data])
            accuracy = np.mean([d['accuracy'] for d in self.performance_data])
            
            # 根据延迟调整参数
            if avg_latency > 2.0:  # 延迟超过2秒
                optimal_params['top_k'] = max(5, optimal_params['top_k'] - 2)
                optimal_params['batch_size'] = max(16, optimal_params['batch_size'] // 2)
            
            # 根据准确率调整参数
            if accuracy < 0.7:  # 准确率低于70%
                optimal_params['top_k'] = min(20, optimal_params['top_k'] + 5)
        
        return optimal_params
    
    def auto_scale(self, 
                  current_load: float,
                  system_resources: Dict[str, float]) -> Dict[str, Any]:
        """自动伸缩策略"""
        
        scaling_actions = {
            'scale_embedding_workers': False,
            'scale_retrieval_instances': False,
            'adjust_cache_size': False,
            'new_cache_size': None
        }
        
        # CPU使用率超过80%
        if system_resources.get('cpu_percent', 0) > 80:
            scaling_actions['scale_retrieval_instances'] = True
        
        # 内存使用率超过75%
        if system_resources.get('memory_percent', 0) > 75:
            scaling_actions['adjust_cache_size'] = True
            # 减少缓存大小
            new_size = max(100, system_resources.get('cache_size_mb', 1000) * 0.8)
            scaling_actions['new_cache_size'] = int(new_size)
        
        # 查询队列积压
        queue_size = self.metrics.queue_size._value.get()
        if queue_size > 100:
            scaling_actions['scale_embedding_workers'] = True
            scaling_actions['scale_retrieval_instances'] = True
        
        return scaling_actions
    
    def quality_assurance(self, 
                         query: str,
                         retrieved_docs: List[Dict],
                         generated_answer: str) -> Dict[str, Any]:
        """质量保证检查"""
        
        qa_results = {
            'has_relevant_docs': False,
            'answer_grounded': True,
            'hallucination_score': 0.0,
            'confidence_score': 0.0
        }
        
        # 1. 检查是否有相关文档
        if retrieved_docs:
            relevance_scores = [doc.get('score', 0) for doc in retrieved_docs]
            max_relevance = max(relevance_scores) if relevance_scores else 0
            
            qa_results['has_relevant_docs'] = max_relevance > 0.6
            qa_results['confidence_score'] = max_relevance
        
        # 2. 检查答案是否基于文档
        # 这里可以使用NLI模型或简单的文本匹配
        answer_lower = generated_answer.lower()
        
        for doc in retrieved_docs:
            doc_lower = doc.get('text', '').lower()
            # 简单检查：答案中的关键词是否出现在文档中
            important_words = self._extract_keywords(answer_lower)
            doc_words = set(doc_lower.split())
            
            matches = sum(1 for word in important_words if word in doc_words)
            match_ratio = matches / len(important_words) if important_words else 0
            
            if match_ratio < 0.3:
                qa_results['answer_grounded'] = False
                qa_results['hallucination_score'] = 1 - match_ratio
                break
        
        # 3. 记录质量指标
        if not qa_results['answer_grounded']:
            self.metrics.errors_total.labels(error_type='hallucination').inc()
        
        return qa_results

六、实战案例：企业级知识库构建

6.1 完整实现示例

# config.yaml
# RAG系统配置
system:
  name: "企业知识库系统"
  version: "1.0.0"
  environment: "production"

data_sources:
  - type: "filesystem"
    path: "./docs"
    file_types: [".pdf", ".docx", ".txt", ".md"]
    
  - type: "database"
    connection_string: "${DB_CONNECTION_STRING}"
    tables: ["knowledge_base", "faq", "policies"]
    
  - type: "confluence"
    url: "https://confluence.company.com"
    spaces: ["技术文档", "产品说明"]

embedding:
  model: "BAAI/bge-large-zh-v1.5"
  dimension: 1024
  device: "cuda"
  batch_size: 32
  normalize: true
  cache_enabled: true
  cache_ttl: 86400  # 24小时

vector_database:
  type: "milvus"
  host: "localhost"
  port: 19530
  collection_name: "corporate_knowledge"
  index_params:
    metric_type: "IP"
    index_type: "IVF_FLAT"
    nlist: 1024
  search_params:
    nprobe: 16
    top_k: 50

retrieval:
  strategy: "hybrid"
  hybrid_alpha: 0.7
  use_reranking: true
  reranker_model: "BAAI/bge-reranker-large"
  expand_queries: true
  deduplication: true
  
generation:
  model: "gpt-4"
  temperature: 0.1
  max_tokens: 1000
  system_prompt: |
    你是一个专业的企业知识库助手。请基于提供的文档回答问题。
    如果文档中没有相关信息，请明确说明不知道。
    在回答中引用相关文档的编号。
  citation_format: "[文档{index}]"

monitoring:
  enabled: true
  metrics_port: 9090
  log_level: "INFO"
  alert_rules:
    - metric: "query_latency_seconds"
      threshold: 5.0
      duration: "5m"
      severity: "warning"
      
    - metric: "error_rate"
      threshold: 0.05
      duration: "10m"
      severity: "critical"

security:
  authentication: true
  authorization: true
  encryption:
    at_rest: true
    in_transit: true
  audit_logging: true

scaling:
  auto_scaling: true
  min_instances: 2
  max_instances: 10
  scale_up_threshold: 80  # CPU使用率
  scale_down_threshold: 30

# main.py
# 企业级RAG系统主程序
import yaml
import logging
from typing import Optional
from dataclasses import dataclass
from datetime import datetime

@dataclass
class RAGSystemConfig:
    """RAG系统配置"""
    embedding_model: str
    vector_db_type: str
    retrieval_strategy: str
    generation_model: str
    security_enabled: bool
    monitoring_enabled: bool

class EnterpriseRAGSystem:
    """企业级RAG系统"""
    
    def __init__(self, config_path: str = "config.yaml"):
        self.config = self._load_config(config_path)
        self.logger = self._setup_logging()
        self.components = self._initialize_components()
        
        self.logger.info(f"RAG系统初始化完成: {self.config['system']['name']}")
    
    def _load_config(self, config_path: str) -> dict:
        """加载配置文件"""
        with open(config_path, 'r', encoding='utf-8') as f:
            config = yaml.safe_load(f)
        
        # 环境变量替换
        config = self._replace_env_vars(config)
        
        return config
    
    def _setup_logging(self) -> logging.Logger:
        """设置日志"""
        logger = logging.getLogger("EnterpriseRAG")
        logger.setLevel(self.config['monitoring']['log_level'].upper())
        
        # 文件处理器
        file_handler = logging.FileHandler(
            f"rag_system_{datetime.now().strftime('%Y%m%d')}.log"
        )
        file_formatter = logging.Formatter(
            '%(asctime)s - %(name)s - %(levelname)s - %(message)s'
        )
        file_handler.setFormatter(file_formatter)
        logger.addHandler(file_handler)
        
        # 控制台处理器
        console_handler = logging.StreamHandler()
        console_handler.setFormatter(file_formatter)
        logger.addHandler(console_handler)
        
        return logger
    
    def _initialize_components(self) -> dict:
        """初始化系统组件"""
        components = {}
        
        try:
            # 1. 初始化文档处理器
            components['document_processor'] = MultiSourceDocumentLoader(
                config=self.config['data_sources']
            )
            
            # 2. 初始化文本分割器
            components['text_splitter'] = IntelligentTextSplitter(
                chunk_size=512,
                overlap=50
            )
            
            # 3. 初始化嵌入模型
            components['embedder'] = EmbeddingModelManager(
                model_name=self.config['embedding']['model'],
                device=self.config['embedding']['device']
            )
            
            # 4. 初始化向量数据库
            vector_db_config = self.config['vector_database']
            if vector_db_config['type'] == 'milvus':
                components['vector_store'] = MilvusVectorStore(
                    host=vector_db_config['host'],
                    port=vector_db_config['port'],
                    collection_name=vector_db_config['collection_name']
                )
            elif vector_db_config['type'] == 'chroma':
                components['vector_store'] = ChromaVectorStore(
                    persist_directory="./chroma_db",
                    collection_name=vector_db_config['collection_name']
                )
            
            # 5. 初始化检索器
            components['retriever'] = HybridRetriever(
                vector_store=components['vector_store'],
                bm25_weight=self.config['retrieval'].get('hybrid_alpha', 0.3)
            )
            
            # 6. 初始化重排序器
            if self.config['retrieval']['use_reranking']:
                components['reranker'] = Reranker(
                    model_name=self.config['retrieval']['reranker_model']
                )
            
            # 7. 初始化LLM客户端
            generation_config = self.config['generation']
            components['llm_client'] = LLMClient(
                model=generation_config['model'],
                temperature=generation_config['temperature'],
                system_prompt=generation_config['system_prompt']
            )
            
            # 8. 初始化监控
            if self.config['monitoring']['enabled']:
                components['monitor'] = RAGMonitor(
                    config=self.config['monitoring']
                )
            
            self.logger.info("所有组件初始化成功")
            
        except Exception as e:
            self.logger.error(f"组件初始化失败: {e}")
            raise
        
        return components
    
    def ingest_documents(self, 
                        source_path: Optional[str] = None,
                        incremental: bool = True) -> dict:
        """文档摄取"""
        
        self.logger.info(f"开始文档摄取: {source_path}")
        start_time = datetime.now()
        
        try:
            # 1. 加载文档
            if source_path:
                documents = self.components['document_processor'].load_documents(source_path)
            else:
                # 使用配置的数据源
                documents = []
                for source in self.config['data_sources']:
                    docs = self.components['document_processor'].load_from_source(source)
                    documents.extend(docs)
            
            self.logger.info(f"加载了 {len(documents)} 个文档")
            
            # 2. 文档分块
            all_chunks = []
            for doc in documents:
                chunks = self.components['text_splitter'].split_document(doc)
                all_chunks.extend(chunks)
            
            self.logger.info(f"分块后得到 {len(all_chunks)} 个文本块")
            
            # 3. 向量化
            texts = [chunk.page_content for chunk in all_chunks]
            embeddings = self.components['embedder'].encode(
                texts,
                batch_size=self.config['embedding']['batch_size']
            )
            
            # 4. 存储到向量数据库
            metadatas = [chunk.metadata for chunk in all_chunks]
            
            if isinstance(self.components['vector_store'], MilvusVectorStore):
                doc_ids = self.components['vector_store'].insert_documents(
                    texts=texts,
                    embeddings=embeddings.tolist(),
                    metadatas=metadatas
                )
            else:
                doc_ids = list(range(len(texts)))
                self.components['vector_store'].add_documents(
                    documents=texts,
                    embeddings=embeddings.tolist(),
                    metadatas=metadatas,
                    ids=[str(i) for i in doc_ids]
                )
            
            # 5. 构建BM25索引（用于混合检索）
            self.components['retriever'].build_bm25_index(texts, [str(i) for i in doc_ids])
            
            # 记录指标
            duration = (datetime.now() - start_time).total_seconds()
            self.logger.info(f"文档摄取完成，耗时: {duration:.2f}秒")
            
            if self.config['monitoring']['enabled']:
                self.components['monitor'].record_ingestion(
                    num_documents=len(documents),
                    num_chunks=len(all_chunks),
                    duration=duration
                )
            
            return {
                'success': True,
                'num_documents': len(documents),
                'num_chunks': len(all_chunks),
                'duration': duration,
                'document_ids': doc_ids
            }
            
        except Exception as e:
            self.logger.error(f"文档摄取失败: {e}")
            
            if self.config['monitoring']['enabled']:
                self.components['monitor'].record_error('ingestion', e)
            
            return {
                'success': False,
                'error': str(e)
            }
    
    def query(self, 
             question: str,
             user_id: Optional[str] = None,
             filters: Optional[dict] = None,
             top_k: int = 5) -> dict:
        """查询知识库"""
        
        self.logger.info(f"收到查询: {question}")
        start_time = datetime.now()
        
        try:
            # 安全检查
            if self.config['security']['authentication'] and not user_id:
                raise ValueError("需要用户认证")
            
            # 1. 检索相关文档
            retrieval_start = datetime.now()
            
            # 生成查询向量
            query_embedding = self.components['embedder'].encode(question)
            
            # 执行检索
            if self.config['retrieval']['strategy'] == 'hybrid':
                retrieved = self.components['retriever'].hybrid_search(
                    query=question,
                    query_embedding=query_embedding,
                    top_k=top_k * 2
                )
            else:
                retrieved = self.components['vector_store'].search_similar(
                    query_embedding=query_embedding,
                    top_k=top_k * 2,
                    filter_expr=self._build_filter_expr(filters)
                )
            
            retrieval_duration = (datetime.now() - retrieval_start).total_seconds()
            
            # 2. 重排序（如果启用）
            if (self.config['retrieval']['use_reranking'] and 
                'reranker' in self.components):
                
                rerank_start = datetime.now()
                texts = [doc['text'] for doc in retrieved]
                reranked = self.components['reranker'].rerank(
                    query=question,
                    documents=texts,
                    top_k=top_k
                )
                
                # 更新结果
                reranked_map = {item['text']: item['rerank_score'] 
                               for item in reranked}
                
                for doc in retrieved:
                    if doc['text'] in reranked_map:
                        doc['final_score'] = (
                            doc.get('score', 0) * 0.4 +
                            reranked_map[doc['text']] * 0.6
                        )
                    else:
                        doc['final_score'] = doc.get('score', 0)
                
                # 按最终分数排序
                retrieved.sort(key=lambda x: x.get('final_score', 0), reverse=True)
                retrieval_duration += (datetime.now() - rerank_start).total_seconds()
            
            # 取top_k结果
            final_results = retrieved[:top_k]
            
            # 3. 生成回答
            generation_start = datetime.now()
            
            answer = self.components['llm_client'].generate(
                question=question,
                context=final_results,
                system_prompt=self.config['generation']['system_prompt']
            )
            
            generation_duration = (datetime.now() - generation_start).total_seconds()
            
            # 4. 质量检查
            qa_results = self._quality_assurance(question, final_results, answer)
            
            # 5. 添加引用
            answer_with_citations = self._add_citations(
                answer, 
                final_results,
                self.config['generation']['citation_format']
            )
            
            # 总耗时
            total_duration = (datetime.now() - start_time).total_seconds()
            
            # 记录指标
            if self.config['monitoring']['enabled']:
                self.components['monitor'].record_query(
                    query=question,
                    retrieval_latency=retrieval_duration,
                    generation_latency=generation_duration,
                    total_latency=total_duration,
                    num_documents_retrieved=len(final_results),
                    has_relevant_docs=qa_results['has_relevant_docs']
                )
            
            # 审计日志
            if self.config['security']['audit_logging']:
                self._log_audit(
                    user_id=user_id,
                    query=question,
                    answer=answer_with_citations,
                    retrieved_docs=final_results,
                    duration=total_duration
                )
            
            self.logger.info(f"查询完成，总耗时: {total_duration:.2f}秒")
            
            return {
                'success': True,
                'answer': answer_with_citations,
                'documents': final_results,
                'metrics': {
                    'total_latency': total_duration,
                    'retrieval_latency': retrieval_duration,
                    'generation_latency': generation_duration,
                    'quality_check': qa_results
                }
            }
            
        except Exception as e:
            self.logger.error(f"查询失败: {e}")
            
            if self.config['monitoring']['enabled']:
                self.components['monitor'].record_error('query', e)
            
            return {
                'success': False,
                'error': str(e),
                'answer': "抱歉，处理您的查询时出现了问题。"
            }
    
    def _quality_assurance(self, 
                          query: str,
                          documents: List[dict],
                          answer: str) -> dict:
        """质量保证检查"""
        
        # 这里实现具体的质量检查逻辑
        return {
            'has_relevant_docs': len(documents) > 0,
            'answer_grounded': True,
            'hallucination_score': 0.0,
            'confidence_score': documents[0]['score'] if documents else 0.0
        }
    
    def _add_citations(self, 
                      answer: str,
                      documents: List[dict],
                      format_str: str) -> str:
        """添加引用标注"""
        
        if not documents:
            return answer
        
        # 提取引用
        citations = []
        for i, doc in enumerate(documents, 1):
            source = doc.get('source', '未知来源')
            citations.append(format_str.format(index=i, source=source))
        
        # 添加到回答末尾
        if citations:
            answer += "\n\n参考资料：\n" + "\n".join(citations)
        
        return answer
    
    def _log_audit(self, 
                  user_id: str,
                  query: str,
                  answer: str,
                  retrieved_docs: List[dict],
                  duration: float):
        """记录审计日志"""
        
        audit_entry = {
            'timestamp': datetime.now().isoformat(),
            'user_id': user_id,
            'query': query,
            'answer_length': len(answer),
            'num_docs_retrieved': len(retrieved_docs),
            'duration': duration,
            'sources': [doc.get('source') for doc in retrieved_docs]
        }
        
        # 写入审计日志文件或数据库
        audit_file = f"audit_{datetime.now().strftime('%Y%m')}.log"
        with open(audit_file, 'a', encoding='utf-8') as f:
            f.write(json.dumps(audit_entry, ensure_ascii=False) + '\n')
    
    def _build_filter_expr(self, filters: Optional[dict]) -> Optional[str]:
        """构建过滤表达式"""
        if not filters:
            return None
        
        expressions = []
        for key, value in filters.items():
            if isinstance(value, str):
                expressions.append(f"{key} == '{value}'")
            elif isinstance(value, (int, float)):
                expressions.append(f"{key} == {value}")
            elif isinstance(value, list):
                if all(isinstance(v, str) for v in value):
                    values_str = ", ".join([f"'{v}'" for v in value])
                    expressions.append(f"{key} in [{values_str}]")
        
        return " and ".join(expressions) if expressions else None

# 使用示例
if __name__ == "__main__":
    # 初始化系统
    rag_system = EnterpriseRAGSystem("config.yaml")
    
    # 文档摄取
    ingestion_result = rag_system.ingest_documents("./企业文档")
    print(f"文档摄取结果: {ingestion_result}")
    
    # 查询示例
    question = "我们公司的请假政策是什么？"
    result = rag_system.query(
        question=question,
        user_id="user123",
        filters={"department": "人力资源"},
        top_k=3
    )
    
    if result['success']:
        print(f"问题: {question}")
        print(f"回答: {result['answer']}")
        print(f"耗时: {result['metrics']['total_latency']:.2f}秒")
    else:
        print(f"查询失败: {result['error']}")

七、总结与展望

通过本文的深入解析，我们系统地探讨了RAG技术的核心组件和实现细节。从文档处理到向量化，从数据库选型到检索优化，我们构建了一个完整的企业级私有知识库解决方案。

关键收获：

RAG工作流：理解了文档加载→智能分块→文本向量化→检索→生成的完整流程
向量化选型：掌握了根据业务需求选择合适嵌入模型的方法
数据库实战：学会了Milvus、Chroma、Redis Stack等向量数据库的应用场景
检索优化：掌握了混合检索、重排序、查询扩展等高级技巧

未来趋势：

多模态RAG：结合图像、视频、音频等多模态信息
增量学习：支持知识库的持续学习和更新
联邦学习：在保护隐私的前提下实现跨机构知识共享
自主优化：基于强化学习的RAG参数自动调优

企业实践建议：

从小规模开始：先用小规模数据验证技术路线
重视数据质量：垃圾进，垃圾出，数据质量决定系统上限
建立评估体系：制定明确的评估指标和测试用例
考虑成本效益：平衡精度、速度和成本的三角关系

RAG技术正在快速发展，为企业知识管理提供了全新的可能性。通过本文的指导，您可以构建出既强大又实用的私有知识库系统，真正解决大模型的知识过期和幻觉问题。

技术永无止境，创新源于实践。 希望本文能为您在RAG领域的探索提供有力的支持，期待您构建出更加智能、更加可靠的企业级知识库系统！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

DLL文件缺失修复教程，DirectX Repair增强版，DLL修复工具，DirectX 运行库修复工具

系统提示msvcp140.dll丢失vcruntime140.dll丢失msvcr100.dll丢失mfc140u.dll丢失怎么办？其他DLL错误修复本程序适用于多个操作系统，如Windows XP、Windows Vista、Windows 7、Windows 8、Windows 8.1、Windows 8.1 Update、Windows 10、Windows 11，同时兼容32位操作系统