大模型知识库：构建AI时代的企业智能底座

大模型知识库技术架构与应用实践本文系统介绍了大模型知识库的技术架构与行业应用。核心内容包括：1)四层技术架构体系(数据接入层、知识存储层、处理层、应用层)；2)关键技术实现(RAG增强生成、知识图谱融合、混合推理引擎)；3)五大应用场景(智能客服、医疗诊断、企业知识管理、金融风控、教育培训)；4)开发者实践指南。文章指出大模型知识库正在推动知识管理从被动存储向主动服务的范式转变，通过将大语言模型

岱宗夫up

1336人浏览 · 2026-02-04 15:02:07

岱宗夫up · 2026-02-04 15:02:07 发布

一、引言：知识管理的范式革命

在数字化转型的深水区，企业正面临前所未有的知识管理挑战。据IDC 2025年全球知识管理调研显示，83%的企业因知识断层导致决策失误，传统知识库的静态存储模式已无法满足实时响应需求。

大模型知识库应运而生，它不仅是技术的简单叠加，更是知识管理范式的根本性变革。通过将大语言模型（LLM）的强大理解生成能力与企业结构化知识深度结合，大模型知识库正在从"被动存储"转向"主动服务"，成为企业智能化转型的神经中枢。

核心价值定位：

• 精准性：通过检索增强生成（RAG）技术，将大模型幻觉率从30%-40%降至 10%-15%

• 实时性：知识更新周期从人工维护的15天缩短至24小时

• 可控性：通过知识图谱的结构化约束，实现答案的可追溯与可审计

• 智能化：从关键词检索升级为语义级理解，支持复杂推理与决策支持

二、技术架构：四层协同的系统设计

大模型知识库的典型架构采用四层设计模式，每一层都承担着关键的技术职责，共同构建完整的知识处理闭环。

2.1 数据接入层：多源异构数据统一化

核心挑战：企业数据分散在PDF、Word、数据库、网页、IM记录等多种来源，格式复杂、质量参差不齐。

技术方案：

# 多源数据接入管道示例
class DataIngestionPipeline:
    def __init__(self):
        self.pdf_parser = PDFParser()
        self.doc_parser = DocxParser()
        self.web_crawler = WebCrawler()
        self.db_connector = DatabaseConnector()
    def ingest(self, source_type, source_path):
        """统一数据接入接口"""
        if source_type == 'pdf':
            return self.pdf_parser.parse(source_path)
        elif source_type == 'docx':
            return self.doc_parser.parse(source_path)
        elif source_type == 'web':
            return self.web_crawler.crawl(source_path)
        elif source_type == 'database':
            return self.db_connector.query(source_path)

关键技术点：

• OCR识别：Tesseract、PaddleOCR处理扫描件与图片文字

• 表格解析：Camelot、Tabula提取表格数据并转为结构化格式

• 网页爬取：Scrapy、Playwright支持动态网页内容抓取

• 格式标准化：所有数据转换为统一的Markdown/JSON格式

2.2 知识存储层：三位一体的存储架构

大模型知识库的存储层不是单一数据库，而是结构化存储+向量存储+对象存储的协同架构。

存储类型	技术选型	存储内容	核心作用
结构化存储	MySQL、PostgreSQL	文档元数据、版本信息、权限配置	管理知识清单与映射关系
向量存储	Milvus、Pinecone、FAISS	文本分块的向量表示	支持语义相似度检索
对象存储	MinIO、OSS、S3	原始文档文件	保障原文溯源与完整性

向量数据库配置示例：

from pymilvus import connections, Collection, FieldSchema, CollectionSchema, DataType
# 连接Milvus
connections.connect(host='localhost', port='19530')
# 定义Collection Schema
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1536),
    FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535),
    FieldSchema(name="metadata", dtype=DataType.JSON)
]
schema = CollectionSchema(fields, "knowledge_chunks")
# 创建Collection
collection = Collection("knowledge_chunks", schema)
# 创建索引
index_params = {
    "index_type": "IVF_FLAT",
    "metric_type": "COSINE",
    "params": {"nlist": 128}
}
collection.create_index("embedding", index_params)

2.3 知识处理层：从原始数据到智能知识

这是知识库的核心炼丹炉，决定了知识质量的高低。

2.3.1 智能分块策略

传统方案问题：固定长度切分容易割裂语义边界

优化方案：基于文档结构的语义分块

from langchain.text_splitter import RecursiveCharacterTextSplitter
# 智能分块配置
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,           # 每块1000字符
    chunk_overlap=200,         # 重叠200字符
    separators=["\n\n", "\n", "。", "！", "？", "；", " ", ""],
    length_function=len
)
# 执行分块
chunks = text_splitter.split_text(document_text)
# 为每个chunk添加结构化元数据
for i, chunk in enumerate(chunks):
    chunks[i] = {
        "content": chunk,
        "metadata": {
            "source": document_path,
            "page": page_number,
            "chunk_id": i,
            "section": extract_section_title(chunk)  # 提取章节标题
        }
    }

2.3.2 向量化处理

模型选择：

• 中文场景：BGE-large-zh、m3e-base、text-embedding-v3

• 英文场景：OpenAI text-embedding-3-large、Cohere embed-v3

• 多语言：multilingual-e5-large

from sentence_transformers import SentenceTransformer
# 加载嵌入模型
model = SentenceTransformer('BAAI/bge-large-zh-v1.5')
# 生成向量
embeddings = model.encode(
    [chunk["content"] for chunk in chunks],
    normalize_embeddings=True,  # 归一化，使用余弦相似度
    show_progress_bar=True
)
# 存入向量数据库
collection.insert([
    [chunk["content"] for chunk in chunks],
    embeddings.tolist(),
    [chunk["metadata"] for chunk in chunks]
])

2.4 应用层：智能服务编排

核心模块：

1. 检索引擎：支持向量检索、关键词检索、混合检索

2. 重排序器：对检索结果进行精准度重排

3. 生成引擎：基于检索上下文生成答案

4. 应用接口：提供API、SDK、Widget等多种集成方式

三、核心技术：构建高质量知识库的关键能力

3.1 检索增强生成（RAG）：从幻觉到精准

RAG核心流程：

graph LR
    A[用户问题] --> B[问题向量化]
    B --> C[向量检索]
    C --> D[混合检索]
    D --> E[重排序]
    E --> F[上下文注入]
    F --> G[大模型生成]
    G --> H[答案输出]

代码实现：

from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.vectorstores import FAISS
# 构建检索QA链
def build_rag_chain(vector_store, llm):
    retriever = vector_store.as_retriever(
        search_type="similarity",
        search_kwargs={"k": 3}  # 返回最相关的3个片段
    )
    chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=retriever,
        return_source_documents=True,
        chain_type_kwargs={
            "prompt": RAG_PROMPT_TEMPLATE
        }
    )
    return chain
# 使用示例
RAG_PROMPT_TEMPLATE = """你是一个专业的知识问答助手。
请基于以下知识内容回答用户问题，如果知识中没有相关信息，请明确说明。
知识内容：
{context}
用户问题：{question}
请提供准确、简洁的答案，并引用知识来源。"""
# 构建并执行
chain = build_rag_chain(vector_store, llm)
result = chain({"query": "什么是大模型知识库的核心价值？"})
print(f"答案：{result['result']}")
print(f"引用来源：{[doc.metadata for doc in result['source_documents']]}")

RAG优化技巧：

1. 混合检索：向量检索（70%）+ 关键词检索（30%）

2. 查询扩展：将用户问题扩展为多个相关查询

3. 重排序：使用Cross-Encoder对检索结果重新打分

4. 递归检索：对检索到的内容进行二次检索

3.2 知识图谱融合：从检索到推理

GraphRAG技术架构：

# 基于Neo4j的知识图谱检索
from neo4j import GraphDatabase
class GraphRetriever:
    def __init__(self, uri, user, password):
        self.driver = GraphDatabase.driver(uri, auth=(user, password))
    def retrieve_subgraph(self, query_entities, depth=2):
        """检索相关子图"""
        with self.driver.session() as session:
            cypher_query = f"""
            MATCH (n)-[r*1..{depth}]-(m)
            WHERE n.name IN $entities
            RETURN n, r, m, properties(r) as rel_props
            LIMIT 50
            """
            result = session.run(cypher_query, entities=query_entities)
            return self.format_subgraph(result)
    def format_subgraph(self, result):
        """将子图转换为文本格式供LLM使用"""
        subgraph_text = []
        for record in result:
            subgraph_text.append(
                f"{record['n'].name} -{record['r'].type}-> {record['m'].name}"
            )
        return "\n".join(subgraph_text)
# 使用示例
graph_retriever = GraphRetriever("bolt://localhost:7687", "neo4j", "password")
subgraph = graph_retriever.retrieve_subgraph(["大模型", "知识库"])

知识图谱与大模型的三大融合模式：

模式	核心逻辑	适用场景	技术复杂度
KG增强LLM	知识图谱作为外部知识源，优化大模型训练与推理	行业问答、专业内容生成、风险控制	⭐⭐⭐
LLM增强KG	大模型自动化完成知识抽取、补全、更新	知识图谱构建、动态维护、跨源融合	⭐⭐
双向协同	两者动态交互，实现知识更新-推理优化-应用反馈闭环	复杂决策、全生命周期知识管理	⭐⭐⭐⭐⭐

3.3 混合推理引擎：结合符号推理与神经推理

技术实现：

class HybridReasoningEngine:
    def __init__(self, llm, knowledge_graph):
        self.llm = llm
        self.kg = knowledge_graph
    def reason(self, query):
        """混合推理流程"""
        # 步骤1：LLM理解问题并提取关键实体
        entities = self.llm.extract_entities(query)
        # 步骤2：在知识图谱中进行符号推理
        reasoning_path = self.kg.symbolic_reasoning(entities)
        # 步骤3：将推理路径转换为自然语言描述
        path_description = self.format_reasoning_path(reasoning_path)
        # 步骤4：LLM基于推理路径生成最终答案
        answer = self.llm.generate_with_context(
            query=query,
            context=path_description
        )
        return {
            "answer": answer,
            "reasoning_path": reasoning_path,
            "confidence": self.calculate_confidence(answer, reasoning_path)
        }

四、应用场景：五大领域的实战案例

4.1 智能客服：从标准问答到业务闭环

案例：某银行智能客服系统

核心痛点：

• 传统FAQ仅覆盖68%用户问题

• 人工客服成本高昂，响应时间长

• 知识更新滞后，无法及时响应新政策

解决方案：

# 智能客服RAG系统架构
class IntelligentCustomerService:
    def __init__(self):
        self.knowledge_base = VectorStoreIndex.from_documents(
            load_documents(["产品手册.pdf", "服务政策.pdf", "常见问题.docx"])
        )
        self.llm = ChatOpenAI(model="gpt-4")
        self.conversation_memory = ConversationBufferMemory()
    def handle_customer_query(self, query, customer_profile):
        """处理客户咨询"""
        # 1. 检索相关知识
        relevant_docs = self.knowledge_base.similarity_search(query, k=5)
        # 2. 结合客户画像进行个性化回答
        context = f"""
        客户画像：{customer_profile}
        相关知识：{relevant_docs}
        """
        # 3. 生成个性化回答
        response = self.llm.predict(
            f"基于以下信息回答客户问题：{context}\n问题：{query}"
        )
        # 4. 判断是否需要人工介入
        if self.need_human_intervention(response):
            return {"type": "transfer_to_human", "reason": "complex_query"}
        return {"type": "automated", "response": response}

实施效果：

• FAQ覆盖率从68%提升至94%

• 客户满意度从72%提升至91%

• 人工客服工作量减少60%

• 响应时间从平均5分钟缩短至10秒

4.2 医疗辅助诊断：多模态知识库应用

案例：协和医院智能诊断辅助系统

技术架构：

class MedicalDiagnosisAssistant:
    def __init__(self):
        self.text_knowledge_base = self.build_text_kb()  # 医学文献KB
        self.image_knowledge_base = self.build_image_kb()  # 医学影像KB
        self.multimodal_model = self.load_multimodal_model()
    def diagnose(self, symptoms, medical_images=None):
        """多模态诊断辅助"""
        # 1. 文本知识检索
        text_context = self.text_knowledge_base.search(symptoms)
        # 2. 图像特征提取与检索
        if medical_images:
            image_context = self.image_knowledge_base.search(medical_images)
        else:
            image_context = None
        # 3. 多模态融合推理
        diagnosis = self.multimodal_model.diagnose(
            symptoms=symptoms,
            text_knowledge=text_context,
            image_knowledge=image_context
        )
        return {
            "diagnosis": diagnosis,
            "confidence": diagnosis.confidence,
            "references": diagnosis.referenced_studies
        }

关键成效：

• 辅助诊断准确率达到三甲医院主治医生水平

• 误诊率降低35%

• 医生工作效率提升40%

• 医疗知识更新周期从月度缩短至周级

4.3 企业内部知识管理：全员智能化

案例：某大型制造企业全球知识管理平台

系统架构：

┌─────────────────────────────────────────────────┐
│         多端接入层                              │
│  Web端 | 移动端 | 企业微信 | API接口            │
└─────────────┬───────────────────────────────────┘
              │
┌─────────────▼───────────────────────────────────┐
│         应用编排层                              │
│  智能问答 | 文档检索 | 知识推荐 | 协作编辑      │
└─────────────┬───────────────────────────────────┘
              │
┌─────────────▼───────────────────────────────────┐
│         知识处理层                              │
│  向量检索 | 图谱推理 | 混合检索 | 重排序        │
└─────────────┬───────────────────────────────────┘
              │
┌─────────────▼───────────────────────────────────┐
│         数据存储层                              │
│  向量库 | 图数据库 | 关系数据库 | 对象存储      │
└─────────────────────────────────────────────────┘

实施效果：

• 建立包含200万+文档、50万+视频的统一知识库

• 全球10万+员工知识互联

• 跨时区协作效率提升60%

• 技术方案复用率提高3倍

• 年知识管理成本降低1200万元

4.4 金融风控：实时风险监控与预警

案例：某银行声誉风险智能分析系统

技术方案：

class FinancialRiskMonitor:
    def __init__(self):
        self.news_knowledge_base = self.build_news_kb()
        self.risk_knowledge_graph = self.build_risk_kg()
        self.real_time_analyzer = RealTimeAnalyzer()
    def monitor_reputation_risk(self, company_name):
        """声誉风险监控"""
        # 1. 实时抓取相关新闻
        news_stream = self.real_time_analyzer.fetch_news(company_name)
        # 2. 构建风险事件图谱
        risk_graph = self.risk_knowledge_graph.build_risk_graph(
            company_name,
            news_stream
        )
        # 3. 风险事件识别与分类
        risk_events = self.identify_risk_events(risk_graph)
        # 4. 风险等级评估
        risk_level = self.assess_risk_level(risk_events)
        # 5. 生成风险报告与预警
        if risk_level >= 3:
            self.send_risk_alert(company_name, risk_events)
        return {
            "company": company_name,
            "risk_level": risk_level,
            "risk_events": risk_events,
            "suggested_actions": self.generate_action_plan(risk_events)
        }

核心成效：

• 声誉风险响应速度缩短80%

• 观点提取准确率达90%

• 数据整合效率提升50%

• 风险漏报率下降7倍

4.5 教育培训：个性化学习路径规划

案例：某高校智能教学系统

创新功能：

class IntelligentTeachingSystem:
    def __init__(self):
        self.course_knowledge_base = self.build_course_kb()
        self.student_profile_system = StudentProfileSystem()
        self.learning_path_generator = LearningPathGenerator()
    def generate_personalized_path(self, student_id, learning_goal):
        """生成个性化学习路径"""
        # 1. 分析学生当前知识状态
        current_knowledge = self.student_profile_system.analyze(student_id)
        # 2. 识别知识缺口
        knowledge_gaps = self.identify_knowledge_gaps(
            current_knowledge,
            learning_goal
        )
        # 3. 检索相关学习资源
        learning_resources = self.course_knowledge_base.retrieve(
            knowledge_gaps
        )
        # 4. 生成学习路径
        learning_path = self.learning_path_generator.generate(
            knowledge_gaps,
            learning_resources,
            student_learning_style=current_knowledge.learning_style
        )
        return {
            "student_id": student_id,
            "learning_goal": learning_goal,
            "estimated_duration": learning_path.total_hours,
            "modules": learning_path.modules,
            "resources": learning_path.resources
        }

应用效果：

• 学生通过率提升18%

• 自动生成带知识关联的PPT，准确率91%

• 新员工培训周期从6周缩短至3天

• 日均服务量2.1万次，替代30%人工咨询

五、挑战与趋势：技术演进的方向

5.1 当前面临的核心挑战

5.1.1 技术层面挑战

1. 知识质量问题

• 数据清洗成本高昂

• 知识冲突难以自动解决

• 版本管理复杂度增加

解决方案：

class KnowledgeQualityManager:
    def __init__(self):
        self.conflict_detector = ConflictDetector()
        self.version_controller = VersionController()
    def ensure_quality(self, new_knowledge):
        """知识质量管理流程"""
        # 1. 数据清洗
        cleaned_knowledge = self.clean_data(new_knowledge)
        # 2. 冲突检测
        conflicts = self.conflict_detector.detect(cleaned_knowledge)
        # 3. 冲突解决策略
        if conflicts:
            resolution = self.resolve_conflicts(conflicts)
            cleaned_knowledge = self.apply_resolution(cleaned_knowledge, resolution)
        # 4. 版本控制
        self.version_controller.create_version(cleaned_knowledge)
        return cleaned_knowledge

2. 检索精度问题

• 长尾知识覆盖率不足

• 语义理解深度有限

• 跨模态检索效果欠佳

优化策略：

• 引入知识图谱进行多跳推理

• 使用大模型进行查询重写和扩展

• 构建多模态联合嵌入空间

3. 实时更新挑战

• 知识更新延迟

• 增量索引复杂

• 一致性保证困难

技术方案：

• 流式处理架构

• 增量向量索引

• 分布式事务保证

5.1.2 工程层面挑战

1. 性能瓶颈

# 性能优化关键代码
class PerformanceOptimizer:
    def __init__(self):
        self.cache_manager = CacheManager()
        self.query_optimizer = QueryOptimizer()
    def optimize_query(self, query):
        """查询性能优化"""
        # 1. 查询缓存检查
        cached_result = self.cache_manager.get(query)
        if cached_result:
            return cached_result
        # 2. 查询优化
        optimized_query = self.query_optimizer.optimize(query)
        # 3. 并行检索
        results = self.parallel_retrieve(optimized_query)
        # 4. 缓存结果
        self.cache_manager.set(query, results)
        return results

2. 扩展性问题

• 数据量增长导致检索延迟

• 并发访问压力

• 资源利用率不均衡

扩展方案：

• 分布式架构设计

• 读写分离

• 自动水平扩展

3. 安全合规挑战

class SecurityComplianceManager:
    def __init__(self):
        self.access_controller = AccessController()
        self.data_masker = DataMasker()
        self.audit_logger = AuditLogger()
    def secure_query(self, query, user_context):
        """安全查询处理"""
        # 1. 权限检查
        if not self.access_controller.check_permission(user_context, query):
            raise PermissionDenied("无权访问该知识")
        # 2. 敏感数据脱敏
        sanitized_query = self.data_masker.mask(query)
        # 3. 审计日志
        self.audit_logger.log(user_context, sanitized_query)
        # 4. 执行查询
        result = self.execute_query(sanitized_query)
        # 5. 结果脱敏
        masked_result = self.data_masker.mask(result, user_context)
        return masked_result

5.2 未来发展趋势

5.2.1 技术趋势

趋势1：多模态深度融合

class MultimodalFusionSystem:
    def __init__(self):
        self.text_encoder = TextEncoder()
        self.image_encoder = ImageEncoder()
        self.video_encoder = VideoEncoder()
        self.audio_encoder = AudioEncoder()
        self.fusion_network = FusionNetwork()
    def encode(self, content):
        """多模态内容编码"""
        encodings = {}
        if content.get('text'):
            encodings['text'] = self.text_encoder.encode(content['text'])
        if content.get('image'):
            encodings['image'] = self.image_encoder.encode(content['image'])
        if content.get('video'):
            encodings['video'] = self.video_encoder.encode(content['video'])
        if content.get('audio'):
            encodings['audio'] = self.audio_encoder.encode(content['audio'])
        # 融合多模态表示
        fused_embedding = self.fusion_network.fuse(encodings)
        return fused_embedding

趋势2：小模型+大知识库

• 边缘设备部署小型模型

• 云端维护大型知识库

• 协同推理架构

趋势3：自主进化知识库

class SelfEvolvingKnowledgeBase:
    def __init__(self):
        self.quality_monitor = QualityMonitor()
        self.auto_annotator = AutoAnnotator()
        self.knowledge_expander = KnowledgeExpander()
    def evolve(self):
        """知识库自主进化"""
        # 1. 监控知识质量
        quality_report = self.quality_monitor.monitor()
        # 2. 自动标注
        auto_annotations = self.auto_annotator.annotate()
        # 3. 知识扩展
        expanded_knowledge = self.knowledge_expander.expand(
            quality_report,
            auto_annotations
        )
        # 4. 验证新知识
        validated_knowledge = self.validate(expanded_knowledge)
        # 5. 更新知识库
        self.update(validated_knowledge)

5.2.2 应用趋势

趋势1：知识即服务（KaaS）

• 企业间知识共享

• 知识交易市场

• 知识API经济

趋势2：个性化知识服务

• 用户画像驱动

• 学习路径个性化

• 知识推荐智能化

趋势3：行业知识中台

• 金融知识中台

• 医疗知识中台

• 制造知识中台

六、开发者实战指南：从零到一的构建路径

6.1 快速入门：基于LangChain的极简RAG系统

# 第一步：环境准备
# pip install langchain openai faiss-cpu
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
# 第二步：加载文档
loader = TextLoader("knowledge_base.txt")
documents = loader.load()
# 第三步：文档分块
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)
splits = text_splitter.split_documents(documents)
# 第四步：创建向量数据库
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(splits, embeddings)
# 第五步：构建RAG链
llm = ChatOpenAI(model_name="gpt-4", temperature=0)
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(),
    return_source_documents=True
)
# 第六步：查询测试
query = "大模型知识库的核心价值是什么？"
result = qa_chain({"query": query})
print(f"答案：{result['result']}")
print(f"引用来源：{result['source_documents']}")

6.2 进阶优化：生产级RAG系统架构

class ProductionRAGSystem:
    def __init__(self, config):
        # 初始化各组件
        self.data_ingestion = DataIngestionPipeline()
        self.knowledge_processor = KnowledgeProcessor()
        self.vector_store = VectorStore(config['vector_db'])
        self.retriever = HybridRetriever(config['retriever'])
        self.reranker = ReRanker(config['reranker'])
        self.llm = LLMManager(config['llm'])
        self.cache = CacheManager(config['cache'])
        self.monitor = Monitor(config['monitor'])
    def query(self, user_query, user_context=None):
        """生产级查询处理"""
        # 1. 查询预处理
        processed_query = self.preprocess_query(user_query)
        # 2. 缓存检查
        cached_result = self.cache.get(processed_query)
        if cached_result:
            return cached_result
        # 3. 混合检索
        retrieval_result = self.retriever.retrieve(processed_query)
        # 4. 重排序
        reranked_result = self.reranker.rerank(
            processed_query,
            retrieval_result
        )
        # 5. 上下文构建
        context = self.build_context(reranked_result, user_context)
        # 6. LLM生成
        response = self.llm.generate(processed_query, context)
        # 7. 后处理
        final_response = self.postprocess(response, reranked_result)
        # 8. 缓存结果
        self.cache.set(processed_query, final_response)
        # 9. 监控记录
        self.monitor.log({
            "query": processed_query,
            "response": final_response,
            "latency": self.calculate_latency(),
            "tokens_used": response.tokens_used
        })
        return final_response