Course11：RAG调优

Q：Q:一个视频文件是对应一个1152维的向量，还是对视频进行抽帧，每一帧对应一个1152维的向量?Thinking:当用户提问与知识切片的相似度不高时，能否通过A为每个知识切片生成可能的问题，通过问题与问题的匹配来提高检索准确度?Q:原始的检索结果排序是根据相关性高低排序的，这里的rerank重排应该是抛弃了原有的相关性排名，重新计算分值再排序吗?Q：9张鞋的图片，让大模型生成带声音介绍的视频，

歪瑞马奇

780人浏览 · 2026-02-25 16:22:13

歪瑞马奇 · 2026-02-25 16:22:13 发布

RAG高级技术与调优

从不同的维度对RAG进行调优?

坚实基础---知识库层面

场景1:知识库问题生成与检索优化

Thinking:当用户提问与知识切片的相似度不高时，能否通过A为每个知识切片生成可能的问题，通过问题与问题的匹配来提高检索准确度?

TODO:对知识库进行问题生成，并进行检索优化

LLM问题生成提示词参考：

自动生成多样化问题:为知识库中的每个知识切片自动生成多种类型、不同难度的问题

generate_questions_for_chunk():为单个知识切片生成基础问题

generate_diverse_questions():生成更多样化的问题(8个)

构建双重检索索引:同时构建基于原文内容和生成问题的BM25检索索引

检索评估:针对两种检索方式，进行详细的评估

场景2:对话知识沉淀

使用LLM整理历史对话，生成一组新的知识

案例

知识点提取

信息标签：事实需求用户意图流程注意等等

知识梳理：merge_similar_knowledge(self, knowledge_list):

使用LLM合并相似的知识点，过滤掉需求和问题类型

过滤掉需求和问题类型的知识，因为它们是临时的、个性化的

场景3:知识库健康度检查

LLM缺失检查步骤

LLM过期检查步骤

场景4:知识库版本管理与性能比较

版本差异统计

精准雷达---RAG高效召回方法

Thinking:都有哪些RAG召回的策略，提升召回的质量?

1.如果要召回更多的片段，如何设置?

docs = knowledgeBase.similarity_search(query, k=10)

2、优化查询扩展

3、索引扩展

chatpdf-faiss-HybridSearch-logic

HybridRetriever混合检索器

混合检索过程

多查询增强

数据流向

rerank使用策略

RAG高效召回法

Native RAG

RAG的步骤:

Indexing=>知识存储。

Retrieval=>在大量的知识中，通过相似度计算找到一小部分有用片段，给到模型参考。

Generation=>结合用户的提问和检索到的知识，让模型生成有用的答案。

其中：

chunk=>一定程度内，越精细检索精度越高

Vectors：特征的向量化表达

全局视野---GraphRAG

检索流程示例

查询模式

在查询时，使用这些结构为LLM上下文窗口提供材料来回答问题。

主要查询模式有:
全局搜索，通过社区层级摘要来推理有关语料库的整体问题

局部搜索通过扩展到其邻居和相关概念来推理特定实体的情况。

适合回答细节/具体场景事件时间等

GraphRAG方法是使用LLM构建基于图的文本索引，分两个阶段:

首先从源文档中派生出实体知识图谱

然后为所有密切相关的实体组预生成社区摘要。

检索优势

索引构建(Indexing)一一知识的结构化

Q&A

Q：多模态模型是怎么识别语言视频的，大模型是怎么思考生成视频的，原理是什么?

A：多模态模型识别语言视频，核心是多模态编码 → 跨模态对齐到共享语义空间 → 时空建模抓动态 → 融合推理得到统一理解。；

语言视频 = 视觉（画面 / 帧序列）+ 听觉（语音 / 音效）+ 文本（字幕 / 语音转写）+ 时序（动作 / 事件流）。模型要做的是把这些信息 “对齐、融合、理解”。

大模型生成视频，核心是文本语义解析 + 时空扩散生成 + 时序连贯性建模。

生成视频 = 从文本 / 图像等条件，按时间顺序生成连贯、逼真的帧序列。主流技术是扩散模型 + Transformer 时空建模（如 Sora、Stable Video Diffusion）。

Q：Q:一个视频文件是对应一个1152维的向量，还是对视频进行抽帧，每一帧对应一个1152维的向量?一个视频文件是对应一个1152维的向量

A：一个视频文件是对应一个1152维的向量！

Q：推荐可直接使用的RAG的开源软件

A：ragflow, dify, fastgpt, qwen-agent

Q：怎么解析word pdf ppt文档中包含的图片并为其添加描述

A：Step1，找到图片，保存到本地；Step2，使用qwen-vl上传该图片，prompt=帮我描述这张图片

Q：我们存储是把知识片段和问题作为同一个新知识片段存储嘛，还是把扩写的问题与知识片段建立索引分开进行存储?

A：两者都可以

Q：MD5是什么

A：加密算法，用于唯一值的生成

Q：企业使用时，这个版本在库里怎么存储

A：打上标签、用不同库index v1,v2、chunk进行metadata的打标

Q：知识库冲突

A：人+AI，比如人更清楚时效性信息

Q：9张鞋的图片，让大模型生成带声音介绍的视频，用什么大模型呢?通义万相2.6，只支持传入一张图片

A：gemini nana banana即梦

Q：pdf文件中包含表格或者图片，有批量工程化的手段吗

A：mineru对pdf进行解析，里面也有表格的处理方法，一般是建议转换为html格式

Q：通过距离来求相识度，这样也是归一化吗

A：是的，先计算距离(>=1)，然后转化成了0-1之间1/s

Q:如果项目是分布式的,faiss的文件怎么存储呢?

A：milvus

Q: 重排的价值

A:BGE-RerankCohere Rerank，精准---chunks1000万=>召回(相当于粗筛，速度快)100个=>重排rerank(精度高，速度慢)5个

Q:原始的检索结果排序是根据相关性高低排序的，这里的rerank重排应该是抛弃了原有的相关性排名，重新计算分值再排序吗?

A:embedding向量相似度模糊语义，不是精确回答score

rerank是相对比embedding更精确的计算，因为一对一计算query和chunk之间的score；

query embedding 与chunk embedding只是1024维的相似程度，也不给出不一样惊喜score

Q:NOTEBOOKLM是不是采用了graphRAG的方式?

A:small-to-big

Q: Q:graphrag，是不是可以使用模型来生成切片知识间建立关联?

A:entity + relationship、community

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

0.1B 参数也能听说读写？本周语音 AI 十大前沿论文

cover

安全隔离与信息交换系统：数字时代的“安全摆渡人“

cover

AI模型竞赛白热化：Gemini 3.1 Pro 如何应对GPT-5等对手

所有评论(0)

查看更多评论

歪瑞马奇

@weixin_54773480

已为社区贡献6条内容