保姆级RAG教程！从零开始，手把手教你搭建第一个RAG系统！

最近，检索增强生成（Retrieval-Augmented Generation，简称 RAG）在人工智能和大模型领域中崭露头角，成为一种极具潜力的新范式。

Python编程杰哥

604人浏览 · 2025-11-22 11:25:19

Python编程杰哥 · 2025-11-22 11:25:19 发布

最近，检索增强生成（Retrieval-Augmented Generation，简称 RAG）在人工智能和大模型领域中崭露头角，成为一种极具潜力的新范式。

RAG 将信息检索与文本生成相结合，通过引入外部知识源来提升大模型的表现。这种方法已在问答系统、对话系统以及内容生成等多种应用中展现出令人期待的成果。

在这篇文章中，作者将带你深入了解 RAG 的工作原理，并使用 Python 和 ollama 从零构建一个简单的 RAG 系统。通过这个项目，你将掌握 RAG 系统的核心组成部分，并学会如何利用基础的编程概念实现它。可以说实用满满。

一、什么是RAG

我们先从一个没有使用 RAG 的简单聊天机器人说起：

这个聊天机器人可以根据训练数据回答常见问题，但它无法访问最新的信息或特定领域的知识。

举个现实例子：你问 ChatGPT——“我妈妈叫什么名字？”

它当然回答不了，因为它无法访问外部信息，比如你的家庭成员资料。

要解决这个问题，我们需要给模型补充外部知识。比如在这个例子里，我们可以提供一份“家庭成员名单”作为外部知识来源。

RAG 系统的两个核心组成部分：

检索模型（Retrieval Model）：从外部知识源（例如数据库、搜索引擎或知识库）中找出与问题最相关的信息。
生成模型（Language Model）：在检索到的信息基础上，生成最终的自然语言回答。

RAG 的实现方式有多种，比如 Graph RAG、Hybrid RAG、Hierarchical RAG 等，我们会在文章结尾简单介绍。

构建一个极简的RAG系统

下面我们来搭建一个简单的 RAG 系统，它能从预定义的数据集中检索信息，并基于检索结果生成回答。这个系统包括三个主要部分：

Embedding 模型：一种预训练语言模型，用来把输入文本转换成向量，即能表示语义的数值形式。这些向量可以用来在数据集中查找相似内容。
向量数据库：用来存储知识及其对应的向量。常见的向量数据库包括 Qdrant、Pinecone、pgvector 等，但这里我们将从零实现一个简单的内存版数据库。
聊天机器人：根据检索结果生成回答的语言模型，可以是 Llama、Gemma 或 GPT 等。

索引阶段

构建 RAG 系统的第一步是索引。在这个阶段，我们需要把数据集（或文档）拆分成更小的片段（chunks），并为每个片段计算一个向量表示，方便后续快速检索。

不同应用场景下，片段大小会有所不同：

文档检索系统中，一个片段可以是一段文字或一句话；
对话系统中，一个片段可以是一轮对话。

索引完成后，每个片段和它对应的向量都会被存入向量数据库中。下图展示了索引阶段后，数据库中数据的大致结构示例：

文本片段	向量表示
意大利和法国生产了全球超过40%的葡萄酒	[0.1, 0.04, -0.34, 0.21, …]
印度的泰姬陵完全由大理石建成	[-0.12, 0.03, 0.9, -0.1, …]
全球90%的淡水储备在南极洲	[-0.02, 0.6, -0.54, 0.03, …]
…	…

这些向量表示之后可以用来根据用户的查询检索相关信息。

你可以把它想象成 SQL 语句里的 WHERE 条件，但不同的是，这里不是精确匹配文本，而是根据向量之间的语义相似度来查找最相关的片段。

为了比较两个向量的相似度，我们可以使用余弦相似度（cosine similarity）、欧几里得距离（Euclidean distance） 或其他距离度量方法。

在这个示例中，我们将使用余弦相似度。下面是向量 A 和向量 B 之间的余弦相似度公式：

如果你对上面的公式还不太熟悉，也不用担心——我们会在下一节中亲手实现它。

检索阶段

如下图所示，当用户Input Query 时，系统会先将这个查询转换成一个 Query Vector，然后将其与向量数据库中的所有向量进行比较，以找到最相关的文本片段（chunks）。

Vector Database 返回的结果会包含与查询最相关的前 N 个片段，接下来 Chatbot 会基于这些片段生成最终的回答。

开始写代码吧

在这个示例中，我们将用 Python 实现一个简单版本的 RAG 系统。

为了运行模型，我们会使用 ollama —— 一款命令行工具，可以直接运行来自 Hugging Face 的模型。

使用 ollama，你不需要连接服务器或云服务，就能在自己的电脑上本地运行模型。

我们将使用以下两个模型：

Embedding 模型：hf.co/CompendiumLabs/bge-base-en-v1.5-gguf
语言模型（Language Model）：hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF

至于数据集，我们会用一份关于 cat 的简单事实列表。在索引阶段，每一条事实都会被当作一个独立的文本片段。

下载 ollama 和模型

首先，从官方网站 ollama.com 安装 ollama。

安装完成后，打开终端，运行以下命令来下载所需的模型：

ollama pull hf.co/CompendiumLabs/bge-base-en-v1.5-gguf
ollama pull hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF

如果你看到下面这个输出结果，那说明你的安装成功了：

pulling manifest
...
verifying sha256 digest
writing manifest
success

在继续之前，为了在 Python 中使用 ollama，我们还需要安装 ollama 的 Python 包：

pip install ollama

加载数据集

接下来，创建一个 Python 脚本，并将数据集加载到内存中。这个数据集包含了一系列关于 cat 的事实，每条事实将在索引阶段作为一个片段使用。

你可以从这里下载示例数据集。下面是一个加载数据集的示例代码：

dataset = []
with open('cat-facts.txt', 'r') as file:
dataset = file.readlines()
print(f'Loaded {len(dataset)} entries')

实现向量数据库

现在，我们来实现向量数据库。

我们将使用 ollama 的 embedding 模型，将每个片段转换为向量表示，然后将片段及其对应的向量存入到一个列表中。

下面是一个计算给定文本向量表示的示例函数：

import ollama
EMBEDDING_MODEL = 'hf.co/CompendiumLabs/bge-base-en-v1.5-gguf'
LANGUAGE_MODEL = 'hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF'
# Each element in the VECTOR_DB will be a tuple (chunk, embedding)
# The embedding is a list of floats, for example: [0.1, 0.04, -0.34, 0.21, ...]
VECTOR_DB = []
def add_chunk_to_database(chunk):
embedding = ollama.embed(model=EMBEDDING_MODEL, input=chunk)['embeddings'][0]
VECTOR_DB.append((chunk, embedding))

在这个示例中，为了简单起见，我们将数据集中的每一行都视为一个片段。

for i, chunk in enumerate(dataset):
add_chunk_to_database(chunk)
print(f'Added chunk {i+1}/{len(dataset)} to the database')

实现检索函数

接下来，我们来实现检索函数。该函数接收一个查询，并根据余弦相似度返回与查询最相关的前 N 个片段。

可以理解为：两个向量的余弦相似度越高，它们在向量空间中就越接近，也就意味着它们在语义上越相似。

下面是一个计算两个向量余弦相似度的示例函数：

def cosine_similarity(a, b):
dot_product = sum([x * y for x, y in zip(a, b)])
norm_a = sum([x ** 2 for x in a]) ** 0.5
norm_b = sum([x ** 2 for x in b]) ** 0.5
return dot_product / (norm_a * norm_b)

现在，我们来实现检索函数：

def retrieve(query, top_n=3):
query_embedding = ollama.embed(model=EMBEDDING_MODEL, input=query)['embeddings'][0]
# temporary list to store (chunk, similarity) pairs
similarities = []
for chunk, embedding in VECTOR_DB:
similarity = cosine_similarity(query_embedding, embedding)
similarities.append((chunk, similarity))
# sort by similarity in descending order, because higher similarity means more relevant chunks
similarities.sort(key=lambda x: x[1], reverse=True)
# finally, return the top N most relevant chunks
return similarities[:top_n]

生成阶段

在这一阶段，聊天机器人将根据上一步检索到的知识生成回答。具体做法是：将相关片段加入到提示语（prompt）中，然后将提示语作为聊天机器人的输入。

例如，可以这样构建一个提示语：

input_query = input('Ask me a question: ')
retrieved_knowledge = retrieve(input_query)
print('Retrieved knowledge:')
for chunk, similarity in retrieved_knowledge:
print(f' - (similarity: {similarity:.2f}) {chunk}')
instruction_prompt = f'''You are a helpful chatbot.
Use only the following pieces of context to answer the question. Don't make up any new information:
{'\n'.join([f' - {chunk}' for chunk, similarity in retrieved_knowledge])}
'''

然后，我们使用 ollama 来生成回答。在这个示例中，我们将把 instruction_prompt 作为系统消息使用：

stream = ollama.chat(
model=LANGUAGE_MODEL,
messages=[
{'role': 'system', 'content': instruction_prompt},
{'role': 'user', 'content': input_query},
],
stream=True,
)
# print the response from the chatbot in real-time
print('Chatbot response:')
for chunk in stream:
print(chunk['message']['content'], end='', flush=True)

整合全部步骤

完整代码可以在此文件（https://huggingface.co/ngxson/demo_simple_rag_py/blob/main/demo.py）中找到。

运行代码的方法：将其保存为 demo.py 文件，然后执行以下命令：

python demo.py

现在，你可以向聊天机器人提问，它会根据从数据集中检索到的知识生成回答。

Ask me a question: tell me about cat speed
Retrieved chunks: ...
Chatbot response:
According to the given context, cats can travel at approximately 31 mph (49 km) over a short distance. This is their top speed.

改进空间

到目前为止，我们已经用一个小数据集实现了一个简单的 RAG 系统，但它仍然存在不少局限：

无法处理多主题问题：当问题同时涉及多个主题时，系统往往给不出理想答案。这是因为当前的系统只根据“查询与片段的相似度”检索信息，而没有考虑查询的上下文。一个改进思路是——让聊天机器人根据用户输入生成自己的查询语句，再用这个生成的查询去检索知识；或者使用多个查询来获取更全面的信息。
检索结果排序不够精准：当前返回的是余弦相似度最高的前 N 个片段，但这不一定是最优结果，尤其当每个片段信息量很大时。改进方式是使用重排序模型，在初步检索结果的基础上再次根据相关性进行排序。
数据库可扩展性不足：我们现在的数据库是基于内存的，当数据量变大时就难以扩展。可以改用更高效的向量数据库，比如 Qdrant、Pinecone、pgvector 等。
分片策略过于简单：目前我们是以“句子”为一个片段。对于更复杂的任务，可能需要使用更精细的分块技术来拆分数据集，甚至在入库前对每个片段进行预处理（如去噪、摘要、关键词提取等）。
语言模型规模有限：示例中使用的语言模型只有 10 亿参数（1B），对于更复杂的任务，可能需要使用更大的模型来生成更高质量的回答。

其他类型的 RAG

在实际应用中，RAG 的实现方式多种多样。以下是几种常见类型：

Graph RAG（图结构 RAG）：将知识源表示为图结构，节点代表实体，边表示实体之间的关系。模型可以在图中“漫游”以检索相关信息。目前这一方向的研究非常活跃，可以参考相关的 Graph RAG 论文合集。
Hybrid RAG（混合 RAG）：结合知识图谱（Knowledge Graph, KG）与向量数据库技术，以提升问答系统的表现。
Modular RAG（模块化 RAG）：这种 RAG 超越了传统的“检索—生成”两步流程，引入了路由、调度和融合机制，从而形成一个灵活可重组的框架。它支持多种 RAG 模式（线性、条件、分支、循环等），能更好地应对复杂、知识密集型任务。

总结

RAG 的出现，让大模型能够更好地利用外部知识，显著提升了其准确性和实用性。

通过从零实现一个简单的 RAG 系统，我们理解了 embedding（向量表示）、retrieval（检索）和 generation（生成）的核心概念。

尽管这个实现还很基础，但它展现了支撑实际生产环境中高级 RAG 系统的底层原理。

未来，RAG 的改进空间仍然广阔：从优化向量数据库的性能，到探索 Graph RAG、Hybrid RAG 等新架构，这一领域仍在快速演进中。RAG 将继续作为连接语言模型和外部知识的关键技术，帮助 AI 在保持生成能力的同时，变得更聪明、更可靠。

RAG 图书推荐

《RAG极简入门：原理与实战》

张其来，徐思琪 | 著

一本注重 RAG 上手实践的书，没有堆术语，而是把整套 RAG 技术拆解得明明白白。

全书共 7 章内容，作者从背景原理讲起，到怎么搭框架、怎么处理数据、怎么做检索、生成、优化，每一块都有图、有例子，逻辑也特别清晰。甚至最后还贴心地加了个完整实战项目，让你从头跑一遍系统都不带卡壳的。

作者绘制了超多流程图，帮助你理解复杂的概念。

如果你想把 RAG 真正用起来，这本书一定不要错过！

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

在这里插入图片描述
RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。在这里插入图片描述

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训
大厂绿色直通车

人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调在这里插入图片描述
大厂绿色直通车，冲击行业高薪岗位

在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

收藏！小白也能秒懂的AI智能体详解：从ChatGPT到自主Agent的进化

2048 AI社区

华为901B上微调Qwen14B和Qwen32B实录---训练准备篇

本文探讨在华为910B服务器上微调Qwen大模型前的准备工作，重点分析机器能力、基模选择与数据量的平衡关系。通过测试发现，在8卡64G配置下，使用DeepSpeed ZeRO-3优化可支持32B模型训练，显著提升资源利用率。同时指出模型规模与数据量的匹配关系：7B模型推荐2万条高质量数据，14B约4万条，32B约8万条，72B约15万条。强调高质量数据的重要性，建议根据实际资源、模型规模和数据质量