LlamaIndex入门指南和RAG原理

LlamaIndex 是一个用于LLM 应用程序的数据框架，用于注入，结构化，并访问私有或特定领域数据，专门为大语言模型（LLM）提供外部数据接入的能力。

瓦罗兰特顶级C位

556人浏览 · 2025-11-30 14:39:40

瓦罗兰特顶级C位 · 2025-11-30 14:39:40 发布

一、什么是LlamaIndex

LlamaIndex 是一个用于LLM 应用程序的数据框架，用于注入，结构化，并访问私有或特定领域数据，专门为大语言模型（LLM）提供外部数据接入的能力。简单说：

它可以把你自己的文件、数据库、网页等数据，喂给大语言模型，让它变聪明！

LlamaIndex 由 Jerry Liu (Twitter: @jerryjliu0) 联合创办，并担任CEO。

1、官网（文档）

https://docs.llamaindex.ai/en/stable/

2、github地址

https://github.com/run-llama/llama_index

3、中文文档（非官方，版本有点旧）

https://llama-index.readthedocs.io/zh/latest/index.html

二、为什么用 LlamaIndex

在本质上，LLM （如 GPT、DeepSeek、QWen）为人类和推断出的数据提供了基于自然语言的交互接口。广泛可用的大模型通常在大量公开可用的数据上进行的预训练，包括来自维基百科、邮件列表、书籍和源代码等。

构建在LLM模型之上的应用程序通常需要使用私有或特定领域数据来增强这些模型。不幸的是，这些数据可能分布在不同的应用程序和数据存储中。它们可能存在于API之后、SQL数据库中，或者存在在PDF文件以及幻灯片中。LlamaIndex应运而生。

有了 LlamaIndex，就可以：

把本地文档、数据库、网页等变成可查询的知识源
和大模型配合使用，实现 “基于你自己的数据” 来问答（也叫 RAG：Retrieval-Augmented Generation）

三、LlamaIndex 的特点

特点	说明
🔌 数据接入丰富	支持文件、数据库、Notion、API 等各种数据源
🧠 灵活的索引结构	支持向量索引、树状索引、关键词索引等
⚙️ 模块化设计	数据加载、切分、嵌入、索引、查询都可以自定义
🔍 支持 RAG	和 LangChain 类似，适用于基于私有知识问答

四、LlamaIndex和 LangChain 的区别

对比点	LlamaIndex	LangChain
重点	数据加载 & 处理 & 索引	Agent & Chain（流程管理）
使用难度	简洁上手快	更灵活但稍复杂
推荐搭配	可以一起用：LlamaIndex 提供数据 → LangChain 负责逻辑

一句话总结：LlamaIndex = 把大语言模型接入你自己数据的最佳工具之一。

五、适合用 LlamaIndex 的场景

给大模型接入公司文档、项目资料等做问答
构建企业内部知识库
构建智能问答机器人
私人助理（比如你把 Notion 笔记喂进去）

六、LlamaIndex 的5大核心工具

1、Data Connectors 数据连接器

连接各种类型的数据，提取数据给到LlamaIndex，LlamaIndex再给到大模型。这些数据源可以是 API、PDF、SQL、MarkDown、CSV、Txt 等等。

2、Data Indexes 数据索引

DataConnectors将文本数据给LlamaIndex后，LlamaIndex再将数据给大模型之前，需要将文本转向量，一般使用Embeding模型将文本转成向量。这个过程是由Data Indexes来负责。

Data Indexes将文本存储为向量后，LlamaIndex需要使用这些向量数据，所以需要创建索引来查找和使用向量，并且以Tree树状存放，检索使用Keyword Table 关键词表格。

因此Data Indexes的核心是将文本向量化，并且拿到其索引进行检索。

3、Engines 引擎

通过引擎Engines来加载大模型进行检索和处理数据。Query是单轮的，Chat是多轮的有历史对话的，两大功能本质是一样的。因此 Engines是用来连接大模型的

4、Data Agents 数据智能体

处理一些复杂的逻辑。

5、Application Integrations 应用整合

LlamaIndex可以将RAG整合到其他AI应用中，作为辅助插件。

LlamaIndex的核心只有3部分：数据读取，数据向量化存取，加载大模型。

七、核心概念（重点掌握）

LlamaIndex 帮助构建 LLM驱动的，基于个人或私域数据的应用。RAG(Retrieval Augmented Generation) 是 LlamaIndex 应用的核心概念。

想要了解RAG,LlamaIndex，必须要看懂本章节 !!

1、RAG

RAG，也称为检索增强生成，是利用个人或私域数据增强 LLM的一种范式。通常，它包含两个阶段：

（1）索引

    构建知识库。

（2）查询

    从知识库检索相关上下文信息，以辅助 LLM 回答问题。

LlamaIndex 提供了工具包帮助开发者极其便捷地完成这两个阶段的工作。

RAG技术实现后的对话，大体流程是这样的：

用户问题
↓
生成问题向量（Embedding）
↓
在向量库中检索资料
↓
找到相关文档（Top K 小段）
↓
拼接文档+问题 → 提示词 Prompt
↓
发送给大语言模型（LLM）
↓
生成最终回答

大模型不会直接答复客户的问题，而是先去向量库里检索资料，客户的问题相是否存在知识库里，大模型会根据知识库里的做个总结，再给客户回答；若不存在向量库里，则大模型自己回答。

接下来详细讲解两个阶段（索引和查询）。

2、索引阶段

LlamaIndex 通过提供 Data connectors(数据连接器) 和 Indexes (索引) 帮助开发者构建知识库。

该阶段会用到如下工具或组件：

Data connectors

数据连接器。它负责将来自不同数据源的不同格式的数据注入，并转换为 LlamaIndex 支持的文档（Document）表现形式，其中包含了文本和元数据。

Documents / Nodes

Document是 LlamaIndex 中容器的概念，它可以包含任何数据源，包括，PDF文档，API响应，或来自数据库的数据。

Node是 LlamaIndex 中数据的最小单元，代表了一个 Document的分块。它还包含了元数据，以及与其他Node的关系信息。这使得更精确的检索操作成为可能。

Data Indexes

LlamaIndex 提供便利的工具，帮助开发者为注入的数据建立索引，使得未来的检索简单而高效。最常用的索引是向量存储索引 - VectorStoreIndex 。

上图Documents–>Knowledge Base，是由Data Indexes来执行，主要有2个操作，Data Embeding将文本转词向量，再构建索引，将数据存储到知识库中。

知识库就是文本向量化后的数据。

3、查询阶段

在查询阶段， RAG 管道根据的用户查询，检索最相关的上下文，并将其与查询一起，传递给 LLM，以合成响应。这使 LLM 能够获得不在其原始训练数据中的最新知识，同时也减少了虚构内容（幻觉）。该阶段的关键挑战在于

检索（提供的数据的准确度，Embeding）、
编排（排序）
基于知识库的推理（大模型的推理能力）。

LlamaIndex 提供可组合的模块，帮助开发者构建和集成 RAG 管道，用于问答、聊天机器人或作为代理的一部分。这些构建块可以根据排名偏好进行定制，并组合起来，以结构化的方式基于多个知识库进行推理。

3.1 该阶段的构建块包括：

Retrievers

检索器。它定义如何高效地从知识库，基于查询，检索相关上下文信息。

Node Postprocessors

Node后处理器。它对一系列文档节点（Node）实施转换，过滤，或排名。

Response Synthesizers

响应合成器。它基于用户的查询，和一组检索到的文本块（形成上下文），利用 LLM 生成响应。

3.2 RAG管道包括：

Query Engines

查询引擎 - 端到端的管道，允许用户基于知识库，以自然语言提问，并获得回答，以及相关的上下文。（单次对话）

Chat Engines

聊天引擎 - 端到端的管道，允许用户基于知识库进行对话（多次交互，会话历史）。

Agents

代理。它是一种由 LLM 驱动的自动化决策器。代理可以像查询引擎或聊天引擎一样使用。主要区别在于，代理动态地决定最佳的动作序列，而不是遵循预定的逻辑。这为其提供了处理更复杂任务的额外灵活性。

八、官网介绍

我们学习和查找官网资料，重点看“Examples”栏目，也就是这个网址：

https://docs.llamaindex.ai/en/stable/examples/

LlamaIndex在不断地更新迭代中，内容也在不断地增加，分类也更细了。从左侧的菜单导航就可以看到，比如Data Connectors子菜单就有很多种数据连接说明。若有需要查询和学习，就在这里找资料。

九、编写示例代码

1、编写一个简单的示例

（1）创建虚拟环境和安装LlamaIndex核心包。

#创建虚拟环境
conda create -n llamaindex python==3.12 -y
# 激活
conda activate llamaindex
# 安装 llama-index 核心包
pip install llama-index

（2）我们用到它的各种组件，还需要安装对应的包

比如，我们要使用 hugging face的sdk,到官网–Examples–LLMs–Hugging Face LLMs 文档中查找，发现需要安装如下包，这个包可以调用本地的大模型（离线包）。

pip install llama-index-llms-huggingface

若调用hugging face在线的接口，则需要安装这个包。

pip install llama-index-llms-huggingface-api

写一个demo，LlamaIndex调用本地大模型的对话接口。

from llama_index.core.llms import ChatMessage
from llama_index.llms.huggingface import HuggingFaceLLM
#使用HuggingFaceLLM加载本地大模型
llm = HuggingFaceLLM(model_name="/root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct",
tokenizer_name="/root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct",
model_kwargs={"trust_remote_code":True},
tokenizer_kwargs={"trust_remote_code":True})
#调用模型chat引擎得到回复
rsp = llm.chat(messages=[ChatMessage(content="xtuner是什么？")])
print(rsp)

因为Qwen1.5大模型没有喂xtuner的相关数据，因此它不知道什么是xtuner，大模型会一本正经的胡说八道（幻觉），回答的问题肯定是错的。如何快速地解决这个问题呢?请看下面的例子。

2、LlamaIndex实现一个简单的RAG

本示例使用LlamaIndex开发一个简单的RAG，解决上面的幻觉问题。

需要用到Embedding做文本转向量；
再从xtuner的github上下载一个xtuner的介绍文本(markdown格式），也可以自制一个txt文档，里面写xtuner是什么。

代码实现的步骤如下：

（1）下载大模型到本地

下载Qwen2.5-3B-Instruct模型到本地。

# 安装 魔塔社区包
pip install modelscope

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen2.5-3B-Instruct',cache_dir=r"D:\Test\LLMTrain\testllm\llm")

（2）下载Embedding模型到本地

去魔塔社区查找“sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2”这个模型，并且下载到本地。

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2',cache_dir=r"/root/autodl-tmp/llm")

（3）自制一个文本文档

下载github上xtuner的介绍文档到本地data目录。

https://github.com/InternLM/xtuner/blob/main/README_zh-CN.md

（4）编写python程序

from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings,SimpleDirectoryReader,VectorStoreIndex
from llama_index.llms.huggingface import HuggingFaceLLM
#初始化一个HuggingFaceEmbedding对象，用于将文本转换为向量表示
embed_model = HuggingFaceEmbedding(
#指定了一个预训练的sentence-transformer模型的路径
model_name="/root/autodl-tmp/llm/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)
#将创建的嵌入模型赋值给全局设置的embed_model属性，这样在后续的索引构建过程中，就会使用这个模型
Settings.embed_model = embed_model
#使用HuggingFaceLLM加载本地大模型
llm = HuggingFaceLLM(model_name="/root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct",
tokenizer_name="/root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct",
model_kwargs={"trust_remote_code":True},
tokenizer_kwargs={"trust_remote_code":True})
#设置全局的llm属性，这样在索引查询时会使用这个模型。
Settings.llm = llm
#从指定目录读取文档，将数据加载到内存
documents = SimpleDirectoryReader("/root/autodl-tmp/project/day18/data").load_data()
# print(documents)
#创建一个VectorStoreIndex,并使用之前加载的文档来构建向量索引
#此索引将文档转换为向量，并存储这些向量（内存）以便于快速检索
index = VectorStoreIndex.from_documents(documents)
#创建一个查询引擎，这个引擎可以接收查询并返回相关文档的响应。
query_engine = index.as_query_engine()
rsp = query_engine.query("xtuner是什么？")
print(rsp)

运行该脚本，就能得到关于"xtuner是什么"的正确回答了。

代码每一步都有操作说明，请认真看注释内容。代码的大体逻辑是这样的：

用户问题: "xtuner是什么？"
↓
向量索引常见的查询引擎
↓
相似度匹配
↓
匹配的结果再回到大模型
↓
生成最终的回答

本篇文章的示例代码比较简单，实际开发RAG还需要更多逻辑处理，下一篇我们将详细讲解相关技术点！敬请关注！

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

.仓库管理系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

2048 AI社区

SpringBoot+Vue 房屋租赁系统管理平台源码【适合毕设/课设/学习】Java+MySQL

2048 AI社区

【毕业设计】SpringBoot+Vue+MySQL +智慧养老中心管理系统平台源码+数据库+论文+部署文档

2048 AI社区

所有评论(0)

查看更多评论

瓦罗兰特顶级C位

@Wufjsjjx

已为社区贡献453条内容

LlamaIndex入门指南和RAG原理

瓦罗兰特顶级C位

一、什么是LlamaIndex

二、为什么用 LlamaIndex

三、LlamaIndex 的特点

四、LlamaIndex和 LangChain 的区别

五、适合用 LlamaIndex 的场景

六、LlamaIndex 的5大核心工具

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

3. 600+套技术大会 PPT：听行业大咖讲实战

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

2. 102 道 AI 大模型真题：直击大模型核心考点

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L2阶段：攻坚篇丨RAG开发实战工坊

L3阶段：跃迁篇丨Agent智能体架构设计

L4阶段：精进篇丨模型微调与私有化部署

L5阶段：专题集丨特训篇 【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

所有评论(0)

瓦罗兰特顶级C位

L5阶段：专题集丨特训篇【录播课】