零基础玩转RAG：手把手教你搞定文档切分与大模型微调

文档切分作为RAG流程的“第一步”，其重要性怎么强调都不为过。理解核心原理：切分不只是技术问题，更是信息组织艺术掌握实用方法：五种策略各有适用场景，递归切分是通用选择学会评估优化：没有最好的参数，只有最适合的参数未来趋势动态切分：根据查询动态调整块大小多粒度检索：同时检索不同大小的块，组合使用学习型切分：通过反馈学习优化切分策略给初学者的建议从递归切分开始，参数设置为：chunk_size=500

CodingKitten

244人浏览 · 2026-02-01 18:58:03

CodingKitten · 2026-02-01 18:58:03 发布

引言：为什么文档切分是RAG的“生命线”

大家好，我是你们的技术伙伴狸猫算君。今天我们要聊的是RAG（检索增强生成）技术中一个看似简单却至关重要的环节——文档切分。

想象一下这个场景：你有一个包含公司所有规章制度、产品手册、客服记录的庞大文档库，现在想做一个智能问答助手。当用户问“我们公司的年假政策是什么？”时，系统需要从海量文档中快速找到相关段落，然后让大模型基于这些信息生成准确回答。

这里就隐藏着RAG系统的核心挑战：如何把长文档切成合适大小的“块”（chunks），让模型既能理解每个块的完整含义，又不会因为块太大而混入无关信息？

我见过太多RAG项目失败的原因：不是因为模型不够强，而是因为文档切分没做好。切得太大，检索精度下降；切得太小，上下文信息丢失。今天，我就带大家深入理解文档切分的原理，并手把手教你如何实操。

一、文档切分：不只是“切菜”那么简单

1.1 切分的本质是什么？

文档切分（Chunking）的核心理念可以用一句话概括：在保持语义完整性的前提下，将长文本拆分为可检索的独立单元。

为什么这很重要？因为当前的大语言模型（如GPT、LLaMA等）都有上下文长度限制。当我们向模型提问时，系统需要：

从文档库中检索最相关的片段
将这些片段作为上下文输入模型
模型基于上下文生成回答

如果切分不合理，可能会出现：

“断章取义”：关键信息被切到两个块中间
“信息过载”：单个块包含太多无关内容
“语义破碎”：一个完整的意思被生硬切断

1.2 五种主流切分策略对比

策略	原理	优点	缺点	适用场景
按句子切分	基于标点符号分割	语义完整性好	可能忽略跨句关联	新闻、散文等连贯文本
固定字符数切分	按固定长度切割	简单快速	容易切断语义	日志文件、代码等格式化文本
带重叠的固定切分	固定长度+重叠区域	保留上下文连贯性	可能重复存储	技术文档、研究报告
递归切分	按分隔符层级递归	智能平衡长度与语义	实现较复杂	通用场景，默认推荐
语义切分	基于语义相似度	智能聚合相关句子	计算成本高	高精度要求的专业场景

二、从理论到实践：五种切分方法详解

2.1 按句子切分：最符合人类阅读习惯

这种方法模仿我们读书时的自然停顿。在中文中，我们通常以句号、感叹号、问号等作为句子边界。

python

import re

def split_by_sentences(text):
    """按中文标点切分句子"""
    # 定义中文常见标点
    pattern = r"[。！？；]+"
    sentences = re.split(pattern, text)
    # 过滤空字符串并返回
    return [s.strip() for s in sentences if s.strip()]

# 示例文本
sample_text = "清晨的阳光透过窗帘洒进房间。我揉了揉眼睛，准备开始新的一天。今天的计划是完成项目报告，然后去健身房锻炼。"
result = split_by_sentences(sample_text)

print(f"切分出 {len(result)} 个句子:")
for i, sentence in enumerate(result, 1):
    print(f"{i}. {sentence}")

适用场景：新闻稿、小说、博客文章等叙事性文本。每个句子相对独立，且长度适中。

2.2 固定字符数切分：简单粗暴但有效

有时候我们不需要考虑语义边界，只需要确保每个块大小一致。这在处理结构化数据时特别有用。

python

def split_by_length(text, chunk_size=200):
    """按固定字符数切分"""
    chunks = []
    for i in range(0, len(text), chunk_size):
        chunk = text[i:i + chunk_size]
        chunks.append(chunk)
    return chunks

# 实际应用示例
log_data = """2024-01-15 10:00:01 INFO System started
2024-01-15 10:00:05 DEBUG Loading configuration
2024-01-15 10:00:10 WARN Memory usage at 85%
2024-01-15 10:00:15 INFO Database connected
2024-01-15 10:00:20 ERROR Connection timeout
2024-01-15 10:00:25 INFO Retrying connection"""

# 每50字符切分一次
log_chunks = split_by_length(log_data, 50)

关键提示：这种方法最适合日志文件、代码片段或传感器数据，因为这些数据本身就有固定的格式。

2.3 带重叠窗口的切分：兼顾完整性与连续性

这是固定切分的升级版，通过在块之间添加重叠区域，确保关键信息不会“掉在缝里”。

python

def split_with_overlap(text, chunk_size=300, overlap=50):
    """带重叠的切分"""
    chunks = []
    start = 0
    
    while start < len(text):
        end = start + chunk_size
        chunk = text[start:end]
        chunks.append(chunk)
        
        # 移动起始位置，考虑重叠
        start += (chunk_size - overlap)
    
    return chunks

# 示例：技术文档切分
tech_doc = """
第一章：系统架构
1.1 概述
我们的系统采用微服务架构，包含用户服务、订单服务和支付服务。
1.2 组件说明
用户服务负责身份验证和权限管理，订单服务处理交易流程...
"""

chunks = split_with_overlap(tech_doc, chunk_size=100, overlap=30)

重叠大小的经验法则：通常设置为chunk_size的10%-20%。对于技术文档，可以适当增大重叠比例。

2.4 递归切分：LangChain的“智能选择”

这是目前最流行也最实用的方法。它按照一定的优先级顺序尝试不同的分隔符，直到切分结果满足大小要求。

核心逻辑：

首先尝试用双换行符（\n\n）切分
如果块还是太大，用单换行符（\n）再切
接着用空格切分
最后用字符切分

python

# 使用LangChain实现
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 初始化分割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,      # 目标块大小
    chunk_overlap=50,    # 重叠大小
    length_function=len, # 如何计算长度（可按token数）
    separators=["\n\n", "\n", " ", ""]  # 分隔符优先级
)

# 切分文档
documents = ["你的长文档内容在这里..."]
splits = text_splitter.create_documents(documents)

为什么这是默认选择：因为它能在语义完整性和大小控制之间取得最佳平衡，适用于大多数文档类型。

2.5 语义切分：未来的发展方向

虽然实现复杂，但语义切分代表了最智能的方向。它使用嵌入模型计算句子间的语义相似度，将相关的句子聚合在一起。

python

# 伪代码示意
def semantic_chunking(text, embedding_model, similarity_threshold=0.8):
    # 1. 将文本分成句子
    sentences = split_sentences(text)
    
    # 2. 为每个句子生成嵌入向量
    embeddings = [embedding_model.encode(s) for s in sentences]
    
    # 3. 基于相似度合并句子
    chunks = []
    current_chunk = []
    
    for i, emb in enumerate(embeddings):
        if not current_chunk:
            current_chunk.append(sentences[i])
        else:
            # 计算与当前块内句子的平均相似度
            avg_sim = calculate_similarity(emb, current_chunk_embeddings)
            if avg_sim > similarity_threshold:
                current_chunk.append(sentences[i])
            else:
                chunks.append(" ".join(current_chunk))
                current_chunk = [sentences[i]]
    
    return chunks

当前限制：计算成本高，需要额外的嵌入模型，但对专业文档（如法律合同、学术论文）效果显著。

三、实战：用LangChain搞定各种文档格式

3.1 安装与环境准备

bash

# 安装必要库
pip install langchain langchain-community
pip install tiktoken  # 用于token计数
pip install pypdf     # 用于PDF处理
pip install python-docx  # 用于Word文档

3.2 处理不同格式的文档

PDF文档处理示例：

python

from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 1. 加载PDF
loader = PyPDFLoader("产品手册.pdf")
pages = loader.load()

# 2. 切分
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)

docs = text_splitter.split_documents(pages)
print(f"原始页数：{len(pages)}，切分后块数：{len(docs)}")

Markdown文档处理：

python

from langchain.text_splitter import MarkdownTextSplitter

markdown_splitter = MarkdownTextSplitter(
    chunk_size=1000,
    chunk_overlap=100
)

with open("README.md", "r", encoding="utf-8") as f:
    md_content = f.read()

md_docs = markdown_splitter.create_documents([md_content])

代码文件处理：

python

from langchain.text_splitter import Language
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 针对Python代码的专用分割器
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,
    chunk_size=800,
    chunk_overlap=100
)

with open("app.py", "r") as f:
    code = f.read()

code_chunks = python_splitter.create_documents([code])

在这里插入图片描述

3.3 高级技巧：混合切分策略

在实际项目中，我经常使用“分层切分”策略：

python

def hierarchical_chunking(documents):
    """分层切分策略"""
    all_chunks = []
    
    for doc in documents:
        # 第一层：按章节切分（如果有标题）
        if "# " in doc.page_content:
            # 使用Markdown分割器
            md_splitter = MarkdownHeaderTextSplitter()
            first_level = md_splitter.split_text(doc.page_content)
        else:
            first_level = [doc]
        
        # 第二层：对每个章节递归切分
        for section in first_level:
            text_splitter = RecursiveCharacterTextSplitter(
                chunk_size=800,
                chunk_overlap=100
            )
            final_chunks = text_splitter.split_documents([section])
            all_chunks.extend(final_chunks)
    
    return all_chunks

四、如何评估切分效果？

切分完了，怎么知道效果好不好？我推荐这几个评估维度：

4.1 定量评估指标

python

def evaluate_chunks(chunks, target_size=500, tolerance=0.3):
    """评估切分质量"""
    stats = {
        "total_chunks": len(chunks),
        "avg_size": sum(len(c) for c in chunks) / len(chunks),
        "size_variance": np.std([len(c) for c in chunks]),
        "optimal_percentage": 0
    }
    
    # 计算在理想大小范围内的比例
    lower = target_size * (1 - tolerance)
    upper = target_size * (1 + tolerance)
    
    optimal = [c for c in chunks if lower <= len(c) <= upper]
    stats["optimal_percentage"] = len(optimal) / len(chunks) * 100
    
    return stats

4.2 定性评估方法

人工抽查：随机选择10-20个块，检查：
- 是否包含完整的意思？
- 开头/结尾是否突兀？
- 重叠部分是否自然？

检索测试：准备一组测试问题，检查：

python

def test_retrieval(query, chunks, embedding_model, top_k=3):
    # 将查询转换为向量
    query_vec = embedding_model.encode(query)
    
    # 计算与每个块的相关性
    scores = []
    for chunk in chunks:
        chunk_vec = embedding_model.encode(chunk)
        similarity = cosine_similarity(query_vec, chunk_vec)
        scores.append((similarity, chunk))
    
    # 返回最相关的k个块
    scores.sort(reverse=True)
    return scores[:top_k]

端到端测试：将切分结果用于完整的RAG流程，评估最终回答质量。

4.3 常见问题诊断表

问题现象	可能原因	解决方案
检索结果不相关	块太大，包含噪声	减小chunk_size
信息不完整	块太小，切断语义	增大chunk_size或使用重叠
检索不到关键信息	切分点不合理	调整separators或改用递归切分
性能差	块数量过多	增大chunk_size，减少重叠

评估环节往往是RAG项目中最耗时的部分。在LLaMA-Factory Online平台上，你可以一键上传测试集，系统会自动帮你评估不同切分参数的效果，并给出优化建议。更棒的是，你可以直接在这个平台上进行后续的模型微调，把评估-优化-训练流程完全打通。

五、进阶技巧与最佳实践

5.1 根据文档类型选择策略

技术文档：

使用MarkdownHeaderTextSplitter保留结构
chunk_size: 800-1200字符
overlap: 15-20%

对话记录：

按说话人切换点切分
保持完整的对话回合
可考虑语义切分

学术论文：

按章节切分
摘要单独作为一块
参考文献单独处理

5.2 多语言处理注意事项

python

def multilingual_chunking(text, language):
    """多语言适配切分"""
    # 不同语言的标点规则
    punctuation_map = {
        "zh": r"[。！？；]+",
        "en": r"[.!?;]+",
        "ja": r"[。！？；]+",  # 日文使用中文标点
        "ko": r"[.!?。]+",
    }
    
    pattern = punctuation_map.get(language, punctuation_map["en"])
    return re.split(pattern, text)

5.3 性能优化建议

批量处理：不要一个一个文档处理
缓存嵌入：如果使用语义切分，缓存嵌入结果
并行处理：多核CPU环境下使用多进程
增量更新：只处理新修改的文档

六、总结与展望

文档切分作为RAG流程的“第一步”，其重要性怎么强调都不为过。通过今天的分享，我希望大家能够：

理解核心原理：切分不只是技术问题，更是信息组织艺术
掌握实用方法：五种策略各有适用场景，递归切分是通用选择
学会评估优化：没有最好的参数，只有最适合的参数

未来趋势：

动态切分：根据查询动态调整块大小
多粒度检索：同时检索不同大小的块，组合使用
学习型切分：通过反馈学习优化切分策略

给初学者的建议：

从递归切分开始，参数设置为：chunk_size=500, overlap=50
准备一个小型测试集，快速验证效果
不要追求完美，先跑通流程再优化

记住，RAG项目是迭代的过程。文档切分作为基础环节，可能需要多次调整才能达到理想效果。关键是要建立评估机制，用数据驱动优化。

最后的思考：文档切分看似是预处理步骤，但它实际上决定了你的RAG系统能“看到”什么。好的切分让模型如虎添翼，差的切分让英雄无用武之地。希望今天的分享能帮助大家在构建自己的RAG系统时，少走弯路，快速见效。

如果你在实践过程中遇到具体问题，或者想分享自己的经验，欢迎留言交流。技术之路，我们一起前行！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AnnaReader - 纯净电子书阅读器

2048 AI社区

利用多智能体AI分析数字化转型效果

在当今数字化时代，企业纷纷进行数字化转型以提升竞争力和适应市场变化。然而，如何准确评估数字化转型的效果成为了企业面临的重要问题。本研究的目的在于利用多智能体AI技术，构建一套有效的分析方法，帮助企业全面、准确地评估数字化转型的效果。本研究的范围涵盖了多智能体AI的基本原理、数字化转型效果的评估指标体系、利用多智能体AI进行数据分析和效果评估的具体方法，以及在实际企业场景中的应用案例。核心概念与联系