先embedding再chunking的时代来了。

在RAG应用开发中,第一步就是对于文档进行chunking,chunk质量会直接决定整个RAG检索的质量。

过去,行业通常会采用先chunking再embedding,最后检索、生成的思路进行。

但这个思路中,在chunking环节,无论是固定长度分块,还是递归分块,其实都解决不了精度和上下文的平衡的问题。

在此背景下,先embedding再chunking的思路逐渐被更多人接受。

典型代表是Jina AI提出的Late Chunking策略,以及Max–Min semantic chunking。
本文将对Max–Min semantic chunking进行重点解读。

01

常见chunk思路解读

一个典型的RAG流程是这样的:

第一步,数据清洗与处理:对元数据去除无关内容(如页眉页脚、乱码),统一格式,并将长文本分割成短片段(如 500 字 / 段),避免向量表示时丢失细节。

第二步,向量生成与存储:用embedding模型(如 OpenAI 的 text-embedding-3-small、LangChain 的 BAAI embedding)将每个文本片段转换成向量(Embedding)然后将其存储到向量数据库(如 Milvus、Zilliz Cloud),数据库会通过不同索引方式优化语义检索效率。

第三步,查询:将用户的自然语言查询(如 “RAG 如何解决大模型幻觉问题”)通过相同的embedding模型转换成向量后,向量数据库根据查询向量,快速找到语义最相似的Top-K 个文本片段

第四步,生成回答:将检索到的 Top-K 文本片段作为上下文,和用户的原始查询一起拼接成提示词(Prompt),传给大模型,大模型据此生成回答。

在这个过程中,高效的文档分块是整个流程中的第一步,它将文档拆成小块(一个段落、一节或一组句子),可以有效的提高后续召回内容的准确性与细节丰富度。

但做好一个高质量的chunking并不容易。

目前行业有两种常见的分块方法:

  • 固定大小分块:简单粗暴,按固定的字符数或token数来切分。优点是效率高,但没有语法和语义意识,随便切割,容易让句子甚至单词断裂,直接导致不连贯。

  • 递归****字符分块:这个思路比固定大小聪明些,按优先级比如段落、换行符、句子等逐步切分。它会先按段落切分,如果段落太大,就会递归地按换行符、句子等切分。优点是简单且有语义感,能保证块内的一定连贯性,但可能仍然存在断层。但是部分文档可能缺乏清晰结构,或章节、段落长度差异过大,这会影响检索算法向 LLM 提供最优相关文本的能力;此外,该方法还可能生成超出 LLM 上下文窗口的分块。

以这两种方式进行分块的时候,我们经常要考虑两个问题:精度和上下文的平衡

越小的块,精度越高,但上下文可能不全;越大的块,语境更完整,但可能包含太多无关信息。

2025年Bhat等人的研究发现,分块大小这个问题没有标准答案,但整体上,事实类问题适合小块(64-128 token),而叙事类问题则适合大块(512-1024 token)。

有没有更聪明一点的办法?不要完全被长度限制的分块思路?

答案是有的——Max–Min semantic chunking。

论文链接:https://link.springer.com/article/10.1007/s10791-025-09638-7?utm_source=chatgpt.com

02

Max–Min semantic chunking 解读

Max–Min semantic chunking的核心是通过动态语义评估来实现分块优化。

相比传统RAG流程,先chunking再embedding,Max–Min semantic chunking会先对所有句子进行embedding,然后在此基础上进行分块。

Max–Min semantic chunking会将分块任务视为动态 / 时序聚类问题:基于句向量的相似度,将不同句子组合成新的分块。

但与传统聚类方法不同,该方法需尊重文档中句子的时序性—— 即同一聚类内的句子必须连续。算法会按顺序逐句处理文档,决定每个句子是加入当前分块,还是开启新分块。

具体步骤如下:

  1. 生成embedding并初步****聚类:首先使用文本嵌入模型,将所有句子映射到高维空间。设文档包含 n 个句子,通过计算,已将前n-k个句子归入当前分块 C。此时需决策:n-k+1个句子,是加入分块 C,还是创建新分块。
  2. 计算分块内最小相似度:计算当前分块 C 内所有句子向量间的最小 pairwise 余弦相似度,识别分块内语义最不相似的句子对,衡量分块内句子的关联紧密程度,进而判断新句子是否与分块内句子足够相似。
  3. 计算新句子与分块的最大相似度:计算当前分块 C 内所有句子的最大余弦相似度,对比新句子与现有分块的最高语义相似度。
  4. 分块决策依据:核心决策逻辑为:若分块 C 内的最小相似度小于新句子与分块 C 的最大相似度,则新句子加入分块 C,否则开启新分块。
  5. 阈值调整(分块大小优化):对于如何调整块内语义相关度,我们可以动态调整分块大小、相似度阈值等等参数。
  6. 初始化处理(分块中仅有单个句子时):当当前分块仅包含 1 个句子时,需特殊处理初始化问题,直接对比第一句与第二句相似度与我们设置的阈值常数,高于常数就算入同一个分块,低于这个常数就开启新的分块。

03

Max–Min semantic chunking的优劣势

Max–Min semantic chunking的创新点一共有三:

  1. 动态分块逻辑:摒弃固定尺寸或结构依赖的静态规则,以 “句子语义相似度” 为核心决策依据。具体流程为:先计算当前分块内句子的最小语义相似度(衡量分块内语义关联的下限),再计算新句子与当前分块的最大语义相似度(衡量新句子与分块的适配度);若最大相似度高于最小相似度,则将新句子纳入当前分块,否则启动新分块。
  2. 轻量化参数设计:仅需调整 3 个核心超参数(最大分块大小、一二句之间的最低语义相似度需求、新句子与块内句子最大相似度的最低门槛),且超参数逻辑与分块大小自适应 —— 分块规模越大,新句子纳入的阈值越高。
  3. 计算资源复用:复用 RAG 系统原生所需的 “句子嵌入向量”(无需额外计算嵌入),仅在分块阶段增加轻量化的余弦相似度计算,整体计算开销低于传统语义分块方法。

但Max–Min semantic chunking方法也有其不足,因为是依据时序聚类,因此处理长文档时可能会丢失文档中长距离的上下文依赖关系。

如果关键信息散落在多个文本块中,脱离上下文的文本分块片段很可能失去其原有的意义,导致后续的召回效果比较差。

以Milvus 2.4.13 release note为例,假如分为如下两个文档块,如果我们要查询Milvus 2.4.13有哪些新功能?,直接相关内容在分块2里,而Milvus版本信息在分块1里,此时,Embedding 模型很难将这些指代正确链接到实体,从而产生质量不高的Embedding。

此外,由于功能描述与版本信息不在同一个分块里,且缺乏更大的上下文文档,LLM 难以解决这样的关联问题。

对于这种问题,我们可以采用滑动窗口重新采样、重叠的上下文窗口长度以及多次文档扫描等方式来解决。

普通人如何抓住AI大模型的风口?

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述

AI大模型开发工程师对AI大模型需要了解到什么程度呢?我们先看一下招聘需求:

在这里插入图片描述

知道人家要什么能力,一切就好办了!我整理了AI大模型开发工程师需要掌握的知识如下:

大模型基础知识

你得知道市面上的大模型产品生态和产品线;还要了解Llama、Qwen等开源大模型与OpenAI等闭源模型的能力差异;以及了解开源模型的二次开发优势,以及闭源模型的商业化限制,等等。

img

了解这些技术的目的在于建立与算法工程师的共通语言,确保能够沟通项目需求,同时具备管理AI项目进展、合理分配项目资源、把握和控制项目成本的能力。

产品经理还需要有业务sense,这其实就又回到了产品人的看家本领上。我们知道先阶段AI的局限性还非常大,模型生成的内容不理想甚至错误的情况屡见不鲜。因此AI产品经理看技术,更多的是从技术边界、成本等角度出发,选择合适的技术方案来实现需求,甚至用业务来补足技术的短板。

AI Agent

现阶段,AI Agent的发展可谓是百花齐放,甚至有人说,Agent就是未来应用该有的样子,所以这个LLM的重要分支,必须要掌握。

Agent,中文名为“智能体”,由控制端(Brain)、感知端(Perception)和行动端(Action)组成,是一种能够在特定环境中自主行动、感知环境、做出决策并与其他Agent或人类进行交互的计算机程序或实体。简单来说就是给大模型这个大脑装上“记忆”、装上“手”和“脚”,让它自动完成工作。

Agent的核心特性

自主性: 能够独立做出决策,不依赖人类的直接控制。

适应性: 能够根据环境的变化调整其行为。

交互性: 能够与人类或其他系统进行有效沟通和交互。

img

对于大模型开发工程师来说,学习Agent更多的是理解它的设计理念和工作方式。零代码的大模型应用开发平台也有很多,比如dify、coze,拿来做一个小项目,你就会发现,其实并不难。

AI 应用项目开发流程

如果产品形态和开发模式都和过去不一样了,那还画啥原型?怎么排项目周期?这将深刻影响产品经理这个岗位本身的价值构成,所以每个AI产品经理都必须要了解它。

img

看着都是新词,其实接触起来,也不难。

从0到1的大模型系统学习籽料

最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师(吴文俊奖得主)
在这里插入图片描述

给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

图片

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。
在这里插入图片描述

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

  • 基础篇,包括了大模型的基本情况,核心原理,带你认识了解大模型提示词,Transformer架构,预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门AI大模型
  • 进阶篇,你将掌握RAG,Langchain、Agent的核心原理和应用,学习如何微调大模型,让大模型更适合自己的行业需求,私有化部署大模型,让自己的数据更加安全
  • 项目实战篇,会手把手一步步带着大家练习企业级落地项目,比如电商行业的智能客服、智能销售项目,教育行业的智慧校园、智能辅导项目等等

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

AI时代,企业最需要的是既懂技术、又有实战经验的复合型人才,**当前人工智能岗位需求多,薪资高,前景好。**在职场里,选对赛道就能赢在起跑线。抓住AI这个风口,相信下一个人生赢家就是你!机会,永远留给有准备的人。

如何获取?

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐