“垃圾进，垃圾出”魔咒怎么破？大模型语料数据处理核心技术，从入门到精通！

在大语言模型的启蒙阶段，它需要先经历一个叫 **预训练** 的过程。可以把它想象成模型在读一本超级庞大的百科全书，里面装满了各种各样的文本资料。通过阅读和学习这些内容，模型会逐渐掌握语言的规律，并学会如何理解和生成文字。

Python编程杰哥

325人浏览 · 2025-10-10 21:23:36

Python编程杰哥 · 2025-10-10 21:23:36 发布

在大语言模型的启蒙阶段，它需要先经历一个叫 预训练 的过程。可以把它想象成模型在读一本超级庞大的百科全书，里面装满了各种各样的文本资料。通过阅读和学习这些内容，模型会逐渐掌握语言的规律，并学会如何理解和生成文字。

这里有个关键点：数据的质量和多样性。如果只让模型看单一类型的文章，比如全是小说，它可能会讲故事很厉害，但在回答医学或法律问题时就显得力不从心。所以，研究人员会尽可能让训练数据覆盖更多的领域和场景，比如网页文章、学术论文、百科词条、社交媒体对话、书籍，甚至是法律文件、财务报告、医学教材等。

这样一来，模型不光能博闻强识，还能适应不同的语言环境、文化背景和表达方式，从而在面对各种问题时都能给出相对合理的回答。换句话说，丰富而高质量的训练数据就是大语言模型的养分，决定了它未来能长成一个通才还是一个偏科生，面对海量文本数据，我们需要掌握一些数据处理技术，提升文本语料的质量。

数据处理过程

大语言模型的相关研究表明，数据质量对于模型的影响非常大。因此，在收集了各种类型的数据之后，需要对数据进行处理，去除低质量数据、重复数据、有害信息、个人隐私等内容。典型的数据处理流程如下图所示，主要包括质量过滤、冗余去除、隐私消除、词元切分这几个步骤。

1 质量过滤

我们都知道，互联网上的信息鱼龙混杂：有的内容可靠、有价值，但也有很多水货，比如广告灌水、机器生成的垃圾文本、甚至带有错误信息的内容。研究和实践都证明了一个事实：训练数据的质量，直接决定了大语言模型的水平。如果喂进去的都是劣质数据，就像学生天天读野史段子，那模型学到的自然也是四不像。

因此，在构建大语言模型之前，一个重要步骤就是——清洗数据。换句话说，就是把没营养甚至有害的文本剔除掉，留下更高质量的“养料”。目前常见的清洗方法大体分为两类：

1. 基于分类器的方法

这种方法有点像请来一个“质检员”。研究人员会先训练一个专门判断文本好坏的小模型，然后让它负责筛查大规模语料。比如 GPT-3、PaLM、GLaM 这些知名模型，在整理训练数据时都用过这种方式。
举个例子：研究人员会挑选一批公认优质的内容（比如维基百科、书籍、部分高质量网站），拿来训练这个质检员。这样它就能识别出哪些网页更像好内容，哪些更像垃圾。最终，只需要设定一个分数阈值，就能把低分的数据过滤掉。
不过，这种方法也有个小问题：它可能会把一些看起来不标准，但其实很有价值的内容（比如方言、口语化表达）一并删掉，导致数据的多样性有所损失。

2. 基于规则的方法（启发式）

另一种方式则更手工，靠一套规则来筛查。比如：

语言过滤：只要模型专注某种语言，就可以把其他语言的文本直接丢掉。
指标过滤：用“困惑度”这样的指标来判断句子是否自然。如果一段话让模型都觉得别扭，那大概率质量不高。
统计特征过滤：检查标点分布、句子长度、符号比例等。如果一篇文章充斥着奇怪符号或超长无标点句，很可能就是低质文本。
关键词过滤：直接删除带有特定噪声词的文本，比如 HTML 标签、大量超链接、甚至带有攻击性的脏话。

这些方法看似笨，但在大规模数据清洗中非常实用，也被 BLOOM、Gopher 等大模型采用过。

2 冗余去除

在训练大语言模型时，有一个常被忽视的问题：重复数据。
想象一下，如果一个学生总是背诵同一篇课文，虽然能把这篇文章记得滚瓜烂熟，但知识面并不会因此变宽广，甚至可能形成机械记忆，思维也会变得僵化。对大语言模型来说也是一样，大量重复的数据不仅会降低模型的多样性，还可能让训练过程变得不稳定，最终影响模型的表现。

因此，研究人员在整理预训练语料时，会专门进行 去重处理。这个过程也叫 文本重复检测，目标就是在不同层次上找到并剔除冗余内容，包括句子、段落、甚至整个文档。

1）句子级别的去重

在句子层面，重复可能表现为一段话里频繁出现同样的词或短语。这会让模型在训练时学到爱重复的习惯，导致生成内容时陷入所谓的 重复循环。
举个例子：有研究发现，当用 GPT-2 生成文本时，它有时会不断重复同一个名字或句子片段，像复读机一样停不下来。为了避免这种情况，研究人员会过滤掉那些包含过多重复词的句子。

比如在 RefinedWeb 数据集的构建过程中，就用了一种基于后缀数组的技术来检测相同片段。听起来很复杂，其实可以理解成：把一整篇文章拆成各种可能的结尾片段（后缀），然后按字典顺序排好队。这样，相同或高度相似的片段就会紧挨在一起，便于快速发现和去除。凭借并行算法和大规模硬件，即使是上百 GB 的数据，也能在几个小时内完成去重。

2）文档级别的去重

在文档层面，去重方式就更粗犷一些，通常通过比较文本的相似度来判断。
比如 LLaMA 模型采用的 CCNet 方法，会先把文档进行标准化处理，包括：统一小写、把数字替换成占位符、去掉标点和重音符号。之后，每个段落都会生成一个 哈希值（类似于指纹），如果两个段落指纹相同，就说明它们可能重复。
RefinedWeb 数据集则更进一步，先把网页里的菜单、广告、页脚这些噪声去掉，只保留正文，再利用 n-gram（词组片段）重叠程度 来衡量相似度，超过阈值的就被判定为重复并删除。

3. 数据集级别的去重

最后，在更大范围的数据集层面也可能存在冗余。比如很多模型的训练数据都会包含 GitHub、Wikipedia、C4 等公开数据集。如果不同来源的数据里重复收录了同一部分内容，模型就相当于被迫多次学习同样的东西。
更严重的问题是，如果训练数据里混入了 测试集的内容，那就相当于学生在考试前提前看到了答案，导致评估结果失真。这就是所谓的 数据集污染，是预训练中需要特别注意避免的。

3 隐私消除

大语言模型的训练数据大多来自互联网，而网上的内容不仅多而杂，还常常包含用户的 个人敏感信息。这些信息可能包括姓名、邮箱、电话、住址，甚至是身份证号。如果不加处理地用来训练模型，就有可能造成 隐私泄露风险。

研究人员已经发现，当给模型输入一些前缀词时，它可能会自动补全出一整串看似真实的姓名、邮箱和联系方式。这些并不是凭空编造的，而是模型在预训练时，从数据里学到的模式。想象一下，如果这些补全里出现了真实的个人信息，后果就会非常严重。

因此，在整理预训练语料时，一个关键步骤就是：清理掉包含个人信息的内容。

那如何去除隐私数据呢？

最常见的方法就是 基于规则的检测与删除。
比如 BigScience 在构建 ROOTS 语料库 时，就用了一种基于 命名实体识别 的方法。这个技术可以自动识别文本里的姓名、地址、电话号码等敏感信息，然后把它们删除或替换。

更厉害的是，这套方法使用了基于 Transformer 的模型，并结合了机器翻译技术，能处理超过 100 种语言。这样，即使是跨语言的文本，也能有效识别和去除隐私内容。这一技术后来被做成了一个工具库，叫 muliwai，方便在大规模数据清洗中直接使用。

4 词元切分

在自然语言处理里，我们需要把文本拆解成机器能处理的基本单元。最早，人们习惯把单词当作最小单位，并建立一个固定的词表。模型在训练和使用时，都会从这个词表里查找对应的向量表示。

但这种方式有一个明显的问题：如果出现了词表中没有的词（比如冷僻词、新词，或者网络热词），模型就没法正常处理了。这类词被称为未登录词（OOV, Out-of-Vocabulary）。传统做法是给它们统一分配一个特殊符号 [UNK]，意思就是未知词。不过，这样会让很多不同的新词混在一起，丢失了语义差别。

同时，词表的大小也很尴尬：

词表太小 → 未登录词很多，模型表现差。
词表太大 → 会塞进很多低频词，反而浪费空间，还难以学好。

于是，研究者们开始思考：能不能不要局限在完整的单词上，而是从更细的单位去切分。

子词切分（Subword Tokenization）

一个自然的想法是从字符入手。比如reborn可以拆成 r-e-b-o-r-n。但字符太细了，很难捕捉“前缀 re-”或者“后缀 -ing”这样的构词规律。

于是，研究人员提出了子词切分的方法：

词表里既包含常见的完整单词，也包含一些有意义的词片段（比如 re、 ing）。
当遇到不常见的词时，就把它拆成若干子词。比如 reborn → re + born。
这样，大部分新词都能通过子词来表示，不会完全丢失信息。

这种方式不仅减少了未登录词，还能在一定程度上学习到词根、词缀的规律。

常见的子词切分方法

1）BPE（Byte Pair Encoding）
BPE 的核心思想是合并高频字母对。

BPE 的好处是：常见词会以整体出现，不常见词能拆成已知片段，几乎不会遇到完全未知的词。
现代大模型（BART、LLaMA 等）普遍采用了 字节级 BPE，进一步提升了对多语言和特殊字符的处理能力。比如 LLaMA 的词表大小是 32K，英文覆盖很好，但中文往往需要两个或三个字节词元才能组成一个汉字。

一开始，把每个单词拆成单字符，并在末尾加上特殊标记 </w> 表示单词结束。例如：low → l o w </w>。
然后统计哪些相邻字符对最常见，比如 (e, s)，就把它们合并成 es。
不断重复这个过程，直到词表大小达到设定值。
使用时，BPE 会优先用词表里最长的词元来切分新词。比如 lowest 会被切成 low + est。

2）WordPiece
WordPiece 的思路和 BPE 类似，也是不断合并子词。不同的是，它不是单纯看“频率最高的字母对”，而是：

先训练一个语言模型。
选择能最大程度提升数据似然概率的子词对进行合并。

简单来说，BPE 是“谁出现得多合并谁”，而 WordPiece 是“谁对语言建模帮助大合并谁”。BERT 的分词器就是用 WordPiece 实现的。

3）Unigram
Unigram 的做法正好相反：

先准备一个非常大的候选词元集合。
然后逐步删除“没用”的词元，直到剩下一个合适大小的词表。
删除标准是：去掉这个词元后，语言模型的似然性提升最多。

在训练过程中，Unigram 会用到 EM 算法（期望最大化） 和动态规划（比如维特比算法），来高效地找到最佳切分方式。T5 和 mBART 等模型采用了这种分词方法。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训

大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调

大厂绿色直通车，冲击行业高薪岗位

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

无人机追逃博弈论文读取有感

多智能体追逃博弈算法综述与未来方向本文系统梳理了多智能体追逃博弈的算法框架，分为全局视野和局部视野两大类，并针对无人机局部观测场景提出推荐方案。全局视野算法（如MADDPG、QMIX）依赖完整环境信息，虽在协同控制中表现良好，但难以适应真实场景中的部分观测问题，存在过拟合和泛化性差的缺陷。局部视野算法（如MAPPO、MAAC）更适合无人机追逃场景，通过注意力机制、图神经网络或课程学习实现局部

2048 AI社区

使用 MATLAB/Simulink 搭建一个多业务动态资源分配系统

本文介绍了基于Simulink的5G/6G动态资源分配仿真方法，重点针对eMBB、URLLC和mMTC三类业务场景。通过对比MaxC/I、PF和QoS-awarePF等调度算法，提出采用QoS-awarePF作为多业务共存场景的首选方案。文章详细阐述了从系统参数定义、业务模型构建到调度器实现的完整建模流程，特别强调了利用Stateflow实现具有URLLC软抢占功能的动态调度机制。仿真结果表明，Q