大模型训练数据全攻略：从数据处理到高质量数据集构建（建议收藏）

本文详细介绍了大模型训练数据的种类、处理流程和特点。通过高质量数据构建可大幅降低训练数据规模，阐述了质量过滤、冗余去除、隐私消除等预处理方法，以及人工标注数据的类型和用途。介绍了SFT、RM、PPO三类数据集的准备，自动化算法和多模态数据处理的应用，以及常用公开数据集。

进击的码农！

489人浏览 · 2025-12-16 16:12:10

进击的码农！ · 2025-12-16 16:12:10 发布

1 大模型的训练数据

数据是大模型的关键要素，其所需的数据的种类也非常广泛，涉及多种模态。以语言大模型为例，其所需要的数据包括多语言数据、代码数据、人工标注数据等多种类别。

1.1 大模型的训练数据处理流程和特点

根据大模型训练的尺度定律（scaling law），数据规模、模型参数与大模型性能存在紧密关系。近期，微软研究工作表明提高数据质量可以极大地改变尺度定律的形状。

通过构建 7B 的小规模“教科书（Textbooks）”高质量的代码训练数据（包括从 web 上筛选的“教科书质量”数据（6B tokens）以及使用 GPT-3.5 生成的教科书和练习（1B tokens）），训练 1.3B 模型 phi-1 在代码评测集 HumanEval 上 Pass@1准确率达到了 50.6%，超越 GPT-3.5（175B，超过 2TB 训练数据）的47%。

该方法表明，通过构建高质量的数据，可以大大降低大模型训练需要的数据规模，具有重要指导意义。

下面是几类用于提升数据质量的预处理方法。

**质量过滤：**语言大模型训练中需要过滤低质量数据，主要分为两类方法：基于分类器的方法和基于启发式的方法。基于分类器的方法是训练一个文本质量判断模型，用以识别并过滤低质量数据。例如，GPT3、PaLM和 GLaM模型在训练数据构造时都使用了基于分类器的方法。而基于启发式的方法则是通过一组精心设计的规则来消除低质量文本，主要包括语言过滤、指标过滤、统计特征过滤和关键词过滤，如 BLOOM 和 Gopher都采用了基于启发式的方法。
**冗余去除：**语言大模型训练语料库中的重复数据会影响模型性能，降低语言大模型的多样性，并可能导致训练过程不稳定。因此需要对数据进行冗余去除。文本冗余发现（Text Duplicate Detection）也称为文本重复检测，是自然语言处理和信息检索中的基础任务之一。该方法用于数据处理可以发现不同粒度上的文本重复，包括句子、段落以及文档等不同级别，可以有效改善语言模型的训练效果。
**隐私消除：**预训练数据中可能包含涉及敏感或个人信息，增加隐私泄露的风险。对于此类问题，最直接的方法是采用基于规则的算法删除隐私数据。例如可以使用基于命名实体识别的算法，检测数据中姓名、地址和电话号码等个人信息内容，并进行删除或者替换。这种方法使用了基于 Transformer 的模型，并结合机器翻译技术，可以处理超过 100 种语言的文本，消除其中的隐私信息。

当前，大模型训练不仅需要大量的无标注数据，而且也需要高质量的人工标注数据，用于模型微调等任务。语言大模型通常需要人类提供明确的指令用于生成有用的输出，标注者通常需要编写提示，典型的提示类型包括如下几种：

普通提示（Plain）：这种类型的提示是为了确保模型的多样性。标注人员需要设计一系列任务，并确保任务具有足够的多样性，以便模型能够了解不同类型的问题和请求。
少量样本提示（Few-shot）：这种类型的提示需要标注人员设计一个指令以及该指令的多个查询/响应对。这些示例应该是常见任务或指令，并且应该涵盖各种不同的主题和情境。
**基于用户的提示（User-based）：**这种类型的提示需要标注人员根据用户使用案例来编写提示。这些使用案例很有可能是源于用户的实际需要，因此标注人员应该尽可能准确地描述任务和需求。

基于上述收集的数据和提示信息，需要准备三类数据集用于不同训练阶段：
SFT数据集，标注人员会根据输入的提示给出一些符合需求的示例结果，然后在这些数据上进行有监督学习。
RM数据集，对同一个输入，模型会给出多个输出结果，标注员会标注各个结果好坏的排序，然后在这个基础上训练一个奖励模型。
PPO数据集，没有任何人类标签，用作强化学习的输入。在数据构建任务中，随着数据量不断增长，需要开发自动化算法来简化流程。例如，数据增强等环节的自动化受到越来越多的关注。这些任务的自动化不仅会提高效率，而且会提高准确性。

此外，自动化可以促进人工标注结果的一致性。多模态大模型需要有大规模的多模态训练数据，这类数据的收集与处理难度相比于单模态数据更大，需构建以低代价挖掘并实现不同模态之间对齐的高质量多模态数据的方法。

未来还需要重点考虑的问题包括：如何构建大模型数据质量评价体系、如何科学地配比训练数据、以及如何在训练不同阶段引入数据等。

1.3 大模型常用的公开数据集

当前已经出现一批大模型数据集，涵盖多种模态。代表性的数据集既包括 ALIGN、VAST-27M、WebVid-2.5M等多模态数据集，还包括 BookCorpus、Common Crawl、HH-RLHF等语言大模型数据集。

表 1 大模型常用的公开数据集

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述