本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

THE PILE 是一个专为训练大规模语言模型设计的 825 GiB 大规模英语文本语料库,由 EleutherAI 团队构建并于 2020 年 12 月发布。它通过整合 22 个高质量、多样化的子数据集,突破了以往语言模型主要依赖 Common Crawl 等单一数据源的局限,显著提升了模型的跨领域知识掌握能力和下游任务泛化性能。

🔍 数据集的组成与数据源

THE PILE 的核心价值在于其多样性。它包含了从学术论文、专业文档到网络文本等多种类型的语料。以下是其主要组成部分的简要概览:

数据源类型 代表性数据子集 数据特点与用途
学术与专业文献 PubMed Central ( biomedical) 📚, arXiv (preprints) , USPTO Backgrounds (patents) , FreeLaw (legal opinions) 高质量的正式书面语,专业领域知识
书籍与文学作品 Books3 📖, Project Gutenberg (PG-19) , BookCorpus2 长篇叙事结构,丰富语言表达与逻辑
网络与社区内容 OpenWebText2 , Stack Exchange , Wikipedia (en) , Hacker News 涵盖广泛主题,反映日常与技术用语
代码与对话数据 GitHub (code) 💻, Ubuntu IRC (chat logs) , OpenSubtitles 编程语言模式,非正式与口语化交互
多语言与其他 EuroParl (proceedings) , YouTube Subtitles , DeepMind Mathematics 多语言并行文本,数学问题求解

这些数据源中,包含了 14个专为THE PILE引入的新语言建模数据集

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

⚙️ 构建过程与技术细节

构建THE PILE的目标是创造一个高质量、高多样性的语料库。

  • 数据处理:团队对原始数据进行了细致的处理,例如,对来自 Common Crawl 的 Pile-CC 子集,他们使用 jusText 工具从原始网页存档文件中提取文本,这比直接使用常见的 WET 文件获得了更高质量的输出。
  • 质量控制:数据经过去重语法验证,以确保内容的纯净度和可用性。
  • 数据格式:最终发布的数据集采用 jsonlines 格式,并使用 zstandard 算法进行压缩。每个文档都保持了其内部顺序,但所有子集的数据文档会被随机打乱后混合在一起。
📊 应用场景与基准测试

THE PILE 主要用于训练大规模语言模型,并可作为评估模型跨领域知识和泛化能力的基准。

  • 基准测试:研究团队在 THE PILE 的测试集上评估了 GPT-2 和 GPT-3困惑度(Perplexity)。结果显示,这些现有模型在诸如学术写作等许多 THE PILE 的组成部分上表现不佳,这凸显了在更广泛文本类型上训练的必要性。
  • 训练收益:相比之下,直接在 THE PILE 上训练的模型(如 GPT-2 架构),不仅在 THE PILE 自身的所有组件上表现优于仅在 Common Crawl 数据上训练的模型,在下游任务的评估中也显示出显著的性能提升。这表明数据集的多样性有效增强了模型的通用能力。
💻 获取、使用与伦理考量

Hugging Face datasets也集成了 THE PILE 及其部分子集,方便用户直接加载使用。

使用 THE PILE 需要遵守其 MIT 许可证,并同意其使用条款。

在伦理方面,像任何大型网络文本集合一样,THE PILE 可能包含偏见或不适当内容。为此,EleutherAI 后续发布了 《THE PILE 数据手册》 ,详细说明了数据集的动机、组成和处理过程,以帮助用户理解潜在风险并做出负责任的使用决策。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐