当你问到 ChatGPT 的训练数据来自哪里、如何被采集与处理,答案并不是一个单点来源,而是一条由多种数据源与工业化数据工程共同组成的长链路。在官方与学术材料中,关于数据来源与采集方式已经形成了一个清晰的三分法:公开可获得的互联网信息、与第三方达成许可获取的内容、以及用户与人工标注者在研发与对齐阶段产生的数据。这一分类来自 OpenAI 的官方帮助文档与系统卡,能够代表当下主流大模型的训练格局。(OpenAI Help Center)

为了让抽象概念落地,下文会把每一类数据从源头、采集方式、清洗流程与合规治理这几个维度串起来,并穿插真实世界的合作案例与新闻报道,包括 Financial Times、News Corp、Reddit、Stack Overflow、Shutterstock 等与 OpenAI 的内容或数据合作;也会结合 GPT-3 论文中公开的训练集构成,帮助你把 Common CrawlWebTextWikipediaBooks 这类名词放回产业化数据工程的语境中。(About the FT)


三大来源:公开数据、许可数据、人与模型交互数据

OpenAI 在对外说明中明确写到,基础模型的训练主要来自三类信息:公开的互联网信息、与第三方合作访问的信息、以及用户、人类训练师与研究者提供或生成的信息。这个表述揭示了宏观分布,但没有逐条列出具体网站名单,这与行业里对训练语料的披露习惯保持一致。(OpenAI Help Center)

在具体模型层面,GPT-4 的系统卡进一步解释了数据的类型学特征:既包含许可的数据与 OpenAI 自行创建的数据,也包含公开可获得的数据。这意味着训练集既不完全是公共爬取,也不等于纯授权闭集,而是一个复合式拼装。(OpenAI)


公开可获得数据:从 Common Crawl 到百科与网络图书

讲到公开可获得数据,历史资料最具代表性的仍是 GPT-3 论文所披露的训练配比:在当时的数据配方里,Common Crawl 占大头,WebText2Books1/Books2Wikipedia 构成了剩余的主力。论文虽是 2020 年的产物,但它把“大模型如何用大规模互联网文本进行自监督预训练”的工业范式讲清楚了。(arXiv)

很多人听说 Common Crawl,却不一定了解它是什么。简要来说,它是一家非营利组织,长期持续抓取开放网络,形成免费的网页数据存储库,并向研究者与产业开放。其公开信息显示,数据覆盖数百亿网页,每月新增若干十亿级页面,数据存放于 AWS Public Data Sets 等平台,可直接下载原始页面、文本抽取与元数据。这类开放爬网语料是互联网规模语言建模的基石。(commoncrawl.org)

在采集层面,一个常被问到的细节是网站的 robots.txt 与退出机制。Common Crawl 明确表示会遵守站点的 robots.txt,并在抓取中设置比较保守的延迟策略以降低对站点的压力;这表明开放爬网并非无序抓取,而是在既定的网络礼仪下运行。(commoncrawl.org)

从清洗角度看,公开爬取的网页原始质量参差不齐,工业界通常会做一系列处理:语言检测、去重、近似去重、格式化清理、质量评分与降采样、脏词与可疑内容过滤、个人可识别信息的剔除尝试,以及对潜在基准污染的检测等。虽然不同公司流程不尽相同,但 GPT-3 的公开资料与后续课程讲义都强调了对 Common Crawl 的降采样与多源数据的配比,这反映出工程实践中的“以质换量”。(stanford-cs324.github.io)


许可获取的数据:媒体、社区与素材库的授权合作

近两年你能明显看到,生成式 AI 厂商与内容方的关系从早期的“默认开放”快速转向“有偿授权”。在新闻媒体领域,OpenAI 与 Financial TimesNews CorpLe MondeAxel Springer 等签署了多年的内容许可协议,既用于改进模型,也支持在 ChatGPT 中显示带出处的摘要与链接。这类协议常常覆盖历史存档与新近内容,并以现金或技术资源等形式付费。(Reuters)

在社区数据方面,OpenAI 与 RedditStack Overflow 达成了 API 与数据合作:前者通过 Reddit Data API 提供结构化的实时社区内容,后者通过 OverflowAPI 提供开发者问答的高质量语料与反馈信号。这种直连式授权,一方面提升了数据的新鲜度与结构化程度,另一方面也能更好地满足出处标注与合规要求。(OpenAI)

而在多媒体训练数据方面,OpenAI 与 Shutterstock 达成了多年期的许可,覆盖图片、视频与音乐等素材,为图像与多模态模型提供高质量标注资源。公开信息显示,Shutterstock 的 AI 授权业务在 2023 年创造了上亿美元的收入,成为内容库商业模式的重要延展。这些案例说明,许可数据正在快速成为大模型训练集的核心组成。(Shutterstock Investor Relations)


用户与人类训练师产生的数据:从监督微调到 RLHF

除了底座预训练,现代对话模型还需要大量对齐数据。InstructGPT 论文系统地展示了监督微调与 RLHF 的路线:标注者撰写提示与示范,模型在此基础上进行监督微调;随后采集模型回答的成对比较,训练偏好模型,再以偏好模型作为奖励信号,做策略梯度式的强化学习微调。这里的数据来自平台标注者与真实用户的交互,其中一部分会进入训练或评估流程。(arXiv)

关于人类数据的另一面,媒体调查也提示了对标注劳动的伦理关注。例如有报道指出,外包标注人员参与了有害内容的筛查与标注,工作内容可能导致心理压力。这提醒我们,在谈论训练数据时,除了网页与许可文本,还应把“人”的劳动纳入数据全景。(TIME)


采集到可用:一条典型数据管道的工程画像

为了把宏观概念转成工程实践,可以把一条典型的文本训练数据流水线拆解为几道工序。不同公司细节会有差异,但核心环节大致相似:

数据入库:面向公开网页的爬虫或第三方开放存储(如 Common Crawl),面向合作方的 API 或批量交付,面向内部的标注平台产出。公开文档显示,Common Crawl 为研究与产业提供了原始网页、元数据与文本抽取三种形态,便于形成下游管道。(commoncrawl.org)

内容过滤:语言识别、编码统一、可见文本抽取、脚本与样板内容剔除、脏词库过滤、内容分段与样本化。高校课程与社区分享普遍会把这一步视作提升有效样本密度的关键。(stanford-cs324.github.io)

质量评分与采样:对文档进行启发式或学习式打分,根据题材、可读性、重复度、链接结构等指标进行加权采样。GPT-3 公开材料提及过把 Common Crawl 降采样,从而提升整体质量占比。(stanford-cs324.github.io)

去重与近似去重:为了避免模型过拟合高频页面,工业界会用哈希、指纹或 MinHash LSH 等方法做文本级、段落级的去重与去近似重。这类技术在大规模网页语料处理中非常常见。GPT-3 相关资料与社区综述都曾提到类似思路。(Wikipedia)

合规与隐私治理:对明显的个人可识别信息与敏感属性做规则与模型结合的过滤;对合作方数据按协议范围使用与留存;对用户数据提供退出与删除请求的通道。这些实践在 OpenAI 的隐私政策与帮助文档中有明确描述,包括在 ChatGPT 客户端里关闭内容用于训练的开关与隐私门户的管理入口。(OpenAI)

基准去污染:为了避免评测集与训练集交叉污染,行业通常会对常见基准做匹配排除;虽然公开材料在这方面披露有限,但这已成为顶会论文与工程实践中的默认要求。参考 GPT-4 的系统卡与学界对数据透明度的讨论,可以把它视作质量保证的一部分。(OpenAI)


真实世界合作与采集方式的案例簇

把抽象的三分法拉回新闻与公告,你会看到一组足以代表主流路线的案例簇:

媒体授权Financial Times 与 OpenAI 的合作允许在 ChatGPT 中显示带出处的摘要,并用于改进基础模型;News Corp 与 OpenAI 的多年协议则覆盖 WSJBarron’sNew York Post 等品牌的内容;法国的 Le Monde 同样宣布了多年的授权合作。媒体方从版权与收益角度获得更强的议价权,模型方得到高质量、可追溯的新闻文本。(Reuters)

社区数据Reddit 与 OpenAI 的合作通过 Data API 提供结构化的、高时效的讨论语料;Stack Overflow 则通过 OverflowAPI 供给程序问答与代码片段,并承诺在 ChatGPT 中进行适当归因。这解决了社区数据碎片化、页面模板噪声重的问题。(OpenAI)

素材库授权Shutterstock 的多年期协议覆盖图像、视频与音乐素材,公开报道显示其 AI 授权在 2023 年带来逾亿美元营收。对于多模态模型而言,这类高质量、可溯源的素材与元数据至关重要。(Shutterstock Investor Relations)

这些案例综合起来,构成了如今“许可数据 + 公开数据”的双轮驱动,而非单一依赖网页爬取的旧模式。


与用户与社会的边界:退出、移除与站点控制

很多企业用户与开发者会关心:我自己的对话数据会不会被用于训练?OpenAI 的数据控制文档给出了较明确的开关路径:在 ChatGPT 的设置里可以关闭用于改进模型的开关;在隐私门户也可以发起不用于训练的请求;在法域允许的条件下,还可以发起个人数据移除的请求。这些路径提供了对后续使用的控制。(OpenAI Help Center)

对于站点所有者,除了在服务器层做访问控制,也可以在 robots.txt 中针对特定爬虫设定抓取策略。以 Common Crawl 为例,其公开说明承诺遵守 robots.txt 并采取抓取延迟策略。但需要注意的是,robots.txt 本质上是一种行业自律机制,并不强制约束所有行为主体。(commoncrawl.org)

在公共舆论层面,关于 AI 训练对隐私与版权的影响仍在快速演化:有媒体与协会发起诉讼,也有组织选择签署内容许可;用户与创作者的退出、补偿与署名机制仍在探索之中。无论技术如何推进,数据治理都将在可预见的未来成为模型研发的第一性约束。(AP News)


训练数据为何既需要广泛爬取,也离不开点对点许可

很多人会问:既然有 Common Crawl 这类巨量公开数据,为什么还要花大价钱去签署媒体与内容平台的许可?原因并不难理解。高价值的垂直资料往往位于付费墙内或需要合规接口才能拿到高质量元数据;而且,许可还意味着可持续的来源、明确的法律边界与可协商的使用范围,这对训练稳定性与产品合规都至关重要。Financial TimesNews CorpAxel SpringerLe Monde 的相继合作,正是这一逻辑的现实注脚。(Reuters)

与此相呼应,社区数据的实时性与结构化价值也使得 RedditStack OverflowAPI 授权极具吸引力。对模型而言,这类数据不仅提升事实的鲜活度,还能在开发者问答、工程实践与社会讨论等维度上提供更贴近使用场景的训练样本。(OpenAI)


把视角切到经典论文:GPT-3 的可考训练配方提供了方法论样板

尽管 GPT-4 未披露细化配方,但 GPT-3 的论文仍然是理解“怎样把互联网文本变成模型参数”的最佳窗口:超大规模的自监督预训练、跨源配比与降采样、质量与多样性的折中、以及在评测上的长尾泛化。这些方法论到今天依旧适用,只是规模与工程细节更上一层楼。(arXiv)

再把目光投向对齐阶段,InstructGPT 工作清晰刻画了如何把人类偏好转成可优化的奖励模型,如何通过比较标注降低成本,如何在安全与实用之间找到平衡。数据在这里的角色,从“知识供给”变成了“偏好信号”,而采集过程也从“抓网页”转向“采互动与标注”。(NeurIPS Proceedings)


一个贴近现实的场景:为什么同一问题在不同时间会得到不同答案

设想一个与金融监管更新有关的问题。训练集锁定在某个时间点之前,模型对新规一无所知;如果没有把最新法规通过许可与检索注入上下文,回答就可能与现实不符。媒体与数据库的许可能提供权威文本,检索能把它们在对话中即时注入;这也是为什么你会发现,开启搜索与引用功能后,答案的可验证性明显提升。GPT-4 的系统卡明确提示了时间敏感事实上的局限与合规边界。(OpenAI)


采集与训练背后的社会议题:透明度、补偿与劳动条件

数据从哪来不仅是技术问题,也牵动着社会议题。媒体与创作者需要明确补偿与署名机制,站点运营者希望有有效的退出渠道与技术协议,普通用户关心个人数据是否被用于训练与如何删除,标注劳动者的心理健康与报酬也值得被看见。围绕这些问题的政策与行业自律正在形成新的均衡:一端是 News CorpFinancial TimesAxel Springer 等许可合作,另一端是持续的司法审查与公众监督。(AP News)


给工程师的速记清单:把宏观叙事落成几个可执行要点

  • 需要广域覆盖时,以 Common Crawl 一类开放爬网为底座,再以高质量来源做加权与降采样,形成干净的自监督语料池。(commoncrawl.org)
  • 需要权威与新鲜时,优先走 API 与许可渠道,典型如 Reddit Data APIOverflowAPI、媒体的内容授权批量交付。(OpenAI)
  • 对齐阶段把人类示范与偏好比较视作“数据产品”,管控标注流程与心理健康,确保质量与可持续。(NeurIPS Proceedings)
  • 从 Day-1 设计数据治理:robots.txt 与站点抓取礼仪、个人数据移除与退出、合作方协议的范围与存续期管理。(commoncrawl.org)

小结:训练数据是一条“复合供给 + 工程治理”的长链路

把上面的要点揉合起来,可以得到一个简洁、但足够准确的描述:ChatGPT 这类基础模型的训练数据来自公共互联网、许可合作与人与模型互动产生的对齐数据三类复合供给;在采集路径上既有开放爬网,也有点对点 API 与批量交付;在数据工程上通过去重、清洗、降采样与质量评分把弱质数据转化为可学的信号;在合规上通过隐私门户、训练退出与内容授权建立边界。公开资料与行业报道共同勾勒出的,正是这样一条兼顾规模、质量与合规的供给链路。(OpenAI Help Center)


参考线索(便于延伸阅读)

  • How ChatGPT and our foundation models are developed:三类数据源的官方概述。(OpenAI Help Center)
  • GPT-4 System CardGPT-4 的训练数据类型与安全边界。(OpenAI)
  • Language Models are Few-Shot LearnersGPT-3 训练配方与数据配比方法论。(arXiv)
  • Common Crawl 官方页面与总览:了解开放爬网数据的规模与获取方式。(commoncrawl.org)
  • InstructGPT 论文与 OpenAI 对齐说明:监督微调与 RLHF 的数据来源与流程。(NeurIPS Proceedings)
  • 媒体与平台的许可合作:Financial TimesNews CorpLe MondeRedditStack OverflowShutterstock。(Reuters)
  • 数据控制与退出:Data Controls FAQ 与隐私门户。(OpenAI Help Center)

额外的现实建议:如果你在企业内搭建自己的大模型管道,可以把公开数据当作预训练的广谱基底,再用业务域的许可数据做指向性强化,最后通过团队内的对齐数据把模型的风格与安全边界拧紧。你会得到一个既有通用智能、又贴合本域知识、并且在合规上可举证的训练谱系。

如果你还想看更工程化的落地范式,我可以给出一份面向 Python 数据工程栈的“开源网页语料清洗流水线”示例,把 Common CrawlWET 文本处理、去重、质量打分、敏感信息伪匿名化与基准去污染检测串成一个可复用的 MakefileAirflow 流程图,方便你在本地或云端复现。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐