在这里插入图片描述

在过去两年里,大模型几乎以光速发展:参数量从百亿级推到万亿级,算力投入也从几千万美金飙升到数十亿美金。然而,我们也能明显感觉到,近来新模型的能力提升正在趋缓。算力和参数的堆叠,边际效益不断递减。于是问题来了——Scaling Laws 是否已经失效?我们真的撞上了“数据墙”吗?

DatologyAI 创始人 Ari Morcos 给出的答案是:数据才是影响 AI 研究的最大变量,但长期以来投入最少。

从神经科学到 AI:一条经验科学驱动的路径

Ari 并非计算机科班出身,而是神经科学博士。他曾研究小鼠“数数”的神经机制,由此养成了“先实验理解系统,再改进系统”的科学思维。
在 2011 年 AlexNet、DQN 等里程碑模型出现后,他转向机器学习,并希望为深度学习建立一套“可解释的科学框架”。

然而他很快意识到:理解为什么有效并不难,难的是利用这种理解真正提升系统性能。
在 2020 年研究归纳偏置时,他发现:

  • 在小数据场景下,精心设计的偏置确实有用;
  • 但在百万级以上的数据规模下,这些偏置反而成为负担;
  • 相比之下,Transformer 这种偏置更少的架构,却在大数据上表现优异。

这正是著名的 “苦涩的教训”(The Bitter Lesson):算力与数据的结合,往往胜过人类专家知识的技巧。于是他下定决心:不做硬件,就专注数据。


数据在 AI 研究中为何长期被忽视?

Ari 认为,数据的重要性被严重低估,原因有三:

  1. 文化偏见:数据工作被视为“脏活累活”,缺乏学术荣誉感;
  2. 研究激励错位:过去的范式是固定数据集 → 优化模型性能,导致大家忽略数据;
  3. 范式变化:从监督学习到自监督学习,数据量从百万级暴涨到万亿级,问题从“缺数据”转变为“数据太多”,质量下限消失。

结论: 模型只是数据的镜像,Garbage In Garbage Out。数据质量的重要性被推到前所未有的高度。


Data Curation:不仅仅是清洗

很多人把 Data Curation 理解成筛选/清洗,但 Ari 强调,它是一个系统工程,包含:

  • Filtering(过滤):识别并剔除低质量、低信息增益数据;
  • Rebalancing(重均衡):处理长尾分布,保证模型学到完整知识;
  • Sequencing(序列化):通过课程学习合理安排喂数据的顺序;
  • Synthetic Data(合成数据):生成高质量补充样本,填补原始分布空白;
  • Batching(批处理):如何组织批次影响训练速度。

其中两个关键理念是:

  • 冗余:完全去掉冗余会伤害泛化,冗余过多则是灾难;
  • 自动化:人类专家无法全局评估数据点价值,必须依赖算法自动化。

合成数据:机会与风险

合成数据是热门方向,但存在 模型坍塌 风险。Ari 将其分为两类:

  1. 从无到有:模型生成新知识,风险大,容易坍塌;
  2. 转述或重写:更安全,将原始数据用新形式组织,信息源头仍是原始数据。

Datology 在论文 Beyond Web 中总结了七点经验,例如:

  • 好的种子数据重要,但需要策略组合;
  • 数据多样性是长期提升的关键;
  • 改写器模型不必很大,小模型也能胜任。

结果显示,在 3B 模型上使用 BeyondWeb 数据,性能甚至超过了在普通数据上训练的 8B 模型。


Datology 的价值:Faster / Better / Smaller

Ari 用三个词概括 Datology 的价值:

  • Faster:训练速度快,迭代周期缩短,从 10 天变成一夜;
  • Better:同样预算下,模型性能更优;
  • Smaller:更小的专用模型在推理成本和可靠性上更具优势。

在实际案例中,Datology 将 25 万亿 token 的原始池子筛选到 7 万亿高质量数据,结果模型更强,训练更快。这证明 Data Curation 的收益可叠加


结语:AI 的尽头是更好的数据

当行业还在算力和模型规模上“内卷”时,真正能改写游戏规则的,也许正是对数据的重新认识。
Ari 的愿景是:让 Data Curation 自动化、工具化,成为每个团队都能触手可及的基础设施。

也许,未来的 AI 竞争,不再是“谁的模型更大”,而是“谁的数据更好”。
一个属于 Data Curation 的时代,正在到来。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐