摘要:Anthropic 指控 DeepSeek、月之暗面、MiniMax 通过 Claude API 进行知识蒸馏。本文从蒸馏技术原理、API 防御方案、模型输出版权归属三个角度分析,并讨论对开发者调用 AI API 的实际影响。

Anthropic 2 月 23 日发了一份报告,指控 DeepSeek、月之暗面和 MiniMax 三家公司通过大规模调用 Claude API 来蒸馏模型能力。作为开发者,我更关心这件事背后的技术和法律问题,因为它直接影响我们日常使用 AI API 的方式。

LLM 知识蒸馏的技术原理

知识蒸馏最早由 Hinton 等人在 2015 年提出,核心思路是用一个大模型(teacher)的输出分布去指导一个小模型(student)的训练。具体到 LLM 场景:

  1. 向目标模型发送大量精心设计的 prompt
  2. 收集模型的输出(包括 token 概率分布,如果 API 暴露的话)
  3. 用这些 input-output 对作为训练数据微调自己的模型

现在主流的 API 一般只返回最终文本,不返回 logits,所以实际操作中蒸馏的效果取决于几个因素:query 的质量和多样性、数据量、以及目标模型自身的基座能力。

Anthropic 报告中提到的数据:MiniMax 约 1300 万次交互,月之暗面约 340 万次,DeepSeek 约 15 万次。DeepSeek 的数量明显少很多,但据说针对性最强,集中在推理和思维链能力上。

几个值得想的技术问题

蒸馏能复制多少能力?

interconnects.ai 有一篇分析文章专门讨论了这个问题。结论是:纯靠蒸馏很难复制一个模型的全部能力。蒸馏更像是一种"能力催化剂",能帮助一个已经有不错基座的模型在特定方向上快速提升,但如果基座本身不行,再怎么蒸馏也没用。

DeepSeek R1 的推理能力之所以强,基座模型 DeepSeek V3 本身就很强。蒸馏可能帮助了方向对齐,但把所有功劳归给蒸馏是不公平的。

API 层面的防御有多难?

Anthropic 报告透露了一些对方的技术手段:分布式 IP 池、"九头蛇集群"同时管理 2 万多账号、地理分散的访问模式。这些手段说明,单纯靠 rate limiting 和 IP 检测很难完全防住有组织的蒸馏行为。

现在行业内开始讨论一些新的防御思路:

  • 输出水印(output watermarking):在模型输出中嵌入不影响语义的统计特征
  • 行为指纹(behavioral fingerprinting):检测异常的查询模式
  • 动态响应策略:对疑似蒸馏行为的请求降低输出质量
  • API 指纹追踪:在输出中嵌入可追溯到具体账号的标记

每种方法都有明显的局限。输出水印可以被过滤,行为指纹容易误判正常用户。

模型输出的知识产权归谁?

这是最核心的技术-法律交叉问题。你调用 Claude API,传入一个 prompt,得到一个 completion。这个 completion 的知识产权归谁?

目前的法律实践倾向于:AI 生成的内容不受版权保护。美国版权局明确表示,纯 AI 生成的内容不具备可版权性,因为缺乏"人类作者"这个要素。

但 Anthropic 的立场是:不管输出有没有版权,你违反了我的 ToS,ToS 里写了不能用输出来训练竞品模型。

问题是 ToS 的法律效力在不同司法管辖区差异很大,而且 ToS 的可执行性一直是一个争议话题。更何况这些公司注册地在中国,Anthropic 的 ToS 在中国法律框架下基本没有约束力。

蒸馏争议对 AI API 开发者的实际影响

这件事让我担心的是 API 提供商收紧使用条款。如果 Anthropic 和 OpenAI 都开始严格审查 API 调用模式,那些做 AI 应用开发、需要大量调用 API 的创业公司可能会受到误伤。

已经有一些迹象:

  • OpenAI 最近更新了使用政策,明确禁止用输出训练竞品模型
  • Anthropic 在加强账号验证和异常检测
  • Google 也在 Gemini API 条款中增加了类似限制

对于我们这些普通开发者来说,最直接的建议是:

  1. 认真看一遍你在用的每个 AI API 的 ToS,特别是关于输出使用限制的条款
  2. 如果你的应用涉及大量 API 调用,确保调用模式不会被误判为蒸馏行为
  3. 关注开源模型的发展,减少对单一商业 API 的依赖

AI 模型蒸馏的版权与合理使用悖论

蒸馏争议暴露了一个行业性的矛盾:AI 公司的商业模式建立在公开数据之上,但它们希望自己的输出是私有的。

伯克利法学院一篇分析文章里有句话说得好:如果"合理使用"能保护你拿互联网数据训练模型,那它是不是也应该保护别人拿你的 API 输出来蒸馏?

这个矛盾短期内不会解决。

开源社区方面也有新发现。一篇 arXiv 论文审计了开源 AI 供应链的许可证问题,发现 96.5% 的数据集和 95.8% 的模型缺少必要的许可证文本。数据、模型、应用之间的许可证传递几乎是断裂的。这说明"合法使用"的边界,在开源生态里同样模糊。

Anthropic 的指控也许能倒逼行业把 API 输出权利和蒸馏边界的规矩定下来。对开发者来说,看清法律边界、做好合规准备,比站队有用。

常见问题

Q:知识蒸馏是什么?和微调有什么区别?
知识蒸馏是用大模型(teacher)的输出指导小模型(student)训练。微调(fine-tuning)是在已有模型上用新数据继续训练。蒸馏侧重于从外部模型提取能力,微调侧重于适配特定任务。

Q:AI API 输出受版权保护吗?
目前美国版权局的立场是:纯 AI 生成内容不受版权保护,因为缺乏"人类作者"要素。但 API 提供商可以通过服务条款(ToS)限制输出的使用方式。

Q:开发者大量调用 API 会被误判为蒸馏吗?
有这个风险。建议检查所用 API 的 ToS,确保调用模式(频率、内容类型、用途)不会触发异常检测。考虑使用开源模型降低依赖。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐