分享一篇非常有意思的文章：是否有必要训练大模型？

模型不再是智能的衡量标准，而是生产力的要素。我们应该用TFP来衡量，同时考虑产出率、推理定价等因素。我们正在看软件吃掉世界，模型开始蚕食劳动力市场。能活下来的公司将是那些能以最高ROI把Token高效转化成劳动力的公司。

致Great

811人浏览 · 2025-09-12 17:08:04

致Great · 2025-09-12 17:08:04 发布

现在，大部分AI创业公司都是调用大厂的API来做产品。这样做目前没问题，但是按照历史规律，每家有野心的AI公司最后都会训练自己的模型——哪怕一开始只是做个简单封装的公司也不例外。为什么？因为训练模型的门槛正在快速下降。模型蒸馏、微调、后训练这些技术每个月都在变简单。等到超级AI公司把所有资金和人才都吸走的时候，想要保持竞争力，唯一的办法就是拥有自己的模型。

我们是怎么走到今天的

一开始，只有研究实验室在训练大语言模型。后来基于扩散模型的研究，出现了Midjourney和Stable Diffusion。接着整个AI行业爆发，各大实验室在2022年底到2023年初开始认真做商业化。

到了2024年，只要有几台GPU服务器，任何人都能开始训练模型。到2025年，DeepSeek花了600万美元就做出了一个前沿模型，推理能力达到了OpenAI的o1水平——这距离OpenAI发布o1才4个月，距离正式上线才2个月。

重点是：API背后的技术，已经不再是什么秘密了。

How We Got Here

复制模型没那么神秘

训练模型需要的东西很简单：数据、算力、架构。

Ingredients: data, compute, architecture

Transformer架构已经证明了自己比LSTM更强。现在预训练、后训练、推理这些知识都是公开的，基本没什么不能复制的，或者不能用Claude和Codex这些工具"照着感觉写代码"搞出来的。算力问题说白了就是找钱的问题。获取数据也可以通过蒸馏技术解决，最近有论文显示，蒸馏出来的10亿参数模型能达到从头训练的70亿参数模型的效果，Phi-4和Gemma就是这种数据高效利用的例子。

Distillation and data efficiency

还记得2000年代做软件有多"难"吗？需要服务器、版本管理、光盘，还得有厉害的工程师。但一旦有人找到新玩法，就能称霸一个领域，比如亚马逊搞定了电商，谷歌搞定了搜索。现在训练模型的感觉跟那时候一样。难，但不是不可能。

突破点不在于发明新架构，而在于提高数据利用效率和强化学习。扩散模型也许还有潜力，但考虑到算力和数据都有限，效率是关键。

Reinforcement learning and efficiency

经济账

那应用公司为什么要费劲去训练模型呢？

因为等到今年底，30分钟以内能完成的编程任务基本都会被自动化。到时候，软件本身就更像是一个直接卖给用户的品牌。渠道分发才是（一直都是）最重要的。

Economics and distribution

Cursor一开始就是VSCode和GPT-4的包装。现在它也在跑自己的专属模型。官方说是为了"快速应用"这样的功能。但有了数十亿条用户操作记录，Cursor完全可以训练出一个能处理几小时软件开发工作的模型。到那时候，具体用哪个底层模型就不重要了。重要的是Cursor能控制它。

这个套路是固定的：

先用API包装找到产品和市场的契合点，同时收集数据
为特定功能微调小的专业模型
用自己的数据护城河训练自己的模型
提高每个Token的生产效率，也就是给用户提供更多价值，留住用户

你的应用实际上就变成了一个强化学习的环境。或者你把这些宝贵的用户行为数据卖给大厂。

数据是瓶颈

OpenAI收购Statsig就是为了获取他们"会话重放"产品里记录的数十亿条用户屏幕操作。萨顿和西尔弗把这叫做"经验时代"——下个阶段的关键是智能体和环境互动产生的数据。

这就是为什么我认为电脑操作是通向AGI的重要路径。每个软件界面都变成了环境，每次操作都变成了经验数据。专业人士大部分时间都在电脑前工作。想想我们错过了多少没标记、没记录的数据。

一旦模型成为产品，积累的输入就是经验。谁能收集到这些重放数据，谁就有了优势。

Token生产效率

我每月花200美元买Claude Pro。但我从中得到的价值每年值五六位数。也就是说，我花1美元大概能得到42美元的价值。这么高的回报率下，理智的选择就是训练自己的模型。Claude这么做了，Cursor可能也得这么做。

我们应该开始衡量生产力指标，而不只是使用量：

每单位工作需要多少Token
每个Token的经济价值
Token生产效率(TFP)

TFP指标最简单的算法：

TFP = (产出的经济价值) / (消耗的Token数量)

其中：

产出的经济价值 = 模型完成的工作值多少钱
消耗的Token数量 = 过程中用掉的Token数(输入+输出，或者你定义的范围)

就像经济学里的全要素生产率一样，TFP衡量每个Token能产生多少价值。

以我自己为例，我生成的Token里，只有不到1%-10%的代码最后真正用到了生产环境。所以按API定价，我每月花大约2000美元，用了17亿个Token（Opus和Sonnet混用，大量缓存）。其中大约200美元的部分对我真正有用，理论上我愿意为此每年付10万美元。所以实际上，我每花1美元Token就得到42美元价值。假设推理零成本，Claude给我创造了42倍的TFP！如果我只是做个Claude代码包装服务，除非我也做推理，否则长期看这根本不可能。我更愿意处在Devin的位置。

随着AI在经济中普及，这个指标会越来越受欢迎。考虑到输入Token的成本和用户愿意为最终产品付的钱，一个"凭感觉编程"的强化学习环境值多少钱？为了培训医生、住院医师、学生而付费值多少？让整个组织符合SOX法规你愿意花多少钱？

总结

模型不再是智能的衡量标准，而是生产力的要素。我们应该用TFP来衡量，同时考虑产出率、推理定价等因素。

我们正在看软件吃掉世界，模型开始蚕食劳动力市场。能活下来的公司将是那些能以最高ROI把Token高效转化成劳动力的公司。

参考资料：

扩散强化学习/效率讨论 — https://arxiv.org/abs/2507.15857
自动化的经济价值 — https://epoch.ai/gradient-updates/most-ai-value-will-come-from-broad-automation-not-from-r-d
不同领域的时间跨度 — https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/
LMPO: 用强化学习做语言模型后训练 — https://github.com/kvfrans/lmpo
AI模型定价和性能趋势 — https://artificialanalysis.ai/trends
https://sdan.io/blog/training-imperative