我们都感觉AI正在深刻改变世界,但对AI的现状缺乏清晰的认识。

OpenRouter(OpenRouter 是连接世界顶尖大模型的统一入口,让开发者无需切换平台就能调用全球 AI 能力)和a16z(Andreessen Horowitz 是全球知名的风投,硅谷创新生态的重要引擎)刚刚发布了一篇重磅研究。

OpenRouter 这个全球最大的模型聚合平台,用其管道中流淌过的 100 万亿 Token,为我们绘制了一幅令人屏息的 AI 实景地图。

这些 Token 忠实地记录了人类是如何驯化、适应,并最终与这些硅基 AI 大脑共生的。

2024 年 12 月 5 日之前,整个硅谷乃至全球的 AI 模型,本质上都是一群直觉极强的概率预测机。

它们像是一个读过全世界所有书的博学快嘴,当你问出一个问题,它们几乎不假思索地根据概率吐出下一个字。

它们描述推理,模仿逻辑,但并不真正执行推理。那时的 AI,是快思考的极致。

然而,OpenAI 在那一天发布的 o1(代号 Strawberry),以及随后在 2025 年彻底爆发的 DeepSeek R1Google Gemini 2.5 Pro,将人类带入了一个全新的纪元——多步深思熟虑的推理时代(Multi-step Deliberation Inference)

模型不再急于回答。

在输出第一个字之前,它开始在深不见底的隐层空间里进行一场沉默的思维风暴:规划路径、自我反驳、修正谬误、再次确认。

这种沉默的思考,即便是对于缔造它的工程师来说,也充满了神秘的黑盒色彩。

但结果是显而易见的:AI 不再只是预测下一个字,它开始预测思维的下一步。

这是一份关于现状的报告,更是一部关于未来的预言书。

数据剥去了所有的营销泡沫,只留下了最冰冷也最滚烫的事实。

我们惊讶地发现,原来在这个由 GPU 构建的庞大帝国里,并没有绝对的皇帝,只有不断轮替的诸侯;原来在严肃的代码构建之外,人类将一半的算力倾注在了充满幻想的角色扮演中;原来真正决定一个模型生死的,不是参数的大小,而是一只看不见的水晶鞋。

欢迎来到 100 万亿 Token 里的真实世界。

推理模型重构了人机交互

曾几何时,我们评价一个 AI 模型好坏的标准简单而粗暴:它说话流利吗?它知道拿破仑哪一年滑铁卢吗?

但 2025 年的数据告诉我们,那个时代已经结束了。

在 OpenRouter 的流量监控图上,我们可以清晰地看到一条昂扬向上的曲线,那是推理模型(Reasoning Models)的崛起之路。

到了 2025 年下半年,这条曲线已经霸道地占据了超过 50% 的份额。

当你在深夜敲下回车键时,和你对话的不再是一个简单的文本生成器,而大概率是一个正在进行复杂思维运算的推理引擎。

我们不再满足于让 AI 写一首打油诗或者生成一段维基百科式的介绍,我们开始把最棘手、最耗费脑力的脏活累活扔给它。

数据揭示了一个反直觉的现象:xAI 的 Grok Code Fast 1,这个由埃隆·马斯克麾下团队打造的模型,竟然在推理流量中拔得头筹,紧随其后的是 Google 的 Gemini 2.5 Pro

这说明在代码生成和复杂逻辑推演这种硬核场景下,用户根本不在乎品牌的各种花哨叙事,他们只在这个模型是否足够聪明,是否能解开那团乱麻般的 Bug。

这种深度的思维活动,直接拉长了对话的物理形态。

在 2024 年初,用户发给 AI 的提示词(Prompt)平均长度大约是 1500 个 Token,那通常是一两个问题,或者一段简短的背景描述。

但到了 2025 年底,这个数字飙升到了 6000 个 Token

6000 个 Token 告诉我们,人类已经不再把 AI 当作搜索引擎的替代品,而是把它当作了外挂大脑

程序员们不再是问如何写一个循环,而是直接把整个项目的代码库甩给 AI,冷酷地命令道:理解这个架构,找出那个导致内存泄漏的幽灵,并重写它。

与之相对应的,是模型输出长度的增长。

从平均 150 Token 到 400 Token,这看似不大的增长背后,是模型思维链(Chain of Thought)的显性化。

AI 不再只是给出答案,它开始展示解题过程,开始一步步地铺陈逻辑。

更令人震惊的是工具调用(Tool Calling)的常态化。

在 Anthropic 的 Claude 3.5/3.7 系列以及后来的 Claude 4.5 Sonnet 的推动下,AI 不再仅仅是说话,它开始动手。

它会自己去查阅天气 API,自己去运行一段 Python 代码来验证数学猜想,甚至自己去检索数据库。

对于企业级应用来说,一个不支持稳定工具调用的模型,就像是一个只有嘴巴没有手的工匠,注定要被淘汰。

数据表明,那些能够熟练使用工具的模型,牢牢占据了高价值商业应用的核心地带。

我们正在目睹 AI 从聊天机器人(Chatbot)向智能代理(Agent)的惊险一跃。

开源权力版图不可逆转地东移

推理模型的崛起是技术的纵向突破,开源模型(Open-weight Models)的爆发则是权力的横向重构。

长期以来,AI 领域存在一个默认的鄙视链:闭源模型(如 GPT-4)是高高在上的神祇,代表着性能的绝对天花板;而开源模型则是凡间的仿制品,虽然免费但能力平庸。

然而,100 万亿 Token 的数据像一记重锤,砸碎了这个刻板印象。

在 2025 年,开源模型的流量份额已经稳步攀升至 30% 左右。

DeepSeek V3、Llama 3.3 70B、Qwen 3 Coder,这些名字如同璀璨的群星,每一次发布都在重新定义免费的上限。

在这场开源革命中,最引人注目的变量来自东方。

让我们把时钟拨回 2024 年末。

那时,中国模型在 OpenRouter 全球流量池中的占比微乎其微,仅仅是 1.2% 的边缘存在。

那时候的讨论区里,提及中国模型往往带着猎奇或怀疑的目光。

仅仅一年之后,2025 年,这一数字一度飙升至 30%,全年平均保持在 13% 左右。

这是一个惊心动魄的增长曲线。

以 DeepSeek(深度求索) 和 Qwen(通义千问) 为代表的中国军团,展现出了令硅谷窒息的迭代速度。

DeepSeek 的策略堪称教科书级别的降维打击。

当西方巨头还在纠结于如何保护高昂的训练成本时,DeepSeek 直接以极低的价格和极其强悍的性能(尤其是 DeepSeek V3 和 R1),硬生生地在开源界撕开了一道口子。

曾几何时,DeepSeek 家族占据了超过 50% 的开源流量,几乎成为了开源界的独裁者。

2025 年随着 Meta Llama 3.3 的反击,以及 Mistral AI 在欧洲的坚守,加上 OpenAI GPT-OSS 系列的搅局,市场迅速演变成五强争霸的战国时代。

截至 2025 年 11 月,没有任何单一开源模型能占据超过 25% 的份额。

这种碎片化(Fragmentation)其实是生态繁荣的标志。

开发者不再盲目迷信某一个厂牌,而是变得极其务实:写代码时用 Qwen,做角色扮演时用 DeepSeek,处理通用任务时切回 Llama。

与此同时,模型尺寸的审美也在发生巨变。

过去,人们要么追求极致轻量的小模型(<15B),试图把它们塞进手机里;要么迷信巨型参数的大模型(>70B),认为只有大才是好。

但 2025 年的市场用脚投票,选出了真正的宠儿——中型模型(15B - 70B)

始于 Qwen2.5 Coder 32B 的发布,随后 Mistral Small 3 和 GPT-OSS 20B 迅速跟进。

这些模型在性能与成本之间找到了完美的黄金分割点。

它们足够聪明,能处理复杂的逻辑;又足够轻盈,推理成本低廉。

这就是 AI 届的中产阶级,它们成为了绝大多数开发者的首选,也是支撑起那 100 万亿 Token 的中流砥柱。

编程与代理吞噬算力半壁江山

我们在用这些超级大脑做什么?是探索宇宙的奥秘,还是解决癌症的难题?

OpenRouter 利用 GoogleTagClassifier 技术,对数十亿次请求进行了抽样分析,结果既让人振奋,又让人感到一丝赛博朋克式的冷峻。

最显眼的答案是:我们在写代码

编程类(Programming)请求的占比,从 2025 年初的 11% 一路狂飙,最终突破了 50% 的大关。

这是一个具有里程碑意义的数据。它意味着,现阶段人类对 AI 最迫切、最广泛的需求,就是让它帮助我们构建数字世界本身。

这解释了为什么 Anthropic 的 Claude 系列能拥有如此死忠的信徒。

在很长一段时间里,Claude 几乎就是程序员的代名词,占据了 60% 以上的编程流量。

由于其卓越的代码理解能力和超长的上下文窗口,它被视为最完美的结对编程伙伴。

2025 年 11 月,Anthropic 的绝对防线首次被突破。

OpenAI(约 8%)、Google(约 15%)以及来自中国的后起之秀 MiniMax,开始疯狂蚕食这一领地。

特别是 Qwen 和 DeepSeek,在开源编程领域一度超越了西方模型,直到 GPT-OSS 和 Llama 代码版发布才勉强扳回一城。

这种对编程能力的狂热追逐,反映了一个深刻的趋势:AI 正在从内容消费者转变为工具制造者。

当超过一半的算力都在生成代码时,我们实际上是在用 AI 制造更复杂的软件,而这些软件反过来又可能包含着 AI。这是一个自我加速的循环。

但在这 50% 的理性光辉之外,还有另一半的世界。

角色扮演的巨大需求

如果说编程是 AI 的面子,那么角色扮演(Roleplay)就是 AI 的里子。

在严肃的商业分析报告中,这往往是一个被刻意忽略或轻描淡写的领域。

但 OpenRouter 的数据毫不留情地揭开了这个庞大的地下王国。

在开源模型(OSS)的使用统计中,超过 50% 的流量竟然贡献给了角色扮演。

请注意,这绝对不是简单的闲聊,也不是问 Siri今天天气怎么样。

这里所说的 Roleplay,是高度结构化的、沉浸式的、甚至带有剧本性质的复杂互动(Games/Roleplaying Games)。

用户在构建一个世界。

他们设定详尽的世界观,定义复杂的角色性格,然后在这个虚拟的舞台上,与 AI 进行长达数千轮的互动。

DeepSeek 是这一领域的无冕之王。

数据显示,DeepSeek 流量中有惊人的三分之二来自角色扮演和休闲聊天。

为什么?不仅仅是因为它便宜,更是因为它在处理中文语境、理解微妙的情感潜台词,以及(或许是最重要的)在内容审查尺度上的某种默契上,展现出了独特的优势。

这里呈现出一种有趣的二元对立:

闭源模型(如 Claude, GPT-4)像是一个穿着西装的精英,它们昂贵、严谨、合规,被人们用于严肃的搬砖工作——写代码、改论文、做报表。

开源模型(尤其是部分国产模型)则像是一个才华横溢的游吟诗人,它们便宜、灵动、甚至带有一丝野性,被人们用于释放想象力,满足情感需求,甚至进行某种程度的心理代偿。

这 50% 的角色扮演流量,实际上是人类孤独感的一种投射。

在 100 万亿 Token 的流动中,我们看到的不只是冷冰冰的代码,还有无数渴望交流、渴望被理解、渴望在虚拟世界中寻找另一种可能的灵魂。

灰姑娘效应决定用户去留

在 AI 的世界里,发布一个新模型并不难,难的是让用户留下来。

OpenRouter 团队在分析用户留存数据时,发现了一个极其迷人的现象,他们将其命名为灰姑娘水晶鞋效应(Cinderella Glass Slipper Effect)。

这个理论是这样描述的:当一个新模型(比如 GPT-4o Mini)发布时,如果它在那个特定的时间点,完美地解决了某一部分用户积压已久的特定痛点(比如价格足够低且速度足够快),这批最早期的用户就会像灰姑娘穿上了完美契合的水晶鞋一样,形成极高的忠诚度。

数据图表上,GPT-4o Mini 的首月用户群(2024年7月队列)展现出了惊人的粘性,那条留存曲线平稳得让人嫉妒。

然而,对于那些不够幸运的模型,比如 Gemini 2.0 Flash 或 Llama 4 Maverick,它们的留存曲线则是一潭死水。

这意味着它们虽然发布了,但并没有在任何特定人群中建立起非你不可的连接。

它们是平庸的鞋子,谁都能穿,谁都会脱。

在这个效应中,DeepSeek 再次提供了一个反直觉的案例,我们称之为回旋镖效应(Boomerang Effect)。

通常情况下,用户流失就像泼出去的水,一去不复返。

但在 DeepSeek 的数据图表中,我们看到了一条条诡异的死灰复燃曲线。

用户在使用了 DeepSeek 一段时间后流失了,去尝试了其他模型,但在几个月后,他们又回来了。

这就像是一个回旋镖。

这意味着用户在转了一圈后发现,在某些特定的场景(比如中文角色扮演或高性价比推理)下,DeepSeek 依然是那个无可替代的旧爱。

这种基于独特体验而非单纯参数的留存,才是最坚固的护城河。

最后,让我们把目光投向支撑这一切的经济与地理基础。

经济学中有一个著名的杰文斯悖论(Jevons Paradox):当技术进步提高资源利用效率(即成本降低)时,资源的消耗量反而会增加。

在 AI 领域,这一悖论正在完美应验。

随着 Token 的价格一降再降,尤其是 DeepSeek V3 和 Qwen 等模型将价格打到 1 美元可以买几百万 Token 的地步,人类并没有因为便宜而少花钱,反而创造出了更多疯狂的需求。

我们开始用 AI 逐帧分析视频,用 AI 生成整个软件工程,用 AI 陪伴自己度过漫漫长夜。

在这个过程中,亚洲正在崛起。

虽然北美依然占据了 47% 的算力消费,但亚洲的份额已从 13% 激增至 31%

中国、新加坡、韩国,这些国家不仅是算力的消费者,更是创新的发动机。

2025 年的 AI 世界,正如 OpenRouter 报告所言,是一个多元(Pluralistic)的世界。

没有绝对的霸主。

OpenAI 不再独孤求败,Anthropic 守住了编程的护城河,DeepSeek 和 Qwen 统治了开源与长尾需求。

AI 不再是单纯的工具,而是生态。

从严肃的代码构建到充满幻想的角色扮演,AI 正在嵌入人类生活的每一个缝隙。

推理是新的货币。

随着 o1 类模型的普及,我们不再为生成字数付费,而是为思考质量付费。

在这 100 万亿 Token 构建的数字宇宙中,我们看到的不仅仅是算法的胜利,更是人类文明在硅基载体上的某种延续与变异。

水晶鞋不仅属于灰姑娘,也属于每一个在 AI 浪潮中找到自己位置的模型与开发者。

参考资料:

https://a16z.com/state-of-ai/

https://openrouter.ai/state-of-ai

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐