人工智能现状:OpenRouter 100 万亿 Token 深度分析阅读我们对 100 万亿 Token 大语言模型使用情况的深度分析报告——《人工智能现状》。

标题:《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》
链接: https://openrouter.ai/state-of-ai

下面是翻译版本,大家可以参考阅读

人工智能现状

摘要

过去一年,大语言模型(LLM)的演进和实际应用迎来了转折点。随着 2024 年 12 月 5 日首个被广泛采用的推理模型 o1 发布,该领域从单次模式生成转向多步推理,加速了部署、实验和新型应用的诞生。

然而,尽管这种转变发生得如此迅速,我们对这些模型在实践中如何被实际使用的经验理解却相对滞后。

在本研究中,我们利用 OpenRouter 平台(一个提供多种LLM 推理服务的供应商),分析了超过 100 万亿 Token 的真实 LLM 交互数据,涵盖了不同任务、地域和时间。在我们的实证研究中,我们观察到开源模型被大量采用、创意角色扮演(远超许多人以为主导的生产力任务)和编程辅助类别异常受欢迎,以及智能体推理(Agentic Inference)的兴起。

此外,我们的留存分析识别出了“基础用户群”:早期用户的参与度远超后期用户。我们将这种现象称为灰姑娘的“水晶鞋效应”。

这些发现强调,开发者和终端用户在实际场景中与 LLM 的交互是复杂且多方面的。我们将讨论其对模型构建者、人工智能开发者和基础设施提供商的影响,并阐述数据驱动的使用理解如何为 LLM 系统的优化设计和部署提供信息。

引言

仅仅一年前,大语言模型的格局与现在截然不同。在 2024 年末之前,最先进的系统主要由单次、自回归的预测器主导,这些预测器经过优化以延续文本序列。

一些早期工作试图通过高级的指令遵循和工具使用来近似实现推理。例如,Anthropic 的 Sonnet 2.1 和 3模型擅长复杂的工具使用和检索增强生成(RAG),Cohere 的 Command R 模型则整合了结构化的工具规划 Token。

另外,Reflection 等开源项目探索了训练过程中的监督式思维链(Chain-of-Thought)和自我批评循环。尽管这些先进技术产生了类似推理的输出和卓越的指令遵循能力,但其基本推理过程仍基于单次前向传播,发出从数据中学习到的表层轨迹,而非执行迭代式的内部计算。

2024 年 12 月 5 日,OpenAI 发布了其 o1 推理模型(代号 Strawberry)的第一个完整版本 [4],这一范式随之演进。9 月 12 日发布的预览版已经预示着它与传统自回归推理的不同。与之前的系统不同,o1 采用了扩展的推理时计算过程,包括内部多步审议、潜在规划和迭代细化,然后才生成最终输出。

从经验上看,这使得数学推理、逻辑一致性和多步决策能力得到系统性提升,反映出从模式补全到结构化内部认知的转变。回想起来,去年标志着该领域的真正转折点:早期方法暗示了推理,但 o1 引入了第一个普遍部署的架构,该架构通过深思熟虑的多阶段计算来执行推理,而不仅仅是“描述”推理 [6,7]。

尽管 LLM 能力的最新进展已被广泛记录,但关于这些模型在实践中实际使用情况的系统性证据仍然有限 [3, 5]。现有报告往往侧重于定性演示或基准性能,而不是大规模行为数据。为了弥合这一差距,我们利用 OpenRouter 平台(一个多模型 AI 推理平台,作为各种 LLM 查询的枢纽)的 100 万亿 Token 数据集,对LLM 的使用情况进行了实证研究。

OpenRouter 的独特视角为细粒度的使用模式提供了窗口。由于它协调跨各种模型(涵盖闭源 API 和开源部署)的请求,OpenRouter 捕获了开发者和终端用户如何为各种任务实际调用语言模型的代表性横截面。通过分析这个丰富的数据集,我们可以观察哪些模型被选择用于哪些任务,使用情况如何因地理区域和时间而异,以及定价或新模型发布等外部因素如何影响行为。

本文借鉴了 Anthropic 的经济影响和使用分析 [1] 和 OpenAI 的《人们如何使用 ChatGPT》报告 [2] 等此前 AI 采用实证研究的经验,旨在进行中立、数据驱动的讨论。我们首先描述了数据集和方法,包括如何对任务和模型进行分类。然后,我们深入分析了 LLM 使用情况的不同方面:

  • 开源与闭源模型: 我们研究了开源模型相对于专有模型的采用模式,识别了开源生态系统中的趋势和关键参与者。
  • 智能体推理: 我们调查了多步、工具辅助推理模式的出现,捕捉用户如何越来越多地将模型用作大型自动化系统中的组件,而非用于单轮交互。
  • 类别分类: 我们按任务类别(如编程、角色扮演、翻译等)分解使用情况,揭示哪些应用领域驱动了最多活动,以及这些分布如何因模型提供商而异。
  • 地理分布: 我们分析了全球使用模式,比较了各大洲 LLM 的采用情况,并深入研究了美国境内的使用情况。这突出了区域因素和本地模型供应如何影响总体需求。
  • 实际成本与使用动态: 我们评估了使用情况与实际成本的对应关系,捕捉了实践中 LLM采用的经济敏感性。该指标基于平均输入和输出 Token,并考虑了缓存效应。
  • 留存模式: 我们分析了最广泛使用的模型的长期留存情况,识别了定义持久、更具粘性行为的“基础用户群”。我们将其定义为灰姑娘的“水晶鞋效应”,即用户需求与模型特性之间的早期契合创造了一种持久的匹配,从而维持了长期的参与度。

最后,我们讨论了这些发现揭示的 LLM 实际使用情况,强调了意想不到的模式并纠正了一些误解。

数据和方法

OpenRouter 平台和数据集

我们的分析基于从 OpenRouter平台收集的元数据,OpenRouter 是一个统一的 AI 推理层,将用户和开发者连接到数百种大语言模型。OpenRouter 上的每个用户请求都会针对用户选择的模型执行,并且描述由此产生的“生成”事件的结构化元数据会被记录下来。本研究中使用的数据集包含来自全球用户群的数十亿个提示-完成对的匿名请求级元数据,时间跨度约为两年,直至撰写本文时。我们主要关注最近一年数据。

至关重要的是,我们无法访问提示或完成的底层文本。我们的分析完全依赖于元数据,这些元数据捕获了每个“生成”的结构、时间安排和上下文,而不会暴露用户内容。这种保护隐私的设计能够实现大规模行为分析。

每个生成记录都包含时间、模型和提供商标识符、Token 使用情况以及系统性能指标。Token 计数包括提示(输入)和完成(输出)Token,这使我们能够衡量整体模型工作负载和成本。元数据还包括与地理路由、延迟和使用上下文相关的字段(例如,请求是流式传输还是取消,或者是否调用了工具功能)。总而言之,这些属性提供了模型在实践中如何使用的详细而非文本视图。

所有基于此元数据的分析、聚合和大多数可视化都是使用 Hex 分析平台进行的,该平台为版本化的 SQL 查询、转换和最终图表生成提供了可重现的管道。

我们强调,此数据集是观测性的:它反映了 OpenRouter 平台上的真实活动,而 OpenRouter 平台本身受模型可用性、定价和用户偏好的影响。截至 2024 年,OpenRouter 支持来自 60 多个提供商的 300 多个活跃模型,并为数百万开发者和终端用户提供服务,其中超过50% 的使用量来自美国境外。虽然平台之外的某些使用模式未被捕获,但 OpenRouter 的全球规模和多样性使其成为观察大规模 LLM 使用动态的代表性窗口。

用于内容分类的 GoogleTagClassifier

本研究无法直接访问用户提示或模型输出。取而代之的是,**OpenRouter 通过一个非专有模块 —— GoogleTagClassifier,对大约 0.25% 的所有提示和响应的随机样本进行内部分类。**尽管这仅占总活动量的一小部分,但考虑到 OpenRouter 处理的总体查询量,底层数据集仍然相当可观。GoogleTagClassifier 与 Google Cloud Natural Language 的 classifyText 内容分类 API 进行接口交互。

该 API 对文本输入应用分层的、与语言无关的分类法,返回一个或多个类别路径(例如,/Computers & Electronics/Programming/Arts & Entertainment/Roleplaying Games),并附带相应的置信度分数,范围为 [0,1]。分类器直接对提示数据进行操作(最多 1,000 个字符)。分类器部署在 OpenRouter 的基础设施内,确保分类保持匿名,并且不与单个客户关联。置信度分数低于默认阈值 0.5 的类别会从进一步分析中排除。分类系统本身完全在 OpenRouter 的基础设施内运行,不属于本研究的一部分;我们的分析仅依赖于生成的分类输出(实际上是描述提示分类的元数据),而不是底层的提示内容。

为了使这些细粒度的标签能够大规模使用,我们将 GoogleTagClassifier 的分类法映射到一套紧凑的研究定义存储桶中,并为每个请求分配“标签”。每个标签以一对一的方式汇总到更高级别的“类别”。代表性的映射包括:

  • 编程: 来自 /Computers & Electronics/Programming/Science/Computer Science/*
  • 角色扮演: 来自 /Games/Roleplaying Games/Arts & Entertainment/* 下的创意对话分支
  • 翻译: 来自 /Reference/Language Resources/*
  • 通用问答 / 知识: 来自 /Reference/General Reference/*/News/*,当意图是事实查找时
  • 生产力 / 写作: 来自 /Computers & Electronics/Software/Business & Productivity Software/Business & Industrial/Business Services/Writing & Editing Services
  • 教育: 来自 /Jobs & Education/Education/*
  • 文学 / 创意写作: 来自 /Books & Literature/*/Arts & Entertainment/* 下的叙事分支
  • 成人: 来自 /Adult
  • 其他: 用于当没有主要映射适用时的长尾提示。(注意:我们在下面的大多数分析中省略了此类别。)

这种方法存在固有的局限性,例如,对预定义分类法的依赖限制了如何对新颖或跨域行为进行分类,并且某些交互类型可能尚未完全符合现有类别。实际上,某些提示在内容跨越重叠领域时会收到多个类别标签。尽管如此,分类器驱动的分类为我们提供了下游分析的视角。这使我们能够量化 LLM 的使用情况,而不仅仅是使用量,更重要的是用途

模型和 Token 变体

有几个值得明确指出的变体:

  • 开源对比专有: 如果模型的权重是公开可用的,我们将其标记为开源(为简化起见,简称 OSS);如果只能通过受限 API(例如 Anthropic 的Claude)访问,则标记为闭源。这种区分使我们能够衡量社区驱动模型与专有模型的采用情况。
  • 来源(中国对比世界其他地区): 鉴于中国 LLM 及其独特生态系统的崛起,我们根据主要开发地点对模型进行标记。中国模型包括由中国大陆、中国台湾或中国香港(例如阿里巴巴的通义千问、月之暗面的 Kimi 或 DeepSeek)组织开发的模型。世界其他地区(RoW)模型涵盖北美、欧洲和其他地区。
  • 提示 Token 对比完成 Token: 我们区分提示 Token(表示提供给模型的输入文本)和完成 Token(表示模型生成的输出)。总 Token 等于提示 Token 和完成 Token 的总和。推理 Token 表示具有原生推理能力的模型中的内部推理步骤,并包含在完成 Token 中。

除非另有说明,Token 量指的是提示(输入)和完成(输出)Token 的总和

地理细分

为了解 LLM 使用的区域模式,我们根据用户地理位置对请求进行细分。直接请求元数据(如基于 IP 的位置)通常不精确或经过匿名化处理。相反,我们根据与每个账户关联的账单地点确定用户区域。这为用户地理位置提供了更可靠的代理,因为账单数据反映了与用户支付方式或账户注册关联的国家或地区。我们在对区域采用和模型偏好的分析中使用了这种基于账单的细分。

这种方法有局限性。一些用户使用第三方账单或共享组织账户,这可能与他们的实际位置不符。企业账户可能会将多个区域的活动汇总到一个账单实体中。尽管存在这些缺陷,但鉴于我们可访问的元数据,账单地理位置仍然是用于保护隐私的地理分析中最稳定和可解释的指标。

时间框架和覆盖范围

我们的分析主要涵盖截至到 2025 年 11 月的滚动 13 个月期间,但并非所有底层元数据都涵盖了整个窗口。大多数模型级别和定价分析都集中在 2024 年 11 月 3 日至 2025 年 11 月 30 日期间。然而,类别级别分析(尤其是那些使用 GoogleTagClassifier 分类法的分析)基于从 2024 年 5 月开始的较短时间间隔,反映了 OpenRouter上持续标记可用的时间。特别是,详细的任务分类字段(例如编程、角色扮演或技术等标签)仅在 2025 年年中才添加。因此,类别部分中的所有发现都应解释为代表 2025 年年中的使用情况,而非整个前一年。

除非另有说明,所有时间序列聚合都是基于 UTC 校准的时间戳每周计算的,并对提示和完成 Token 进行求和。这种方法确保了跨模型系列的比较性,并最大程度地减少了瞬时峰值或区域时区效应带来的偏差。

开源与闭源模型

开源与闭源模型份额分割。 每周总 Token 量按来源类型划分的份额。浅蓝色阴影代表开源模型(中国与世界其他地区),深蓝色对应专有(闭源)产品。垂直虚线标记了关键开源模型的发布,包括 Llama 3.3 70B、DeepSeek V3、DeepSeek R1、Kimi K2、GPT OSS 系列和 Qwen 3 Coder。

AI 生态系统中的一个核心问题是开源模型与专有模型之间的平衡。下图展示了过去一年 OpenRouter 上这种平衡的演变。尽管专有模型,特别是来自北美主要提供商的模型,仍然服务于大部分 Token,但开源模型的使用量稳步增长,到 2025 年底已达到总使用量的约三分之一。

这种增长并非偶然。使用量激增与主要的开源模型发布(如 DeepSeek V3 和 Kimi K2,在第一张图中用垂直虚线标记)保持一致,这表明 DeepSeek V3 [9] 和 GPTOSS 模型 [8] 等具有竞争力的开源模型发布被迅速采纳并保持其增长。重要的是,这些增长在发布后的最初几周之后仍然持续,这意味着真实的生产使用而非短期实验。

按模型类型划分的每周 Token 量。 堆叠条形图显示了不同模型类别随时间变化的 Token 总使用量。深红色对应专有模型(“闭源”),橙色代表中国开源模型(“中国 OSS”),青色表示在中国境外开发的开源模型(“世界其他地区 OSS”)。图表突出了 2025 年开源 Token 份额的逐渐增加,特别是中国开源模型从年中开始的增长。

这一增长的很大一部分来自中国开发的模型。从 2024 年末微不足道的基数(每周份额低至 1.2%)开始,中国开源模型稳步获得关注,在某些周内达到所有模型总使用量的近 30%。在为期一年的窗口期内,它们的平均每周 Token 量约为 13.0%,其中强劲增长集中在 2025 年下半年。相比之下,世界其他地区的开源模型平均为 13.7%,而专有的世界其他地区模型则保持了最大份额(平均 70%)。中国开源的扩张不仅反映了其竞争质量,也反映了快速迭代和密集的发布周期。像通义千问和 DeepSeek 这样的模型保持了 регуляр 的模型发布,使其能够快速适应新兴工作负载。这种模式实质性地重塑了开源领域,并推动了 LLM 领域全球竞争的进展。

这些趋势表明 LLM 生态系统存在一个持久的双重结构。专有系统继续定义可靠性和性能的上限,特别是对于受监管或企业工作负载。相比之下,**开源模型提供成本效益、透明度和定制性,使其成为某些工作负载的有吸引力的选择。目前平衡点大约在 30%。**这些模型并非互斥;相反,它们在开发者和基础设施提供商日益青睐的多模型堆栈中相互补充。

关键开源参与者

下表根据数据集中总 Token 量对顶级模型系列进行了排名。过去一年中,开源模型格局发生了显著变化:尽管 DeepSeek 仍然是 Token 量最大的单个开源贡献者,但随着新进入者迅速获得市场份额,其主导地位已经减弱。如今,多个开源系列各自维持了可观的使用量,表明生态系统日益多样化。

模型作者 总 Token 量(万亿)
DeepSeek 14.37
通义千问 5.59
Meta LLaMA 3.96
Mistral AI 2.92
OpenAI 1.65
MiniMax 1.26
Z-AI 1.18
TNGTech 1.13
Google 0.82

按模型作者划分的总 Token 量(2024 年 11 月至 2025 年11 月)。 Token 计数反映了 OpenRouter 上所有模型变体的总使用量。

排名前 15 的开源模型随时间变化。 每周领先开源模型的相对 Token 份额(堆叠面积图)。每个彩色带代表一个模型对总开源 Token 的贡献。随着时间的推移,调色板的扩大表明竞争分布更加激烈,近几个月没有一个单一的主导模型。

上图展示了过去一年中,顶尖的各个开源模型市场份额的显著演变。在早期(2024 年末),市场高度集中:DeepSeek 系列中的两个模型(V3 和 R1)持续占据所有开源 Token 使用量的一半以上,构成了图底部大型深蓝色区域。

这种近乎垄断的结构在夏季转折点(2025 年年中)后被打破。此后,市场变得更加广阔和深入,使用量显著多样化。通义千问的模型、MiniMax 的 M2、月之暗面的 Kimi K2 和 OpenAI 的 GPT-OSS 系列等新入局者都迅速增长,占据了大量请求份额,通常在发布几周内就实现了生产规模的采用。这表明开源社区和人工智能初创公司可以通过引入具有新功能或更高效率的模型来快速实现采用。

到2025 年末,竞争平衡已从近乎垄断转变为多元化混合。没有一个模型的开源 Token 份额超过 25%,并且 Token 份额现在更加均匀地分布在五到七个模型之间。实际意义在于,用户在更广泛的选项中找到了价值,而不是默认选择一个“最佳”选项。尽管此图显示的是开源模型之间的相对份额(而非绝对数量),但明确的趋势是市场碎片化和开源生态系统内竞争加剧的决定性转变。

总的来说,开源模型生态系统目前充满活力。 主要见解包括:

  • 顶层多样性: 过去曾由一个家族(DeepSeek)主导开源使用,现在我们看到有六个模型各自保持了可观的份额。没有一个单一的开源模型能持续占据超过 20-25% 的开源 Token。
  • 新兴参与者的快速扩张: 性能卓越的新开源模型可以在数周内获得显著的使用量。例如,月之暗面的模型迅速成长,足以与老牌开源领导者抗衡,甚至像 MiniMax 这样的新秀也在一个季度内从零增长到可观的流量。这表明切换障碍低,用户群体渴望尝试新事物。
  • 迭代优势: DeepSeek 在榜单上的长期存在,强调了持续改进至关重要。DeepSeek successive的连续发布(Chat-V3、R1 等)使其即使在挑战者出现时也能保持竞争力。停滞不前的开源模型往往会将其市场份额让给那些在前沿领域频繁更新或进行特定领域微调的模型。

如今,2025 年的开源 LLM 领域类似于一个充满竞争的生态系统,创新周期快,领导地位无法保证。对于模型构建者而言,这意味着发布具有 SOTA 性能的开源模型可以立即获得采用,但保持使用份额需要持续投入进一步开发。对于用户和应用开发者而言,这一趋势是积极的:有更丰富的开源模型可供选择,其功能通常与专有系统在特定领域(如角色扮演)相当甚至更优。

模型规模与市场契合度:“中等”是新的“小”

开源模型规模与使用量。 按小、中、大型模型划分的每周总开源 Token 量份额。百分比按每周总开源使用量进行归一化。

一年前,开源模型生态系统主要围绕两个极端进行权衡:大量小而快的模型和少数强大而大型的模型。然而,回顾过去一年,市场显著成熟,并出现了一个新的、不断增长的类别:中型模型。请注意,我们根据参数量将模型分类如下:

  • 小型: 参数量少于 150 亿的模型。
  • 中型: 参数量介于 150 亿到 700 亿的模型。
  • 大型: 参数量大于 700 亿的模型。开发者和用户行为的数据揭示了一个微妙的故事。数据显示,尽管所有类别的模型数量都在增长,但使用量却发生了显著变化。小型模型正在失宠,而中型和大型模型正在占据这一价值。

开源模型数量按规模随时间变化。 每周可用开源模型的计数,按参数规模类别分组。

深入研究驱动这些趋势的模型揭示了不同的市场动态:

*“小型”市场:整体使用量下降。 尽管新模型源源不断,但小型模型类别作为一个整体,其使用份额正在下降。这一类别以高度碎片化为特征。没有一个模型能长期占据主导地位,而且来自 Meta、Google、Mistral 和 DeepSeek 等不同提供商的新进入者不断涌现。例如,Google Gemma 3.12B(2025 年 8 月发布)虽然被迅速采用,但在一个竞争激烈的领域中竞争,用户不断寻求下一个最佳替代品。

  • “中型”市场:找到“模型-市场契合度”。 中型模型类别清晰地讲述了一个市场创造的故事。该细分市场在 2024 年 11 月 Qwen2.5 Coder 32B 发布之前几乎可以忽略不计,该模型有效地建立了这一类别。随后,随着 Mistral Small 3(2025 年 1 月)和 GPT-OSS 20B(2025 年 8 月)等其他强劲竞争者的到来,该细分市场发展成为一个竞争激烈的生态系统,这些竞争者占据了用户心智份额。该细分市场表明用户正在寻求能力和效率的平衡。
  • “大型”模型细分市场:一个多元化的格局。 “追求质量”并未导致整合,而是导致了多样化。大型模型类别现在包含了一系列高性能竞争者,从 Qwen3 235B A22B Instruct(2025年 7 月发布)和 Z.AI GLM 4.5 AirOpenAI: GPT-OSS-120B(8 月 5 日):每个都占据了有意义且持续的使用量。这种多元化表明用户正在积极地对多个开放大型模型进行基准测试,而不是收敛于单一标准。

小型模型主导开源生态系统的时代可能已成为过去。市场现在正在分化,用户要么倾向于一种新的、强大的中型模型类别,要么将其工作负载整合到功能最强大、最单一的大型模型上。

开源模型有何用途?

如今,开源模型被广泛应用于创意、技术和信息领域。尽管专有模型在结构化业务任务中仍占据主导地位,但开源模型在两个特定领域脱颖而出:创意角色扮演编程辅助。这两个类别合计占开源 Token 使用量的大部分。

开源模型类别趋势。 开源模型在高级任务类别中的使用分布。角色扮演(约 52%)和编程始终主导开源工作负载构成,两者合计占大部分开源 Token。较小部分包括翻译、通用知识问答等。

上图突出显示,所有开源模型使用量的一半以上属于“角色扮演”,其次是“编程”。这表明用户主要使用开源模型进行创意互动对话(如讲故事、角色扮演和游戏场景)以及与编程相关的任务。角色扮演的主导地位(在所有开源 Token 中占比超过 50%)突显了开源模型具有优势的一个用例:可用于创造性用途,且通常不受内容过滤的限制,使其对奇幻或娱乐应用具有吸引力。角色扮演任务需要灵活的响应、上下文保留和情感细微差别——这些是开源模型可以有效提供而无需受到商业安全或审核层严格限制的属性。这使得它们对尝试角色驱动体验、同人小说、互动游戏和模拟环境的社区特别有吸引力。

中国开源模型类别趋势。 由中国开发的开源模型类别构成。角色扮演仍然是最大的单一用例,但编程和技术合计所占比例高于整体开源模型(33% 对比 38%)。

上图显示了如果我们将焦点仅放在中国开源模型上,随着时间推移的类别细分。这些模型不再主要用于创意任务。角色扮演仍然是最大的类别,约占 33%,但编程和技术现在合计占使用量的大多数(39%)。这一转变表明,像 通义千问DeepSeek 这样的模型越来越多地用于代码生成和基础设施相关的工作负载。尽管大批量企业用户可能会影响特定细分市场,但总体趋势表明中国开源模型在技术和生产力领域直接竞争。

根据模型来源划分的编程查询。 编程相关 Token 量由专有模型、中国开源模型和非中国(世界其他地区)开源模型处理的份额。在开源模型部分,2025 年末,平衡显著转向了世界其他地区开源模型,该模型现在占所有开源编程 Token 的一半以上(此前阶段,中国开源模型主导了开源编程使用量)。

如果仅关注编程类别,我们观察到专有模型仍然总体处理大部分编程辅助(灰色区域),这反映了 Anthropic 的 Claude 等强大产品。然而,在开源部分,存在一个显著转变:在 2025 年年中,中国开源模型(蓝色)提供了大部分开源编程帮助(由 Qwen 3 Coder 等早期成功案例推动)。到 2025 年第四季度,西方开源模型(橙色),如 Meta 的 LLaMA-2 Code 和 OpenAI 的 GPT-OSS 系列,大幅增长,但在最近几周总体份额有所下降。这种波动表明这是一个竞争非常激烈的环境。实际的启示是,开源代码助手的使用是动态的,并且对新模型质量的响应非常迅速:开发人员乐于使用任何当前提供最佳编程支持的开源模型。作为一个限制,此图未显示绝对量:开源编程使用量总体上有所增长,因此蓝色区域缩小并不意味着中国开源模型失去了用户,而仅仅是相对份额。

按模型来源划分的角色扮演查询。 角色扮演用例的 Token 量,分为中国开源模型和世界其他地区开源模型。角色扮演仍然是两个群体中最大的类别;到 2025 年底,流量大致由中国和非中国开源模型平分。

现在,如果只看角色扮演流量,我们发现它现在几乎同样由世界其他地区开源模型(橙色,最近几周为 43%)和闭源模型(灰色,最近约为 42%)提供服务。这与 2025 年早些时候该类别由专有(灰色)模型主导的情况发生了显著变化,当时专有模型占据了大约 70% 的 Token 份额。当时(2025 年 5 月),西方开源模型仅占流量的大约 22%,而中国开源模型(蓝色)仅占少量约 8%。全年,专有份额稳步下降。到 2025 年 10 月底,随着西方和中国开源模型都获得了显著增长,这一趋势加速了。

由此产生的趋同表明健康的竞争;用户在创意聊天和讲故事方面可以从开源和专有产品中获得可行的选择。这反映了开发者认识到对角色扮演/聊天模型的需求,并为此调整了其发布(例如,针对对话进行微调,添加角色一致性对齐)。需要注意的是,“角色扮演”涵盖了一系列子类型(从休闲聊天到复杂游戏场景)。然而,从宏观角度来看,很明显开源模型在这个创意领域具有优势。

解读。 总体而言,在整个开源生态系统中,关键用例是:角色扮演和创意对话: 首要类别,可能是因为开源模型可以未经审查或更容易定制虚构角色和故事任务。编程辅助: 第二大类别,并且正在增长,因为开源模型在代码方面变得更加称职。许多开发者在本地利用开源模型进行编码以避免 API 成本。翻译和多语言支持: 一个稳定的用例,尤其是在有强大的双语模型可用时(中国开源模型在这方面具有优势)。通用知识问答和教育: 中等使用量;虽然开源模型可以回答问题,但用户可能更喜欢像 GPT-5 这样的闭源模型以获得最高的准确性。

值得注意的是,开源模型的使用模式(大量用于角色扮演)与许多人认为的“爱好者”或“独立开发者”的使用模式相似——在这些领域,定制和成本效益胜过绝对准确性。不过,界限正在模糊:开源模型在技术领域迅速改进,专有模型也正在被创造性地使用。

智能体推理的兴起

在前一节对模型生态系统(开源与闭源)演变观点的基础上,我们现在转向LLM 使用的根本形态。语言模型在生产中的使用方式正在发生根本性转变:从单轮文本补全转向多步、工具集成和推理密集型工作流程。我们将这种转变称为**智能体推理(Agentic Inference)**的兴起,即模型不仅用于生成文本,还通过规划、调用工具或跨扩展上下文进行交互来执行操作。本节通过五个代理指标来追溯这一转变:推理模型的兴起、工具调用行为的扩展、序列长度曲线的变化以及编程使用如何驱动复杂性。

推理模型现在占总使用量的一半

推理与非推理 Token趋势。 经推理优化模型所处理的总 Token 份额自 2025 年初以来稳步上升。该指标反映了推理模型所提供所有 Token 的比例,而非模型输出中“推理 Token”的份额。

如上图所示,流向经过推理优化模型的 Token 总份额在 2025 年急剧攀升。2025 年初,该部分使用量几乎可以忽略不计,如今已超过50%。这一转变反映了市场的两面。在供给侧,GPT-5、Claude 4.5 和 Gemini 3 等高能力系统的发布扩展了用户对逐步推理的期望。在需求侧,用户越来越倾向于能够管理任务状态、遵循多步逻辑并支持智能体式工作流程的模型,而不仅仅是生成文本。

按 Token 量排名的顶级推理模型。 在推理模型中,xAI 的 Grok Code Fast 1 目前处理着最大份额的推理相关 Token 流量,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。xAI 的 Grok 4 Fast 和 OpenAI 的gpt-oss-120b 共同构成了顶级群体。

上图显示了推动这一转变的顶级模型。在最新数据中,xAI 的 Grok Code Fast 1 现在在推理流量中占据最大份额(不包括免费启动访问),领先于 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。这与几周前 Gemini 2.5 Pro 领先该类别,以及 DeepSeek R1 和 Qwen3也位居前列的情况相比,是一个显著的变化。Grok Code Fast 1 和 Grok 4 Fast 在 xAI 积极推广、有竞争力的定价以及其面向代码的变体受到开发者关注的支持下,迅速获得了市场份额。与此同时,OpenAI 的 gpt-oss-120b 等开源模型的持续存在,强调了开发者在可能的情况下仍然会选择开源模型。整体组合突显了推理格局的动态性,模型快速更迭塑造了哪些系统在实际工作负载中占据主导地位。

数据指向一个明确的结论:面向推理的模型正在成为实际工作负载的默认路径,其 Token 流量份额现在是用户如何与 AI 系统交互的领先指标。

工具调用(Tool-Calling)的日益普及

工具调用。 占总 Token 份额的百分比,已按“工具调用”分类的完成原因的请求进行归一化,表示在请求期间实际调用了工具。此指标反映了成功的工具调用;包含工具定义的请求数量按比例更高。

上图中,我们报告了源自完成原因为“工具调用”的请求所占的总 Token份额。此指标经过归一化处理,仅捕获实际调用了工具的交互。

这与记录请求期间是否向模型提供了工具(无论是否调用)的“输入工具”信号形成对比。输入工具计数,根据定义,高于工具调用完成原因,因为提供是成功执行的超集。完成原因指标衡量的是实际的工具使用,而输入工具反映的是潜在可用性而非实际调用。由于此指标仅在 2025年 9 月引入,因此我们不在本文中报告。

上图中 5 月份明显的峰值主要归因于一个大型账户的活动,该活动短暂地提升了整体交易量。除了这一异常情况,全年工具采用率持续呈上升趋势。

按提供的工具量排名的顶级模型。 工具提供集中于明确为智能体推理优化的模型,例如 Claude Sonnet、Gemini Flash。

如上图所示,工具调用最初集中在少数模型中:OpenAI 的 gpt-4o-mini 以及 Anthropic 的 Claude 3.5 和 3.7 系列,它们共同占据了 2025 年初大部分支持工具的 Token。然而,到年中,更广泛的模型开始支持工具提供,反映出更具竞争力和多样化的生态系统。从 9 月末开始,更新的 Claude 4.5 Sonnet 模型迅速获得市场份额。同时,Grok Code FastGLM 4.5 等新进入者取得了显著进展,反映了工具可用部署中更广泛的实验和多样化。

对于运营商来说,这意味着:在高价值工作流程中,启用工具使用正在增加。没有可靠工具格式的模型在企业采用和编排环境中面临落后的风险。

提示-完成形态的剖析

提示 Token 数量正在上升。 自 2024 年初以来,平均提示 Token 长度增长了近四倍,反映出对上下文要求越来越高的工作负载。

完成 Token 数量几乎翻了三倍。 输出长度也有所增加,尽管基数较小,表明响应内容更丰富、更详细,主要归因于推理 Token。

编程是提示 Token 增长的主要驱动因素。 由于标签自 2025 年春季开始可用,编程相关任务始终需要最大的输入上下文。

过去一年中,模型工作负载的形态发生了显著变化。提示(输入)和完成(输出)Token 量均急剧上升,尽管规模和速率不同。每次请求的平均提示 Token 大致增加了四倍,从约 1.5K 增加到超过 6K,而完成 Token 几乎增加了三倍,从约 150 增加到 400。增长的相对幅度凸显了向更复杂、上下文更丰富的工作负载的决定性转变。

这种模式反映了模型使用的新平衡。如今,典型的请求不再是开放式生成(“给我写一篇论文”),更多的是对大量用户提供材料(如代码库、文档、转录本或长对话)进行推理,并产生简洁、高价值的见解。模型正越来越多地充当分析引擎,而非创意生成器。

类别级数据(仅从 2025 年春季开始提供)提供了更细致的画面:编程工作负载是提示 Token 增长的主要驱动力。涉及代码理解、调试和代码生成的请求通常超过 20K 输入 Token,而所有其他类别则相对平稳且数量较少。这种不对称的贡献表明,最近提示大小的扩展并非跨任务的统一趋势,而是与软件开发和技术推理用例相关的集中激增。

更长的序列,更复杂的交互

平均序列长度随时间变化。 每次生成(提示 + 完成)的平均 Token 数量。

编程与总体序列长度对比。 编程提示系统性更长,增长更快。

序列长度是任务复杂性和交互深度的代理。上图显示,在过去 20 个月里,平均序列长度增加了两倍多,从 2023 年底的不到 2,000 个 Token 跃升至 2025 年底的 5,400 多个 Token。这种增长反映了向更长上下文窗口、更深层任务历史和更复杂完成的结构性转变。

根据上一节所述,第二张图提供了进一步的清晰度:与通用提示相比,编程相关提示的平均 Token 长度现在是其 3-4 倍。这种差异表明软件开发工作流程是更长交互的主要驱动力。长序列不仅仅是用户的冗余:它们是嵌入式、更复杂的智能体工作流程的标志。

启示:智能体推理成为新常态

这些趋势(推理份额上升、工具使用扩展、序列更长以及编程的超大复杂性)共同表明,LLM 使用的重心已经转移。普通 LLM 请求不再是简单问题或孤立指令。相反,它已成为结构化、智能体式循环的一部分,调用外部工具,推理状态,并在更长的上下文中持续存在。

对于模型提供商来说,这提高了默认能力的门槛。延迟、工具处理、上下文支持以及对格式错误或对抗性工具链的鲁棒性变得越来越关键。对于基础设施运营商来说,推理平台现在不仅要管理无状态请求,还要管理长时间运行的对话、执行轨迹和权限敏感的工具集成。很快,甚至可能已经如此,智能体推理将占据大部分推理工作。

类别:人们如何使用 LLM?

了解用户使用 LLM 执行的任务分布对于评估实际需求和“模型-市场契合度”至关重要。如“数据和方法”一节所述,我们将数十亿次模型交互分类为高级应用类别。在“开源与闭源模型”一节中,我们重点关注开源模型以了解社区驱动的使用情况。在这里,我们将视角扩大到 OpenRouter 上的所有 LLM 使用(包括闭源和开源模型),以全面了解人们在实践中如何使用 LLM。

主要类别

编程作为主导且不断增长的类别。 在所有 LLM 查询中,归类为编程的份额稳步增长,反映了 AI 辅助开发工作流程的兴起。

编程已成为所有模型中持续增长最快的类别。编程相关请求的份额在 2025 年稳步增长,与 LLM 辅助开发环境和工具集成的兴起并行。如上图所示,编程查询在 2025 年初约占总 Token量的 11%,而在最近几周已超过 50%。这一趋势反映了从探索性或会话性使用转向代码生成、调试和数据脚本等应用任务的转变。随着 LLM 嵌入到开发者工作流程中,其作为编程工具的作用正在常态化。这一演变对模型开发具有重要意义,包括更加强调以代码为中心的训练数据,提高多步编程任务的推理深度,以及模型与集成开发环境之间更紧密的反馈循环。

对编程支持日益增长的需求正在重塑模型提供商之间的竞争格局。如下图所示,Anthropic 的 Claude 系列在大多数观察期内一直主导该类别,占据编程相关支出的 60% 以上。然而,格局仍在显著演变。在 11 月 17 日那一周,Anthropic 的份额首次跌破 60% 的门槛。自 7 月以来,OpenAI 的份额已从大约 2% 增长到最近几周的约 8%,这可能反映出其重新强调以开发者为中心的工作负载。在同一时期,Google 的份额保持稳定在约 15%。中端市场也在变化。包括Z.AI、通义千问和 Mistral AI 在内的开源提供商正在稳步获得用户关注。MiniMax 尤其已成为一个快速崛起的新进入者,在最近几周显示出显著增长。

按模型提供商划分的编程请求份额。 编程工作负载高度集中:Anthropic 的模型处理了大部分编码查询,其次是 OpenAI 和 Google,MiniMax 占据了不断增长的一部分。其他提供商合计仅占一小部分。此图省略了 xAI,该模型的使用量很大,但在一段时间内免费提供。

总的来说,编程已成为竞争最激烈且具有战略重要性的模型类别之一。 它吸引了顶级实验室的持续关注,即使模型质量或延迟的微小变化也可能导致每周份额的变化。对于基础设施提供商和开发者而言,这凸显了持续基准测试和评估的必要性,尤其是在前沿技术不断演进的情况下。

类别内部的标签构成

按总 Token 份额划分的六大类别。 每个条形图显示了该类别中主要子标签的细分情况。标签表示对该类别至少贡献 7% Token 的子标签。

按 Token 份额划分的接下来的六个类别。 次要类别的类似细分,说明了每个领域子主题的集中度(或缺乏集中度)。

上图将 LLM 使用情况分解为十二个最常见的内容类别,揭示了每个类别的内部子主题结构。一个关键的启示是,大多数类别并非均匀分布:它们由一两个反复出现的用例模式主导,这通常反映了集中的用户意图或与 LLM 优势的对齐。

在高用量类别中,角色扮演因其一致性和专业化而脱颖而出。近 60% 的角色扮演 Token 属于“游戏/角色扮演游戏”,这表明用户将 LLM 视为结构化的角色扮演或角色引擎,而不仅仅是休闲聊天机器人。Writers Resources(15.6%)和Adult内容(15.4%)的存在进一步强化了这一点,表明互动小说、场景生成和个人幻想的融合。与角色扮演主要 informal 对话的假设相反,数据显示了一个明确且可复制的基于流派的用例。

编程也同样倾斜,超过三分之二的流量被标记为“编程/其他”。这表明代码相关提示具有广泛的通用性质:用户并非狭隘地专注于特定工具或语言,而是向 LLM 询问从逻辑调试到脚本草稿的所有内容。话虽如此,Development Tools(26.4%)和脚本语言的少量份额表明新兴的专业化。这种碎片化凸显了模型构建者改进结构化编程工作流程的标记或训练的机会。

除了角色扮演和编程这两种主要类别之外,其余领域代表着 LLM 使用量的多样但较低的长尾。虽然单个类别较小,但它们揭示了用户如何在专业化和新兴任务中与模型交互的重要模式。例如,翻译科学健康显示出相对平坦的内部结构。在翻译中,使用量几乎均匀地分为“外语资源”(51.1%)和“其他”,这表明需求分散:多语言查找、改写、轻度代码切换,而非持续的文档级翻译。科学领域由单个标签“机器学习与人工智能”(80.4%)主导,表明大多数科学查询是元 AI 问题,而不是像物理学或生物学这样的通用 STEM 主题。这反映了用户兴趣或模型优势偏向自我参照查询。

相比之下,健康是顶级类别中最为碎片化的,没有一个子标签超过 25%。Token 分散在医学研究、咨询服务、治疗指导和诊断查询中。这种多样性凸显了该领域的复杂性,但也带来了安全建模的挑战:LLM 必须跨越高变异的用户意图,通常在敏感上下文中,而没有明确集中在单一用例中。

这些长尾类别的共同点是它们的广度:用户向 LLM 寻求探索性、轻度结构化或寻求帮助的交互,但没有像编程或个人助手那样集中的工作流程。总而言之,这些次要类别可能不会主导总量,但它们暗示了潜在需求。它们表明 LLM 正在被用于从翻译到医疗指导再到 AI 自我反省等许多领域的边缘,并且随着模型在领域鲁棒性和工具集成方面的改进,我们可能会看到这些分散的意图汇聚成更清晰、更高用量的应用程序。

相比之下,金融学术法律则更为分散。金融的交易量分散在外汇、社会责任投资和审计/会计领域:没有一个标签超过 20%。法律领域也表现出类似的无序状态,使用量在“政府/其他”(43.0%)和“法律/其他”(17.8%之间分配。这种碎片化可能反映了这些领域的复杂性,或者仅仅是与更成熟的编码和聊天等类别相比,缺乏针对它们的 LLM 工作流。

数据显示,实际的 LLM 使用并非均匀地探索性:它紧密地围绕着一小部分可重复、高数量的任务。角色扮演、编程和个人助理都表现出清晰的结构和主导标签。相比之下,科学、健康和法律领域则更为分散,且可能优化不足。这些内部分布可以指导模型设计、特定领域微调以及应用级接口,尤其是在根据用户目标定制 LLM 方面。

作者层面的按类别洞察

不同模型作者的利用模式也各不相同。下图展示了主要模型系列(Anthropic 的 Claude、Google 的模型、OpenAI 的 GPT 系列、DeepSeek 和通义千问)的内容类别分布。每个条形图代表该提供商 100% 的 Token 使用量,并按主要标签细分。

Anthropic。 主要用于编程和技术任务(超过 80%),角色扮演使用量极少。

Google。 广泛的使用构成,涵盖法律、科学、技术和一些通用知识查询。

xAI。 Token 使用量主要集中在编程领域,而技术、角色扮演和学术领域在 11 月下旬变得更加突出。

OpenAI。 随着时间推移,逐渐转向编程和技术任务,角色扮演和休闲聊天的使用量显著下降。

DeepSeek。 使用量主要由角色扮演和休闲互动主导。

通义千问。 编程任务高度集中,角色扮演和科学类别随时间波动。

Anthropic 的 Claude 严重偏向编程 + 技术用途,两者合计占其使用量的 80% 以上。角色扮演和通用问答仅占一小部分。这证实了 Claude 作为优化复杂推理、编码和结构化任务模型的定位;开发者和企业似乎主要将 Claude 用作编码助手和问题解决器。

Google 的模型使用更加多样化。我们看到翻译科学技术以及一些通用知识的显著部分。例如,Google 使用量的约 5% 为法律或政策内容,另有约 10% 与科学相关。这可能暗示 Gemini 的广泛训练重点。与其他模型相比,Google 的编码份额相对较少,实际上到 2025 年末呈下降趋势(降至约 18%),并且类别长尾更广。这表明 Google 的模型更多地被用作通用信息引擎。

xAI 的使用情况与其它提供商截然不同。在大部分时期,其使用量绝大部分集中在编程领域,通常超过总 Token 量的 80%。直到 11 月下旬,分布才拓宽,技术角色扮演学术领域显着增长。这种急剧转变与 xAI 模型通过特定消费者应用免费分发的时间点相符,这可能引入了大量非开发者流量。结果是使用构成融合了早期开发者为主的核心用户群和突如其来的通用参与浪潮,表明 xAI 的采用路径既受技术用户影响,也受促销可用性引发的周期性激增影响。

OpenAI 的使用情况在 2025 年发生了显著变化。在年初,科学任务占 OpenAI 所有 Token 的一半以上;到 2025 年底,这一份额已降至 15% 以下。同时,编程和技术相关使用现在占总使用量的一半以上(各占 29%),反映了与开发者工作流程、生产力工具和专业应用的更深度集成。OpenAI 的使用构成现在介于Anthropic 紧密聚焦的配置文件和 Google 更分散的分布之间,表明其拥有广泛的实用性基础,并日益倾向于高价值、结构化的任务。

DeepSeek 和通义千问 的使用模式与前面讨论的其他模型家族有很大不同。DeepSeek 的 Token 分布主要由角色扮演、休闲聊天和娱乐导向的交互主导,通常占其总使用量的三分之二以上。只有一小部分活动属于编程或科学等结构化任务。这种模式反映了 DeepSeek 的强大消费者导向及其作为高参与度对话模型的定位。值得注意的是,DeepSeek 在夏末编程相关使用方面显示出温和但稳定的增长,这表明其在轻量级开发工作流程中逐步被采用。

相比之下,通义千问 (Qwen)呈现出几乎相反的特点。在所示的整个期间,编程始终占总 Token 的 40-60%,这表明它非常侧重于技术和开发者任务。与 Anthropic 更稳定的以工程为主的构成相比,通义千问 在科学、技术和角色扮演等相邻类别中表现出更高的波动性。这些周复一周的变化暗示了用户群的异构性和应用场景的快速迭代。9 月至 10 月角色扮演使用量的显著上升,随后在 11 月收缩,暗示了不断变化的用户行为或下游应用路由的调整。

总之, 每个提供商都显示出与其战略重点相符的独特画像。这些差异突出了为什么没有单一模型或提供商能够最佳地覆盖所有用例;它也强调了多模型生态系统的潜在好处。

##地理:LLM 使用如何在不同地区差异?

全球 LLM 的使用呈现出明显的地域差异。通过研究地理细分,我们可以推断本地使用和支出如何塑造 LLM 的使用模式。虽然下图反映了OpenRouter 的用户群,但它们提供了一份区域参与度的快照。

使用量的区域分布

如下图所示的支出分布,强调了 AI 推理市场日益全球化的性质。北美虽然仍然是最大的单一区域,但在观察期的大部分时间里,其总支出已不足一半。欧洲显示出稳定且持久的贡献。其每周支出的相对份额在整个时间轴上保持一致,通常介于百分之十中到二十初之间。一个显著的发展是,亚洲不仅作为前沿模型的生产地,而且作为一个快速扩张的消费地也在崛起。在数据集的最早几周,亚洲约占全球支出的 13%。随着时间的推移,这一份额增加了一倍多,在最近时期达到约 31%。

世界各区域随时间变化的支出量。 全球使用量每周份额归因于各大洲。

大洲 份额 (%)
北美洲 47.22
亚洲 28.61
欧洲 21.32
大洋洲 1.18
南美洲 1.21
非洲 0.46

全球 LLM 使用的大洲分布。 源自各大洲(账单地区)的总 Token 百分比。

国家 份额 (%)
美国 47.17
新加坡 9.21
中国 6.01
韩国 2.88
荷兰 2.65
英国 2.52
加拿大 1.90
日本 1.77
印度 1.62
其他(60 多个国家) 16.76

按 Token 量排名的前 10 个国家。 按全球 LLM Token 份额排名的国家。

语言分布

语言 Token 份额(%)
英语 82.87
简体中文 4.95
俄语 2.47
西班牙语 1.43
泰语 1.03
其他(合计) 7.25

按语言划分的 Token 量。 语言基于 OpenRouter 所有流量中检测到的提示语言。

如上表所示,英语在用量上占据主导地位,占所有 Token 的 80% 以上。这反映了英语模型的普遍性以及 OpenRouter 用户群偏重开发者的特点。然而,其他语言,特别是中文、俄语和西班牙语,也占据了相当大的份额。仅简体中文就占全球 Token 的近 5%,这表明双语或以中文为主环境中的用户持续参与,尤其是考虑到 DeepSeek 和通义千问 等中国开源模型的增长。

对于模型构建者和基础设施运营商来说,在一个 LLM 采用同时全球化和本地优化的世界中,跨区域可用性,包括跨语言、合规制度和部署设置,正成为基本要求。

LLM 用户留存分析

灰姑娘“水晶鞋”现象

Claude 4 Sonnet

Gemini 2.5 Pro

Gemini 2.5 Flash

OpenAI GPT-4o Mini

Llama 4 Maverick

Gemini 2.0 Flash

DeepSeek R1

DeepSeek Chat V3-0324

群组留存率。留存率以活动留存率衡量,用户即使在一段时间不活跃后再次回来,也会被计算在内;因此,曲线可能会出现小的非单调波动。

这组留存图表捕捉了领先LLM 模型用户市场的动态。乍一看,数据以高流失率和快速的用户群衰减为主。然而,在这种波动之下,隐藏着一个更微妙、更重要的信号:一小部分早期用户群表现出经久不衰的留存率。我们将这些用户群称为基础用户群

这些用户群不仅仅是早期采用者;他们代表了其工作负载与模型之间实现了深度且持久的“工作负载-模型契合度”的用户。一旦建立,这种契合度就会产生经济和认知上的惯性,即使新模型不断涌现,也难以替代。

我们引入灰姑娘的水晶鞋效应来描述这一现象。该假设认为,在一个快速发展的 AI 生态系统中,存在一个潜在分布的高价值工作负载,这些工作负载在 successive 的模型世代中仍然悬而未决。每个新的前沿模型都会被“试穿”以解决这些开放问题。当一个新发布的模型恰好匹配了之前未满足的技术和经济约束时,它就实现了精确的契合——即比喻中的“水晶鞋”。

对于其工作负载最终“契合”的开发者或组织而言,这种对齐效应会产生强大的锁定效应。他们的系统、数据管道和用户体验都锚定在最先解决其问题的模型上。随着成本下降和可靠性增加,重新平台化的动力急剧减弱。反之,未能找到这种契合度的工作负载则仍处于探索阶段,不断从一个模型迁移到另一个模型,以寻求自己的解决方案。

从经验上看,这种模式可以在 Gemini 2.5Pro 的 2025 年 6 月用户群和 Claude 4 Sonnet 的 2025 年 5 月用户群中观察到,它们在第 5 个月仍保留了大约40% 的用户,远高于后期用户群。这些用户群似乎对应于特定的技术突破(例如,推理保真度或工具使用稳定性),这些突破最终使得以前不可能的工作负载成为可能。

  • 率先解决问题,形成持久优势。 当一个模型率先“解决”一个关键工作负载时,经典的先发优势就变得更加重要。早期采用者将模型嵌入到管道、基础设施和用户行为中,从而产生高昂的切换成本。这创造了一个稳定的平衡,即模型保留其基础用户群,即使新的替代品出现。
  • 留存率作为能力拐点的指标。 用户群层面的留存模式可作为模型差异化的经验信号。一个或多个早期用户群的持续留存表明存在有意义的能力拐点——一个工作负载类别从不可行转变为可能。缺乏此类模式则表明能力均等,且差异化深度有限。
    *前沿窗口的时间限制。 竞争格局施加了一个狭窄的时间窗口,模型可以在其中捕获基础用户。随着后续模型缩小能力差距,形成新的基础用户群的可能性急剧下降。“灰姑娘”时刻,即模型与工作负载精确对齐的时刻,是瞬态的,但对于长期采用动态而言具有决定性意义。

总而言之,基础模型能力的快速变化要求重新定义用户留存。每一代新模型都提供了一个短暂的机会来解决以前未满足的工作负载。当这种对齐发生时,受影响的用户形成基础用户群:尽管随后引入了其他模型,但他们的留存轨迹依然稳定。

主导发布异常。 OpenAI GPT-4o Mini 图表以其极端性展示了这种现象。一个单一的基础用户群(2024 年 7 月,橙色线)在发布时建立了主导的、固定的工作负载-模型契合度。所有随后的用户群,在这一契合度建立并市场已经转移之后才到来,表现完全相同:它们流失并在底部聚集。这表明建立这种基础契合度的窗口是单一的,并且仅在模型被视为“前沿”的那一刻发生。

“不适配”的后果。 Gemini 2.0 FlashLlama 4 Maverick 的图表展示了一个警示性的故事,说明了如果从未建立起最初的契合度会发生什么。与其它模型不同,它们没有高性能的基础用户群。每个用户群的表现都同样糟糕。这表明这些模型从未被视为具有高价值、高粘性工作负载的“前沿”。它直接进入了“够用即可”的市场,因此未能锁定任何用户群。同样,尽管总体上取得了压倒性成功,但 DeepSeek 混乱的图表难以建立稳定的基础用户群。

“回旋镖效应”。DeepSeek 模型呈现出一种更为复杂的模式。它们的留存曲线显示出一种高度不寻常的异常现象:复活式跳跃。与典型的单调下降留存曲线不同,DeepSeek 的几组用户在经历最初一段时间的流失后,显示出明显的留存率上升(例如,DeepSeek R1 的 2025 年 4月用户群在第 3 个月左右,以及 DeepSeek Chat V3-0324 的 2025 年 7 月用户群在第 2 个月左右)。这表明一些流失的用户正在重新回到该模型。这种“回旋镖效应”表明,这些用户在尝试了替代品后,通过竞争性测试确认 DeepSeek 由于其专业技术性能、成本效益或其他独特功能的卓越组合,为其特定工作负载提供了最佳、通常是更好的契合,从而重新回到了 DeepSeek。

启示。 “水晶鞋”现象将留存重新定义为理解能力突破的视角。基础用户群是真正技术进步的指纹:它们标志着人工智能模型从新颖性走向必需品的转折点。对于构建者和投资者而言,及早识别这些用户群可能是预测持久模型-市场优势的最具预测性的单一信号。

成本与用量动态

模型使用成本是影响用户行为的关键因素。在本节中,我们重点关注不同人工智能工作负载类别如何分布在成本与用量图谱中。通过观察类别在对数-对数成本与用量图中的聚集情况,我们识别了工作负载在低成本、高用量区域与高成本、专业化细分市场中的集中模式。我们还提到了与杰文斯悖论效应的相似之处,即较低成本的类别通常对应更高的总用量,尽管我们不试图正式分析悖论或因果关系。

各类别人工智能工作负载细分分析

各类别对数成本与对数使用量

上面的散点图揭示了人工智能用例的明显细分,根据其总使用量(总 Token)与单位成本(每 100 万 Token 的成本)进行映射。一个重要的初步观察是,两个轴都是对数刻度。这种对数缩放意味着图表上的微小视觉距离对应着实际产量和成本的巨大乘积差异。

图表被一条中位成本每 100 万 Token 0.73 美元的垂直线二等分,有效地创建了一个四象限框架,以简化不同类别的人工智能市场。

请注意,这些最终成本与公布的标价不同。高频工作负载受益于缓存,这降低了实际支出,并产生了比公开列出的价格实质上更低的实际价格。所示成本指标反映了提示和完成 Token 的混合费率,提供了用户综合实际支付情况的更准确视图。数据集还排除了 BYOK(带上自己的密钥)活动,以隔离标准化、平台中介的使用,避免自定义基础设施设置造成的失真。

高价值工作负载(右上象限): 此象限包含高成本、高用量的应用程序,现在包括“技术”和“科学”,位于交汇点。这些代表了有价值且大量使用的专业工作负载,用户愿意为性能或专业能力支付溢价。**“技术”是一个显著的例外,其成本远高于任何其他类别。**这表明“技术”作为一种用例(可能与复杂系统设计或架构相关)可能需要更强大、更昂贵的模型进行推理,但它保持了较高的使用量,表明其基本性质。

大众市场销量驱动因素(左上象限): 此象限的特点是高用量和低成本(或低于平均成本)。它由两个巨大的用例主导:角色扮演编程以及科学

  • 编程作为“杀手级专业”类别脱颖而出,以高度优化的中位成本展示了最高的用量。
  • 角色扮演的用量巨大,几乎与编程持平。这是一个惊人的发现:一个面向消费者的角色扮演应用程序驱动的参与量与顶级专业应用程序相当。

这两个类别的巨大规模证实了专业生产力和会话娱乐都是人工智能的主要、巨大驱动力。此象限中的成本敏感性正是如前所述,开源模型找到显著优势的地方。

专业专家(右下象限): 此象限包含低用量、高成本的应用,包括金融学术健康营销。这些是高风险、利基的专业领域。较低的总用量是符合逻辑的,因为人们咨询人工智能进行“健康”或“金融”问题的频率远低于“编程”。用户愿意为这些任务支付高额溢价,可能是因为对准确性、可靠性和领域特定知识的需求极高。

利基工具(左下象限): 此象限包含低成本、低用量的任务,包括翻译法律问答。这些是功能性、成本优化的工具。翻译在此组中用量最高,而问答用量最低。它们的低成本和相对较低的用量表明这些任务可能高度优化、“已解决”或商品化,其中存在足够好且廉价的替代方案。

如前所述,此图中最显著的异常值是技术。它以大幅高于其他任何类别的 Token 成本,同时保持高使用量。这强有力地表明,存在一个市场细分,用户愿意为高价值、复杂的答案(例如,系统架构、高级技术问题解决)支付高价。一个关键问题是,高价格是由高用户价值(“需求侧”机会)驱动的,还是由高服务成本(“供给侧”挑战)驱动的,因为这些查询可能需要最强大的前沿模型。在技术领域的机会在于服务这个高价值市场。能够服务于此细分市场的提供商,也许通过高度优化、专业的模型,有可能抓住一个具有更高利润的市场。

AI 模型的实际成本与用量动态

开源与闭源模型格局:成本与用量(对数-对数尺度)。 每个点代表 OpenRouter 上提供的一个模型,按来源类型着色。闭源模型聚集在高成本、高用量象限,而开源模型主导低成本、高用量区域。虚线趋势线几乎是平坦的,显示成本与总用量之间相关性有限。注意:该指标反映了提示和完成 Token 的混合平均值,由于缓存,实际价格通常低于标价。BYOK活动已排除。

上图将模型使用量与每百万 Token 成本(对数-对数尺度)进行了映射,揭示了整体相关性较弱。x 轴为了方便起见,映射了名义值。趋势线几乎平坦,表明需求的价格弹性相对较低;价格每下降 10%,使用量仅增加约 0.5-0.7%。然而,图表上的分散度很大,反映了强烈的市场细分。出现了两种截然不同的模式:OpenAI 和 Anthropic 的专有模型占据了高成本、高用量区域,而 DeepSeek、Mistral 和通义千问 等开源模型则占据了低成本、高用量区域。这种模式支持一个简单的启发式:闭源模型捕获高价值任务,而开源模型捕获高用量低价值任务。 价格弹性较弱表明,即使是巨大的成本差异也无法完全转移需求;专有提供商在关键任务应用中保持定价权,而开源生态系统则吸收了成本敏感型用户的用量。

AI 模型市场图:成本与用量(对数-对数尺度)。 与上图类似,但每个点按模型提供商着色。

区段 模型 每百万 Token 价格 用量(对数) 要点
高效巨头 google/gemini-2.0-flash $0.147 6.68 低廉的价格和强大的分发使其成为默认的高容量主力
高效巨头 deepseek/deepseek-v3-0324 $0.394 6.55 具有竞争力的质量和超低的价格驱动了大规模采用
高级领导者 anthropic/claude-3.7-sonnet $1.963 6.87 尽管价格高昂但使用量非常大,表明用户对质量和可靠性有偏好
高级领导者 anthropic/claude-sonnet-4 $1.937 6.84 企业工作负载对于值得信赖的前沿模型似乎对价格不敏感
长尾模型 qwen/qwen-2-7b-instruct $0.052 2.91 极低的价格但触达有限,可能由于模型-市场契合度较弱
长尾模型 ibm/granite-4.0-micro $0.036 2.95 便宜但小众,主要在有限的环境中使用
高级专家 openai/gpt-4 $34.068 3.53 高成本和适度使用,专为要求最苛刻的任务保留
高级专家 openai/gpt-5-pro $34.965 3.42 超高端模型,专注于高风险工作负载。鉴于最近发布,仍处于早期采用阶段。

按细分市场划分的模型示例。 值从更新后的数据集中采样。市场层面的回归仍然几乎是平坦的,但细分市场层面的行为差异很大。

上图与前图类似,但显示了模型作者。出现了四种用量-成本原型。高级领导者,如 Anthropic 的 Claude 3.7 Sonnet 和 Claude Sonnet 4,每百万 Token 成本约为 2 美元,但仍能获得高用量,这表明用户愿意为卓越的推理能力和规模化可靠性付费。高效巨头,如 Google 的 Gemini 2.0 Flash 和 DeepSeek V3 0324,以低于每百万 Token 0.40 美元的价格提供强大的性能,并达到相似的用量水平,使其成为高用量或长上下文工作负载的吸引力默认选择。长尾模型,包括 Qwen 2 7B Instruct 和 IBM Granite 4.0 Micro,每百万 Token 价格仅为几美分,但总用量约为 10^2.9,这反映了性能较弱、可见度有限或集成较少等限制。最后,高级专家,如 OpenAI 的 GPT-4 和 GPT-5 Pro,占据了高成本、低用量象限:每百万 Token 价格约为35 美元,用量接近 10^3.4,它们仅在少数、高风险的任务中被谨慎使用,这些任务的输出质量远比边际 Token 成本重要。

总体而言,散点图突出显示,LLM 市场中的定价权并非统一的。虽然更便宜的模型可以通过效率和集成来扩大规模,但更高端的产品在需求量很大的地方仍然具有强大的吸引力。这种碎片化表明市场尚未商品化,并且差异化(无论是通过延迟、上下文长度还是输出质量)仍然是战略优势的来源。

这些观察得出以下结论:

  • 从宏观层面看,需求缺乏弹性,但这掩盖了不同的微观行为。承担关键任务的企业将支付高价(因此这些模型的使用量很高)。另一方面,业余爱好者和开发管道对成本非常敏感,并涌向更便宜的模型(导致高效模型的使用量很大)。* 有一些杰文斯悖论的证据:将某些模型做得非常便宜(且快速),导致人们将它们用于更多任务,最终消耗了更多的总 Token。我们高效的巨头群体中看到了这一点:随着每 Token 成本下降,这些模型被集成到所有地方,总消耗量飙升(人们运行更长的上下文,更多的迭代等)。
  • 质量和能力通常超越成本: 昂贵模型(Claude、GPT-4)的大量使用表明,如果一个模型显著更优或具有信任优势,用户将承担更高的成本。通常,这些模型集成到工作流程中,其成本相对于它们产生价值而言可以忽略不计(例如,节省开发人员一小时的代码价值远高于几美元的 API 调用费用)。
  • 反之,仅仅便宜是不够的,模型还必须具有差异化且足够强大。 许多价格接近于零的开源模型之所以如此,是因为它们“刚刚够好”,但没有找到“工作负载-模型契合度”,或者可靠性不足,因此开发人员迟迟不愿深入集成它们。

从运营商的角度来看,出现了几个战略模式。像 Google 这样的提供商已经大力推行分层产品(最显著的是 Gemini Flash 和 Pro),明确地在速度、成本和能力之间进行权衡。这种分层实现了按价格敏感度和任务关键性进行市场细分:轻量级任务被路由到更便宜、更快的模型;高端模型服务于复杂或对延迟容忍的工作负载。优化用例和可靠性通常与“削减”价格一样重要。一个更快、专门构建的模型可能比一个更便宜但不稳定的模型更受青睐,尤其是在生产环境中。这使得关注点从每 Token 成本转向每成功结果成本。相对平坦的需求弹性表明 LLM 尚未商品化——许多用户愿意为质量、能力或稳定性支付溢价。 差异化仍然有价值,尤其是在任务结果比边际 Token 节省更重要的情况下。

讨论

这项实证研究通过数据驱动的视角,展示了 LLM 实际使用情况,突出了几个细微主题,这使我们对人工智能部署的传统认知有了新的认识:

1. 多模型生态系统。 我们的分析表明,没有单一模型主导所有使用。相反,我们观察到一个丰富的多模型生态系统,其中闭源和开源模型都占据了重要份额。例如,尽管 OpenAI 和 Anthropic 模型在许多编程和知识任务中处于领先地位,但 DeepSeek 和通义千问 等开源模型合计提供了大量的 Token(有时超过 30%)。这表明 LLM 使用的未来可能是模型无关且异构的。对于开发者而言,这意味着保持灵活性,集成多个模型并为每个任务选择最佳模型,而不是将所有赌注都押在一个模型的霸主地位上。对于模型提供商而言,这强调了竞争可能来自意想不到的地方(例如,社区模型可能会侵蚀您的部分市场,除非您不断改进和差异化)。

2. 超越生产力的多样化使用。 一个令人惊讶的发现是,角色扮演和娱乐导向型使用的庞大数量。超过一半的开源模型使用都用于角色扮演和讲故事。即使在专有平台上,在专业用例增长之前,大量早期的 ChatGPT 使用也是休闲和创造性的。这与 LLM 主要用于编写代码、电子邮件或摘要的假设相悖。实际上,许多用户将这些模型用于陪伴或探索。这具有重要的意义。它突显了面向消费者的应用程序将叙事设计、情感参与和交互性融合起来的巨大机会。它暗示了个性化的新前沿——能够演变个性、记住偏好或维持长期互动智能体。它还重新定义了模型评估指标:成功可能更多地取决于一致性、连贯性和维持引人入胜对话的能力,而不是事实准确性。最后,它为人工智能与娱乐 IP 之间的交叉开辟了一条道路,在互动叙事、游戏和创作者驱动的虚拟角色方面具有潜力。

3. 智能体与人类:智能体推理的崛起。 LLM 的使用正在从单轮交互转向智能体推理,即模型能够规划、推理并执行多步骤任务。它们不再仅仅产生一次性响应,而是协调工具调用,访问外部数据,并迭代地完善输出以实现目标。早期证据表明多步查询和链式工具使用正在增加,我们将其视为智能体使用。随着这种范式的扩展,评估将从语言质量转向任务完成和效率。下一个竞争前沿是模型持续推理的有效性,这种转变最终可能重新定义大规模智能体推理的实际含义。

4. 地理展望。 LLM 的使用日益呈现全球化和去中心化的趋势,北美以外地区增长迅速。亚洲在总 Token 需求中的份额已从约 13% 上升到 31%,这反映了更强的企业采用率和创新力。同时,中国已成为一股主要力量,不仅通过国内消费,还通过生产具有全球竞争力的模型。更广泛的启示是:LLM 必须在全球范围内有用,在不同的语言、上下文和市场中表现良好。下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型的规模。

5. 成本与用量动态。 LLM 市场似乎尚未表现出商品市场特征:价格本身并不能很好地解释使用情况。用户在成本与推理质量、可靠性和功能广度之间进行权衡。闭源模型继续占据高价值、与收入挂钩的工作负载,而开源模型则主导低成本、高用量任务。这创造了一种动态平衡——一种由持续的向下压力而非稳定性定义的平衡。开源模型不断推动高效前沿,特别是在推理和编码领域(如 Kimi K2 Thinking),快速迭代和开源创新缩小了性能差距。开源模型的每一次改进都会压缩专有系统的定价权,迫使它们通过卓越的集成、一致性和企业支持来证明溢价的合理性。由此产生的竞争是快速移动、不对称且不断变化的。随着时间的推移,随着质量趋同加速,价格弹性可能会增加,将曾经差异化的市场转变为更具流动性的市场。

6. 留存与灰姑娘“水晶鞋”现象。 随着基础模型突飞猛进,而非逐步发展,留存已成为可防御性的真正衡量标准。每一次突破都创造了一个稍纵即逝的发布窗口,模型可以在其中完美“契合”高价值工作负载(灰姑娘的水晶鞋时刻),一旦用户找到这种契合,他们就会留下来。在这种范式下,产品-市场契合度等于工作负载-模型契合度:率先解决一个真实痛点会带来深度、粘性的采用,因为用户会围绕这种能力构建工作流程和习惯。切换变得代价高昂,无论是技术上还是行为上。对于构建者和投资者而言,值得关注的信号不是增长,而是留存曲线,即在模型更新中仍保持活跃的基础用户群的形成。在一个日益快速变化的市场中,及早捕捉这些重要的未满足需求决定了谁能在下一次能力飞跃后屹立不倒。

总而言之,LLM 正在成为跨领域执行类似推理任务的必要计算基础,从编程到创意写作。随着模型不断进步和部署范围扩大,准确了解实际使用动态对于做出明智决策至关重要。人们使用 LLM 的方式并不总是符合预期,并且因国家、州和用例而异。通过大规模观察使用情况,我们可以将我们对 LLM 影响的理解建立在现实基础上,确保后续发展,无论是技术改进、产品功能还是法规,都与实际使用模式和需求保持一致。我们希望这项工作能为更多实证研究奠定基础,并鼓励人工智能社区在我们构建下一代前沿模型时,不断衡量和学习实际使用情况。

局限性

本研究反映了在一个单一平台 OpenRouter 上以及在有限时间窗口内观察到的模式,仅提供了更广泛生态系统的一部分视图。某些维度,例如企业使用、本地托管部署或封闭式内部系统,仍超出我们的数据范围。此外,我们的几项数据分析依赖于代理指标:例如,通过多步或工具调用来识别智能体推理,或者从账单而非经过验证的位置数据推断用户地理位置。因此,结果应解释为指示性行为模式,而非底层现象的决定性测量。

结论

这项研究提供了一个实证视角,展现了大型语言模型正如何融入全球计算基础设施。它们现已成为工作流程、应用程序和智能体系统不可或缺的一部分,正在改变信息的生成、中介和消费方式。

过去的一年,彻底改变了该领域对“推理”的理解。o1 类模型的出现,使扩展审议和工具使用常态化,将评估标准从一次性基准测试转向基于流程的指标、延迟成本权衡,以及在编排下完成任务的成功率。推理已成为衡量模型规划和验证有效性,以提供更可靠结果的能力。

数据显示,LLM 生态系统结构上是多元的。没有单一模型或提供商占据主导地位;相反,用户根据上下文,沿着能力、延迟、价格和信任等多个维度选择系统。这种异构性不是暂时的阶段,而是市场的一个基本属性。它促进了快速迭代,并降低了对任何单一模型或堆栈的系统性依赖。

推理本身也在改变。多步和工具链接交互的兴起,标志着从静态完成向动态编排的转变。用户正在将模型、API 和工具链接起来,以完成复合目标,从而催生了所谓的智能体推理。有许多理由相信,智能体推理将超越人类推理,即使它尚未实现。

地理上,格局正变得更加分散。亚洲的使用份额持续扩大,中国尤其作为模型开发者和出口国崛起,月之暗面、DeepSeek 和通义千问 等参与者的崛起就说明了这一点。非西方开源模型的成功表明,LLM 确实是一种全球性计算资源。

实际上,o1 并没有终结竞争。远非如此。它扩展了设计空间。该领域正从单点押注转向系统性思考,从直觉转向工具化,从排行榜差异转向经验性使用分析。如果过去一年证明了智能体推理可以大规模实现,那么接下来将侧重于卓越运营:衡量实际任务完成度、减少分布变化下的差异,以及使模型行为与生产规模工作负载的实际需求保持一致。

参考文献

  1. R. Appel, J. Zhao, C. Noll, O. K. Cheche, 和W. E. Brown Jr. Anthropic 经济指数报告:地理和企业 AI 采用不均衡。《arXiv 预印本 arXiv:2511.15080》,2025。网址:https://arxiv.org/abs/2511.15080
  2. A. Chatterji, T. Cunningham, D. J. Deming, Z. Hitzig, C. Ong, C. Y. Shan, 和 K. Wadman. 人们如何使用 ChatGPT。《NBER 工作论文 34255》,2025。网址:https://cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf
  3. W. Zhao, X. Ren, J. Hessel, C. Cardie, Y. Choi, 和 Y. Deng. WildChat: 野外 100 万条 ChatGPT 交互日志。《arXiv 预印本 arXiv:2405.01470》,2024。网址:https://arxiv.org/abs/2405.01470
  4. OpenAI. OpenAI o1 系统卡。《arXiv 预印本 arXiv:2412.16720》,2024。网址:https://arxiv.org/abs/2412.16720
  5. W. L. Chiang, L. Zheng, Y. Sheng, A. N. Angelopoulos, T. Li, D. Li, H. Zhang, B. Zhu, M. Jordan, J. Gonzalez, 和 I. Stoica. Chatbot Arena: 一个用于通过人类偏好评估 LLM 的开放平台。《arXiv预印本 arXiv:2403.04132》,2024。网址:https://arxiv.org/abs/2403.04132
  6. J. Wei, X. Wang, D. Schuurmans, M. Bosma, E. H. Chi, F. Xia, Q. Le, 和 D. Zhou. 思维链引导大型语言模型进行推理。《神经信息处理系统进展》,35:24824–24837,2022。网址:https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html
  7. S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, 和 Y. Cao. ReAct: 在语言模型中协同推理和行动。《国际学习表示会议 (ICLR)》,2023。网址:https://arxiv.org/abs/2210.03629
  8. A. Grattafiori, A. Dubey, A. Jauhri, A. Pandey,A. Kadian, A. Al-Dahle, A. Letman, A. Mathur, A. Schelten, A. Yang, A. Fan, 等人. Llama 3 模型家族。《arXiv预印本 arXiv:2407.21783》,2024。网址:https://arxiv.org/abs/2407.21783
  9. DeepSeek-AI, A. Liu, B. Feng, B. Xue, B. Wang, B. Wu, C. Lu,C. Zhao, C. Deng, C. Zhang, 等人. DeepSeek-V3 技术报告。《arXiv 预印本 arXiv:2412.19437》,2024。网址:https://arxiv.org/abs/2412.19437

贡献者

这项工作得益于 OpenRouter 团队创建的基础平台、基础设施、数据集和技术愿景。特别是,Alex Atallah、Chris Clark、Louis Vichy 提供了工程基础和架构指导,使得本研究得以进行。Justin Summerville 在实施、测试和实验改进方面提供了基础性支持。其他贡献者包括 Natwar Maheshwari 提供的发布支持和 Julian Thayn 提供的设计编辑。

Malika Aubakirova(a16z)担任主要作者,负责实验设计、实施、数据分析和论文的全面准备。Anjney Midha 提供了战略指导,并塑造了总体框架和方向。

Abhi Desai 在 a16z 实习期间,为早期的探索性实验和系统设置提供了支持。Rajko Radovanovic 和 Tyler Burkett 在 a16z 全职工作期间,提供了有针对性的技术见解和实践帮助,加强了本工作的几个关键组成部分。

所有贡献者都参与了讨论,提供了反馈,并审阅了最终手稿。

附录

各类别子构成详情

下图详细分解了角色扮演、编程和技术这三个主要领域的内部子标签结构。每个领域都表现出独特的内部模式,揭示了用户在这些类别中如何与 LLM 进行交互。

角色扮演(子标签)。 Token 分成“角色扮演游戏”场景(58%)和其他创意对话(角色聊天、叙事协作写作等)。

编程(子标签)。 通用编码任务占据绝大部分(没有单一特定领域占据主导),Web开发、数据科学等占比较小,表明在编程主题中广泛使用。

技术(子标签)。 主要由“智能助理”和“生产力软件”用例主导(合计约65%),其次是 IT 支持和消费电子产品查询。

这三个领域(角色扮演、技术、编程)都表现出独特的内部模式,反映了用户在每个主要领域内的不同子类别中如何与 LLM进行交互。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐