State of AI: An Empirical 100 Trillion Token Study with OpenRouter

文章摘要

过去一年,大语言模型(LLM)领域迎来重大转折,从单步生成转向多步推理,o1模型的发布加速了部署与应用。本文基于OpenRouter平台的100万亿Token真实交互数据,进行实证分析,揭示开源模型的广泛采用、角色扮演与编程辅助的流行、代理推理的兴起,以及用户保留率的“灰姑娘效应”。研究强调开发者与终端用户的使用模式复杂多面,为模型构建者、AI开发者及基础设施提供者提供数据驱动洞见,推动LLM系统的优化设计。

原文pdf:https://t.zsxq.com/G8zg5


引言:LLM使用实践的实证洞察

在2024年12月5日,首个广受欢迎的推理模型o1发布,标志着大语言模型(LLM)从单次模式生成转向多步审议推理。这一转变迅猛推进了部署、实验和新应用类别的开发。然而,尽管LLM能力进步广为人知,但关于这些模型在实际中的使用方式,系统性证据仍显不足。 现有研究多聚焦于定性演示或基准性能,而非大规模行为数据。

为弥合这一空白,本文利用OpenRouter平台——一个跨多种LLM的AI推理提供商——分析超过100万亿Token的真实世界交互数据,覆盖任务、地理区域和时间维度。 OpenRouter作为多模型AI推理平台,连接用户与数百种LLM,为我们提供了独特视角,捕捉开发者与终端用户在各种任务中调用模型的细粒度模式。 通过这一数据集,我们观察到开源模型的显著采用、创意角色扮演(超出预期生产力任务)和编程辅助类别的超高流行,以及代理推理的兴起。 此外,用户保留率分析揭示了基础队列现象:早期用户参与度远高于后续队列,我们称之为“灰姑娘‘玻璃鞋’效应”。

这些发现突显了开发者与终端用户在“野外”环境中与LLM互动的复杂性和多面性。 本文旨在为模型构建者、AI开发者及基础设施提供者讨论启示,并概述数据驱动的使用理解如何指导LLM系统的更好设计与部署。 受Anthropic经济影响分析[1]和OpenAI的ChatGPT使用报告[2]启发,我们力求中立、证据导向的讨论。

LLM使用实践的空白与必要性

近年来,LLM能力进步已被广泛记录,但关于实际使用方式的系统证据有限。 现有文献倾向于强调定性演示或基准性能,而非大规模行为数据。 OpenRouter的独特位置桥接了这一差距:作为统一AI推理层,它协调请求跨越闭源API和开源部署,代表开发者与终端用户调用LLM的横截面。 通过分析这一丰富数据集,我们能观察模型选择与任务匹配、地理与时间变异,以及定价或新模型发布等外部因素对行为的影响。

本文首先描述数据集与方法,包括任务分类与模型分类。随后深入分析使用诸方面:

  • 开源 vs. 闭源模型

    :考察开源模型相对专有模型的采用模式,识别开源生态的关键玩家。

  • 代理推理

    :调查多步、工具辅助推理模式的兴起,捕捉用户将模型作为更大自动化系统组件而非单轮互动的趋势。

  • 类别分类

    :按任务类别分解使用(如编程、角色扮演、翻译等),揭示驱动最多活动的应用领域及按模型提供者的分布差异。

  • 地理分布

    :分析全球使用模式,比较大陆间LLM采用率,突出区域因素与本地模型供给对需求的影响。

  • 有效成本 vs. 使用动态

    :评估使用与有效成本对应,捕捉LLM采用的经济敏感性。该指标基于平均输入+输出Token,考虑缓存效应。

  • 保留模式

    :分析最广泛使用模型的长期保留,识别定义持久“粘性”行为的基础队列。我们定义为“灰姑娘‘玻璃鞋’效应”,早期用户需求与模型特性对齐,创造持久契合,维持长期参与。

最终,我们讨论这些发现对真实世界LLM使用的揭示,突出意外模式并纠正某些神话。


数据与方法论:OpenRouter平台的实证基础

OpenRouter平台与数据集概述

本分析基于OpenRouter平台的元数据,该平台是一个统一AI推理层,连接用户与开发者至数百种大语言模型。 每个用户请求针对用户选择的模型执行,并记录描述“生成”事件的结构化元数据。

本研究数据集包括全球用户基数的数十亿提示-完成对的匿名请求级元数据,跨越约两年时间,直至撰写时。我们特别聚焦最近一年。 关键的是,我们未访问底层提示或完成文本。分析完全依赖捕捉每个生成结构、时机与上下文的元数据,而不暴露用户隐私。

OpenRouter处理海量查询量,确保即使仅采样部分,也具有统计显著性。

任务分类:基于分类器的元数据标签

本研究无直接访问用户提示或模型输出。 相反,OpenRouter对约0.25%的随机提示与响应样本进行内部分类,使用非专有模块GoogleTagClassifier。 尽管仅占总活动的 fraction,但鉴于OpenRouter整体查询量,该数据集仍庞大。 GoogleTagClassifier接口Google Cloud Natural Language的classifyText内容分类API。 该API对文本输入应用分层、语言无关分类法,返回一个或多个类别路径(如/Computers & Electronics/Programming、/Arts & Entertainment/Roleplaying Games)及其置信分数([0,1]范围)。分类器直接作用于提示数据(前1000字符)。 分类部署在OpenRouter基础设施内,确保匿名且不链接至个别客户。置信分数低于默认阈值0.5的类别排除进一步分析。 分类系统本身不在本研究范围内;我们仅依赖结果类别输出(有效为描述提示分类的元数据),而非底层提示内容。

为使这些细粒度标签在大规模有用,我们将GoogleTagClassifier分类法映射至研究定义的紧凑桶,并为每个请求分配标签。每个标签一比一汇总至高层类别。代表性映射包括:

  • 编程

    :源自/Computers & Electronics/Programming 或 /Science/Computer Science/*

  • 角色扮演

    :源自/Games/Roleplaying Games 及/Arts & Entertainment/*下的创意对话叶子

  • 翻译

    :源自/Reference/Language Resources/*

  • 通用问答/知识

    :源自/Reference/General Reference/* 及/News/*,当意图为事实查找时

  • 生产力/写作

    :源自/Computers & Electronics/Software/Business & Productivity Software 或 /Business & Industrial/Business Services/Writing & Editing Services

  • 教育

    :源自/Jobs & Education/Education/*

  • 文学/创意写作

    :源自/Books & Literature/* 及/Arts & Entertainment/*下的叙事叶子

  • 成人

    :源自/Adult

  • 其他

    :长尾提示,当无主导映射适用。(注:以下多数分析省略此类别。)

此方法有固有局限,如依赖预定义分类法限制新型或跨域行为分类,某些互动类型可能尚未整齐拟合现有类。 实践中,一些提示在内容跨越重叠域时接收多个类别标签。尽管如此,分类器驱动分类为下游分析提供镜头(第5节)。 这使我们不仅量化LLM使用量,还量化其用途。

模型与Token变体

值得明确指出几类变体:

  • 开源 vs. 专有

    :若模型权重公开可用,则标记为开源(OSS);若仅通过受限API访问(如Anthropic的Claude),则为闭源。 此区分测量社区驱动模型 vs. 专有模型的采用。

  • 起源(中国 vs. 世界其他地区)

    :鉴于中国LLM兴起及其独特生态,我们按主要开发地标签模型。中国模型包括中国、台湾或香港组织开发(如Alibaba的Qwen、Moonshot AI的Kimi、DeepSeek)。RoW(Rest-of-World)覆盖北美、欧洲及其他地区。

  • 提示 vs. 完成Token

    :区分提示Token(输入文本)和完成Token(模型生成输出)。总Token等于提示+完成Token。推理Token代表具有原生推理能力的模型内部推理步骤,包含在完成Token内。

这些分类确保分析捕捉模型生态的细微动态。


开源模型的采用与类别分布:使用模式的多样性

开源 vs. 闭源模型的采用趋势

开源模型在LLM生态中获得实质采用。 OpenRouter数据揭示开源权重模型的流行,尤其在成本敏感和自定义需求高的场景。 关键开源玩家包括Meta的Llama系列、Mistral AI的模型,以及中国开发的如Qwen和DeepSeek,这些模型在全球范围内竞争闭源巨头如OpenAI的GPT系列和Anthropic的Claude。

在中国开源模型中,角色扮演使用案例主导Token量。 到2025年末,流量大致均匀分为中国与非中国开源模型。 这反映了开源模型在创意和本地化应用中的优势。

任务类别分类:超出生产力假设的流行领域

使用按任务类别分解,揭示编程、角色扮演、翻译等驱动最多活动的领域。 角色扮演超出许多人假设的生产力任务主导,成为最大类别,尤其在开源模型中。 这包括虚构人物和故事任务,吸引“爱好者”或“独立开发者”,强调自定义和成本效率胜过绝对准确。

编程辅助位居第二,且在增长,随着开源模型在代码能力上提升。 许多开发者本地利用OSS模型编码,避免API成本。 翻译和多语言支持是稳定使用案例,尤其双语模型强劲(如中国OSS模型优势)。 通用知识问答和教育使用中等;用户可能偏好闭源模型如GPT-5求最高事实准确。

开源使用模式(角色扮演为主)镜像“爱好者”或“独立开发者”——自定义与成本效率优先。 然而,界限模糊:OSS在技术域快速改进,专有模型也被创意使用。

生产力/写作和教育类别反映企业与学术应用。 例如,写作服务下LLM辅助报告生成,教育中支持学习查询。 成人内容作为独立类别,表明娱乐多样性。 整体,这些分布差异化按模型:开源偏创意与技术,闭源偏精确知识任务。

代理推理的兴起:从单轮到多步工作流

LLM使用基础转变从单轮文本完成向多步、工具集成和推理密集工作流。 我们称此为代理推理兴起,模型不仅生成文本,还通过规划、调用工具或扩展上下文行动。

这一转变通过五代理追踪:推理模型兴起、工具调用行为扩展、序列长度剖面变化,以及编程使用驱动复杂性。 推理模型如o1引入多步审议,提升复杂任务处理。 工具调用允许LLM集成外部API,如数据库查询或代码执行,形成代理系统。

编程使用驱动复杂性:开发者构建多步管道,利用LLM生成、调试和优化代码。 序列长度增加反映扩展上下文需求,支持长链推理。

这一兴起使LLM成为跨域推理任务的计算基底,从编程到创意写作。 随着模型进步和部署扩展,准确使用洞察对决策至关重要。


地理分布与经济动态:全球视角

全球使用模式

LLM采用因国家和地区而异。 北美和欧洲主导RoW使用,中国在亚洲主导,尤其开源模型本地化。 区域因素如语言支持和定价影响需求:中国模型在亚洲翻译和角色扮演中强势。

州级变异显示城市中心如硅谷和北京更高采用率,受开发者密度影响。

有效成本与使用动态

使用与有效成本对应揭示经济敏感性。 基于平均输入+输出Token,考虑缓存,显示开源模型低成本驱动高量使用,尤其角色扮演。 闭源模型在高价值任务中,尽管成本更高,仍见采用。

缓存效应降低重复查询成本,促进持续互动。


保留模式:灰姑娘“玻璃鞋”效应

最广泛模型的长期保留分析识别基础队列:早期用户参与持久高于后续。 “灰姑娘‘玻璃鞋’效应”描述早期需求-模型特性对齐创造持久契合。

早期o1用户显示更高粘性,因推理能力匹配复杂任务。 这为模型发布策略提供启示:初始用户体验定义长期采用。


讨论:真实世界LLM使用的启示

使用方式不总符合预期,按国家、州、使用案例变异。 角色扮演流行纠正生产力主导神话,代理推理突出自动化趋势。

对模型构建者:聚焦开源竞争力与推理能力。 对AI开发者:设计支持代理工作流。 对基础设施:优化全球扩展与成本。

规模观察使用 grounding LLM影响现实,确保技术改进、产品特性或法规对齐实际模式与需求。 本工作为基础更多实证研究,鼓励AI社区持续从真实世界使用测量与学习,构建下一代前沿模型。

扩展分析:LLM在专业领域的应用潜力

对于企事业单位与科研院所专家,LLM使用数据揭示投资机会。 开源模型低成本使中小企业接入AI基础设施。 代理推理支持自动化研究管道,如数据分析与假设生成。

在投资视角,中国LLM生态增长暗示区域机会,全球保留效应强调早期市场进入价值。

编程与教育类别的增长支持教育科技与软件开发投资。 角色扮演扩展至模拟训练,如医疗或法律场景。

经济动态显示成本优化关键:基础设施提供者可开发缓存增强服务。

地理变异建议本地化策略:欧洲隐私法规推动开源采用,亚洲多语言需求青睐中国模型。

挑战与未来方向

分类局限提醒需更动态标签系统捕捉新兴行为。 隐私约束(无提示访问)虽必要,但限制深度洞察;未来联邦学习可增强。

代理推理兴起呼吁标准化工具接口,促进生态互操作。

“玻璃鞋”效应暗示用户分段:针对早期采用者定制模型变体。

总体,100万亿Token数据证明LLM已嵌入专业工作流,从研究到企业决策。 持续实证将指导可持续AI发展。


​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐