大厂算力调研：CPU/GPU算力使用及迁移情况

在明年预计支持三四十万亿token需求时，总体需要约二十六七万张卡，其中50%-60%为训练卡，40%-50%为推理卡，包括L20和580系列。在未来，为优化成本及提升效率，将逐步将部分CPU任务迁移至GPU，但整体增加量预计仅为10%-20%，不会出现大规模扩容。而豆包平台作为一个AI对话系统，其日均query量达到4.2亿次，对应DAU约6,000多万，每天消耗5.5万亿至6万亿token，因

leafff123

209人浏览 · 2025-12-03 11:32:29

leafff123 · 2025-12-03 11:32:29 发布

一、抖y主站搜索推荐业务与其他平台（如豆包）的数据处理需求有何差异？

抖音主站搜索推荐业务日均消耗约2万亿至3万亿token，所需显卡数量约为2万至3万张。而豆包平台作为一个AI对话系统，其日均query量达到4.2亿次，对应DAU约6,000多万，每天消耗5.5万亿至6万亿token，因此需要更多硬件资源支持。

在抖y生态中，广告和推荐是否包含在搜索推荐的数据统计范围内？

在抖y整体日均生成数据量（包括搜索与推荐）达到4万多亿至5万亿token，对应所需显卡数量约为34,000至35,000张。这一需求从2024年初的两三千张增长到当前水平，实现了10倍扩展。广告部分既存在于搜索过程中，也嵌入到推荐体系中。

二、其他公司（如阿里、腾讯）在传统搜广推领域对硬件资源的需求如何？是否存在技术架构上的差异？

阿里巴巴旗下淘宝、高德等平台以及百度大搜和腾讯相关业务对GPU需求相较字节跳动稍低。腾讯相关场景的GPU需求甚至略低于百度。而市场上多数公司仍以CPU作为传统搜广推场景中的主要计算资源，仅部分任务迁移到GPU运行。

搜广推领域从CPU迁移到GPU运行是否发生了明显变化？具体时间节点及影响如何？

从2024年开始，搜广推领域逐步向基于模型改造方向发展，这一变局始于2024年3月前后。在此之前，由于底座模型性能有限，大多数任务仍由CPU完成。从2024年至今，结合模型进行任务处理的比例迅速提升，其中搜索请求结合模型的比例增长到全年总量的30%-40%。尤其是推荐算法相关任务对GPU依赖度更高，而传统CPU比例持续下降。

三、推荐算法与广告之间是否可以明确区分其计算资源消耗情况？

推荐算法与广告之间无法完全独立区分计算资源消耗情况，因为广告既嵌入在搜索过程中，也存在于推荐体系中。因此，两者共享同一套计算框架，在整体数据统计中未单独拆分其占比。

在字节跳动的业务中，搜索和推荐功能的用户行为数据是如何被利用的？这些数据在模型训练和标签生成中起到了什么作用？

搜索和推荐功能会通过用户在信息流中的行为数据，例如观看视频的类型、时长以及相关标签，构建内部的搜索标签体系。在推荐过程中，这些历史行为数据会被用来校验推荐结果。离线部分主要用于兴趣标签的生成、浏览时长分析以及领域动作归因等，通过标准化脚本进行处理。这些离线计算通常安排在凌晨12点到早上6点之间，利用算力完成校验和数据分发。

四、抖y主站业务目前对算力资源（如GPU卡）的消耗情况如何？哪些业务模块是主要消耗来源？

抖音主站业务目前对算力资源的消耗主要集中在内容审核、质检、素材生成及广告营销等模块，而非搜索和推荐模块。以广告营销为例，其素材生成部分依赖于齐创平台等AI工具。整体来看，抖音主站使用低端英伟达GPU卡（如30系列、40系列）较多，但其算力需求并未占据集团内部资源的大头。

字j在大模型应用上的进展如何？是否计划从TensorFlow迁移至PyTorch，并全面采用大模型进行优化？

字j目前仍以TensorFlow为基础框架，大模型相关改造正在推进，但进度较慢。与其他厂商相比，字节跳动并未采取激进策略，因为其现有推算法底座效果已较为成熟。在未来改造完成后，用卡需求可能会有所增加，但2026年的预算显示整体增长幅度有限，仅比2025年增加20%-25%。

五、搜索、推荐及广告业务线当前每年的预算规模是多少？

搜索、推荐及广告业务线每年的预算约为110亿至120亿人民币。然而，用于GPU卡采购的预算仅占极小比例，其余资金更多用于其他任务或运营支出。此外，与底座模型相关的大规模token消耗由方舟平台统一支持，不计入具体业务线预算。

六、2025年至2026年间，抖y主站日均token消耗量预计将发生怎样的变化？这种变化对算力需求有何影响？

2025年抖音主站日均token消耗量约为12万亿至13万亿，预计到2026年6月将增长至120万亿至130万亿，即半年内增幅可能达到10倍左右。这一增长主要源于基座模型迭代扩容。对应地，与搜索、推荐及广告相关的token日均消耗量预计从当前4万亿至5万亿增长到40万亿至50万亿，对应用卡规模可能需要扩展到34万张至40万张。

七、当前字j在CPU与GPU上的任务分布情况如何？为何未全面切换到GPU处理？

字j目前至少70%以上任务仍由CPU处理，而非全面切换到GPU。这是因为其基础推算法效果已相对成熟，相比其他厂商无需过于激进地进行架构调整。此外，由于原有系统表现良好，通过新技术优化后的提升空间有限，因此切换速度较慢。

底座模型所需算力资源如何调配？是否由具体业务线单独负责采购？

底座模型所需算力资源由方舟平台统一调配管理，各具体业务线不会单独负责这部分采购。无论是搜索、推荐还是广告模块，只需提出需求，由中台根据整体规划提供支持。因此，这种模式下集团整体算力扩容更多体现在底层资源池，而非单个业务模块独立扩展。

八、明年在搜索推荐业务中，是否有明确规划哪些计算卡池用于支持该业务？是否会出现不同品牌芯混用的情况？

搜索推荐业务的计算资源规划已经明确。预算分为两部分：一部分是抖音主站的标准搜推业务预算，另一部分是基于模型接入所需的token预算。对于标准搜推业务，其资源需求较小，预计每年增长20%-30%。而基于模型接入的token消耗由底层方舟平台统一调度和建设。具体到芯品牌使用上，国内市场可能会更多采用HWJ、昇腾、昆仑等国产芯，而海外市场则以NVIDIA和AMD为主，但不会出现频繁混用不同品牌芯的情况。

九、搜索推荐与广告投放等传统业务之间如何区分其计算资源消耗？是否存在重叠？

搜索推荐与广告投放等传统业务在计算资源消耗上存在一定区分。三四万亿token包含了传统搜广推以及调用云服务模型组件进行改造优化的部分。这些云服务模型组件属于内部结算范畴，与具体业务线无直接关联。此外，素材制作和广告投流等任务不属于传统搜广推框架，而是独立模块。

当前支持抖y搜索推荐的一万多张GPU卡承载了哪些具体任务？未来是否有计划将更多CPU任务迁移至GPU？

当前支持抖y搜索推荐的一万多张GPU卡主要用于处理每日约9亿DAU中的两到三亿搜索请求，以及绝大多数推荐请求。这些任务以DAU作为计算单元，而非以token折算。在未来，为优化成本及提升效率，将逐步将部分CPU任务迁移至GPU，但整体增加量预计仅为10%-20%，不会出现大规模扩容。

十、方舟平台内部如何划分专门用于搜广推的计算池？这些池子中主要使用哪些型号？

方舟平台整体容量每天承载约40多万亿token消耗，其中一两万张GPU卡专门用于支持抖音主站搜索推荐。这些卡主要包括NVIDIA L20系列以及少量590型号。在明年预计支持三四十万亿token需求时，总体需要约二十六七万张卡，其中50%-60%为训练卡，40%-50%为推理卡，包括L20和580系列。

十一、搜广推算法是否需要针对特定芯进行适配？目前适配工作进展如何？

确实需要针对特定芯进行算子适配，以确保推广算法能够高效运行。目前已针对NVIDIA芯完成长期算子适配工作，为后续统一调度提供技术保障。

目前在国产的适配和使用上，HWJ和昇t的进展如何？在具体应用场景中，这些国产芯主要承担哪些任务？

HWJ的适配工作从2025年上半年开始逐步推进，而昇t的相关工作则从2024年下半年就已展开，但其实际使用效果不尽如人意。总体来看，标准化的搜索推荐任务仍然更适合采用NVIDIA显卡进行处理，而国产更多用于模型推理中的文本、图像理解以及音频模型交互等场景。这些任务对算力有一定需求，但并非核心计算负载。

十二、明年在搜推广领域，HWJ是否将成为除NVIDIA外的重要算力供应方？是否有必要继续引入其他供应商如昇腾？

在搜推广领域，HWJ将逐步成为除NVIDIA外的重要算力供应方。然而，为了应对潜在的供应链风险，仍需保留多家供应商作为战略备货，即便当前HWJ表现较好，也不能完全依赖单一供应商。此外，引入其他厂商如昇t虽然性能和性价比不及HWJ，但其作为二供或三供具有战略意义。

L20与590相比，在价格与性能上的差异如何？对于搜索推荐场景而言，这两种显卡各自的优势是什么？

L20单卡价格约为1.7万人民币，而590价格约为L20的三倍。从性价比角度看，两者均不及5090更具优势。在搜索推荐场景中，由于任务负载相对较轻，对算力密度要求较低，因此L20或5090即可满足需求。而590则更多用于涉及图像理解等需要更高算力密度的后续排序任务。

十三、国产（如HWJ）在不同应用场景中的适配情况如何，例如prefill、decode等环节是否有明确分工？未来是否会根据需求调整硬件配置策略？

国产在prefill环节表现较好，因为该环节对互联通信要求相对较低。而decode环节由于需要高带宽、高内存带宽以及HBM支持，目前仍以NVIDIA为主。不过未来随着国产技术升级，例如昆仑计划推出支持HBM3E规格的新产品，有望逐步增加其在decode环节中的占比。此外，不同项目根据需求选择硬件配置，例如视频识别可能偏向高带宽设计，而prefill则倾向于大算力设计。

十四、搜索推荐系统中的算子适配工作由谁负责，是由方舟平台统一完成还是由具体业务团队直接对接芯厂商？

算子适配工作的责任划分取决于具体使用场景。如果是调用模型底座接口，则无需额外关注算子问题，由方舟平台统一处理。但如果是运行原始搜索任务，则需要业务团队直接与相关厂商合作完成算子优化与适配。例如，对于豆包或视频模型这类基座模型API调用，由方舟负责；而对于搜索推荐这种独立任务，则由各自团队自行完成优化并部署到云端。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐