大厂算力调研:CPU/GPU算力使用及迁移情况
在明年预计支持三四十万亿token需求时,总体需要约二十六七万张卡,其中50%-60%为训练卡,40%-50%为推理卡,包括L20和580系列。在未来,为优化成本及提升效率,将逐步将部分CPU任务迁移至GPU,但整体增加量预计仅为10%-20%,不会出现大规模扩容。而豆包平台作为一个AI对话系统,其日均query量达到4.2亿次,对应DAU约6,000多万,每天消耗5.5万亿至6万亿token,因

一、抖y主站搜索推荐业务与其他平台(如豆包)的数据处理需求有何差异?
抖音主站搜索推荐业务日均消耗约2万亿至3万亿token,所需显卡数量约为2万至3万张。而豆包平台作为一个AI对话系统,其日均query量达到4.2亿次,对应DAU约6,000多万,每天消耗5.5万亿至6万亿token,因此需要更多硬件资源支持。
在抖y生态中,广告和推荐是否包含在搜索推荐的数据统计范围内?
在抖y整体日均生成数据量(包括搜索与推荐)达到4万多亿至5万亿token,对应所需显卡数量约为34,000至35,000张。这一需求从2024年初的两三千张增长到当前水平,实现了10倍扩展。广告部分既存在于搜索过程中,也嵌入到推荐体系中。
二、其他公司(如阿里、腾讯)在传统搜广推领域对硬件资源的需求如何?是否存在技术架构上的差异?
阿里巴巴旗下淘宝、高德等平台以及百度大搜和腾讯相关业务对GPU需求相较字节跳动稍低。腾讯相关场景的GPU需求甚至略低于百度。而市场上多数公司仍以CPU作为传统搜广推场景中的主要计算资源,仅部分任务迁移到GPU运行。
搜广推领域从CPU迁移到GPU运行是否发生了明显变化?具体时间节点及影响如何?
从2024年开始,搜广推领域逐步向基于模型改造方向发展,这一变局始于2024年3月前后。在此之前,由于底座模型性能有限,大多数任务仍由CPU完成。从2024年至今,结合模型进行任务处理的比例迅速提升,其中搜索请求结合模型的比例增长到全年总量的30%-40%。尤其是推荐算法相关任务对GPU依赖度更高,而传统CPU比例持续下降。
三、推荐算法与广告之间是否可以明确区分其计算资源消耗情况?
推荐算法与广告之间无法完全独立区分计算资源消耗情况,因为广告既嵌入在搜索过程中,也存在于推荐体系中。因此,两者共享同一套计算框架,在整体数据统计中未单独拆分其占比。
在字节跳动的业务中,搜索和推荐功能的用户行为数据是如何被利用的?这些数据在模型训练和标签生成中起到了什么作用?
搜索和推荐功能会通过用户在信息流中的行为数据,例如观看视频的类型、时长以及相关标签,构建内部的搜索标签体系。在推荐过程中,这些历史行为数据会被用来校验推荐结果。离线部分主要用于兴趣标签的生成、浏览时长分析以及领域动作归因等,通过标准化脚本进行处理。这些离线计算通常安排在凌晨12点到早上6点之间,利用算力完成校验和数据分发。
四、抖y主站业务目前对算力资源(如GPU卡)的消耗情况如何?哪些业务模块是主要消耗来源?
抖音主站业务目前对算力资源的消耗主要集中在内容审核、质检、素材生成及广告营销等模块,而非搜索和推荐模块。以广告营销为例,其素材生成部分依赖于齐创平台等AI工具。整体来看,抖音主站使用低端英伟达GPU卡(如30系列、40系列)较多,但其算力需求并未占据集团内部资源的大头。
字j在大模型应用上的进展如何?是否计划从TensorFlow迁移至PyTorch,并全面采用大模型进行优化?
字j目前仍以TensorFlow为基础框架,大模型相关改造正在推进,但进度较慢。与其他厂商相比,字节跳动并未采取激进策略,因为其现有推算法底座效果已较为成熟。在未来改造完成后,用卡需求可能会有所增加,但2026年的预算显示整体增长幅度有限,仅比2025年增加20%-25%。
五、搜索、推荐及广告业务线当前每年的预算规模是多少?
搜索、推荐及广告业务线每年的预算约为110亿至120亿人民币。然而,用于GPU卡采购的预算仅占极小比例,其余资金更多用于其他任务或运营支出。此外,与底座模型相关的大规模token消耗由方舟平台统一支持,不计入具体业务线预算。
六、2025年至2026年间,抖y主站日均token消耗量预计将发生怎样的变化?这种变化对算力需求有何影响?
2025年抖音主站日均token消耗量约为12万亿至13万亿,预计到2026年6月将增长至120万亿至130万亿,即半年内增幅可能达到10倍左右。这一增长主要源于基座模型迭代扩容。对应地,与搜索、推荐及广告相关的token日均消耗量预计从当前4万亿至5万亿增长到40万亿至50万亿,对应用卡规模可能需要扩展到34万张至40万张。
七、当前字j在CPU与GPU上的任务分布情况如何?为何未全面切换到GPU处理?
字j目前至少70%以上任务仍由CPU处理,而非全面切换到GPU。这是因为其基础推算法效果已相对成熟,相比其他厂商无需过于激进地进行架构调整。此外,由于原有系统表现良好,通过新技术优化后的提升空间有限,因此切换速度较慢。
底座模型所需算力资源如何调配?是否由具体业务线单独负责采购?
底座模型所需算力资源由方舟平台统一调配管理,各具体业务线不会单独负责这部分采购。无论是搜索、推荐还是广告模块,只需提出需求,由中台根据整体规划提供支持。因此,这种模式下集团整体算力扩容更多体现在底层资源池,而非单个业务模块独立扩展。
八、明年在搜索推荐业务中,是否有明确规划哪些计算卡池用于支持该业务?是否会出现不同品牌芯混用的情况?
搜索推荐业务的计算资源规划已经明确。预算分为两部分:一部分是抖音主站的标准搜推业务预算,另一部分是基于模型接入所需的token预算。对于标准搜推业务,其资源需求较小,预计每年增长20%-30%。而基于模型接入的token消耗由底层方舟平台统一调度和建设。具体到芯品牌使用上,国内市场可能会更多采用HWJ、昇腾、昆仑等国产芯,而海外市场则以NVIDIA和AMD为主,但不会出现频繁混用不同品牌芯的情况。
九、搜索推荐与广告投放等传统业务之间如何区分其计算资源消耗?是否存在重叠?
搜索推荐与广告投放等传统业务在计算资源消耗上存在一定区分。三四万亿token包含了传统搜广推以及调用云服务模型组件进行改造优化的部分。这些云服务模型组件属于内部结算范畴,与具体业务线无直接关联。此外,素材制作和广告投流等任务不属于传统搜广推框架,而是独立模块。
当前支持抖y搜索推荐的一万多张GPU卡承载了哪些具体任务?未来是否有计划将更多CPU任务迁移至GPU?
当前支持抖y搜索推荐的一万多张GPU卡主要用于处理每日约9亿DAU中的两到三亿搜索请求,以及绝大多数推荐请求。这些任务以DAU作为计算单元,而非以token折算。在未来,为优化成本及提升效率,将逐步将部分CPU任务迁移至GPU,但整体增加量预计仅为10%-20%,不会出现大规模扩容。
十、方舟平台内部如何划分专门用于搜广推的计算池?这些池子中主要使用哪些型号?
方舟平台整体容量每天承载约40多万亿token消耗,其中一两万张GPU卡专门用于支持抖音主站搜索推荐。这些卡主要包括NVIDIA L20系列以及少量590型号。在明年预计支持三四十万亿token需求时,总体需要约二十六七万张卡,其中50%-60%为训练卡,40%-50%为推理卡,包括L20和580系列。
十一、搜广推算法是否需要针对特定芯进行适配?目前适配工作进展如何?
确实需要针对特定芯进行算子适配,以确保推广算法能够高效运行。目前已针对NVIDIA芯完成长期算子适配工作,为后续统一调度提供技术保障。
目前在国产的适配和使用上,HWJ和昇t的进展如何?在具体应用场景中,这些国产芯主要承担哪些任务?
HWJ的适配工作从2025年上半年开始逐步推进,而昇t的相关工作则从2024年下半年就已展开,但其实际使用效果不尽如人意。总体来看,标准化的搜索推荐任务仍然更适合采用NVIDIA显卡进行处理,而国产更多用于模型推理中的文本、图像理解以及音频模型交互等场景。这些任务对算力有一定需求,但并非核心计算负载。
十二、明年在搜推广领域,HWJ是否将成为除NVIDIA外的重要算力供应方?是否有必要继续引入其他供应商如昇腾?
在搜推广领域,HWJ将逐步成为除NVIDIA外的重要算力供应方。然而,为了应对潜在的供应链风险,仍需保留多家供应商作为战略备货,即便当前HWJ表现较好,也不能完全依赖单一供应商。此外,引入其他厂商如昇t虽然性能和性价比不及HWJ,但其作为二供或三供具有战略意义。
L20与590相比,在价格与性能上的差异如何?对于搜索推荐场景而言,这两种显卡各自的优势是什么?
L20单卡价格约为1.7万人民币,而590价格约为L20的三倍。从性价比角度看,两者均不及5090更具优势。在搜索推荐场景中,由于任务负载相对较轻,对算力密度要求较低,因此L20或5090即可满足需求。而590则更多用于涉及图像理解等需要更高算力密度的后续排序任务。
十三、国产(如HWJ)在不同应用场景中的适配情况如何,例如prefill、decode等环节是否有明确分工?未来是否会根据需求调整硬件配置策略?
国产在prefill环节表现较好,因为该环节对互联通信要求相对较低。而decode环节由于需要高带宽、高内存带宽以及HBM支持,目前仍以NVIDIA为主。不过未来随着国产技术升级,例如昆仑计划推出支持HBM3E规格的新产品,有望逐步增加其在decode环节中的占比。此外,不同项目根据需求选择硬件配置,例如视频识别可能偏向高带宽设计,而prefill则倾向于大算力设计。
十四、搜索推荐系统中的算子适配工作由谁负责,是由方舟平台统一完成还是由具体业务团队直接对接芯厂商?
算子适配工作的责任划分取决于具体使用场景。如果是调用模型底座接口,则无需额外关注算子问题,由方舟平台统一处理。但如果是运行原始搜索任务,则需要业务团队直接与相关厂商合作完成算子优化与适配。例如,对于豆包或视频模型这类基座模型API调用,由方舟负责;而对于搜索推荐这种独立任务,则由各自团队自行完成优化并部署到云端。
更多推荐



所有评论(0)