论文题目: OneRec Technical Report
论文地址: https://arxiv.org/pdf/2506.13695
论文发表于: arXiv 2025年7月
论文所属单位: Kuaishou

论文大体内容
本文介绍了快手团队提出的新一代推荐系统OneRec,旨在解决传统多阶段级联推荐架构存在的计算碎片化、优化目标冲突及与AI前沿技术脱节等问题。

Motivation
推荐系统框架是级联式的多层框架,该非End2End的框架存在碎片化和优化不一致的问题。因此本文对推荐系统的范式做优化,使用End2End的生成式推荐来重塑推荐系统。

Contribution
本文提出了End2End的推荐系统新框架,革新了当前的范式,并且在离线和在线都取得了很好的效果。
①架构革新:End2End解决推荐问题。
②效率提升:提升资源利用率和降低成本。
③效果提升:在快手离在线场景取得收益。


1. 非End2End式的推荐系统框架存在以下问题:
①碎片化计算:资源用在了非计算上,包括通信和存储。
②优化目标冲突:多个目标之间的冲突,以及每个阶段的目标不一致。
③框架落后:并没有跟上最近LLM的风靡趋势。

2. 本文提出了新的End2End推荐系统框架OneRec,提升了资源利用率和降低了成本,并且发现Scaling law在此生效,RL也展现出较大的潜力。

3. 分词器
分词器的作用是将item id转换为token,具体方案是使用了RQ-Kmeans算法,将item id做了3层的层次聚类,每一层的物理含义类似于item的类目。


①其中利用的信号包括item的多模态信息:字幕、标签、语音转的文本、图像转的文本、封面图像、5个均匀采样的帧。
②数据集构建:item pair,当前正样本与最近一个历史正样本、i2i中的2个item。
③Loss:包含2个:
-Item-to-Item Loss:对比损失函数。
-Caption Loss:使用LLaMA3进行下一个词的预测。


④3层的层次聚类效果如下

4. Encoder
整体框架如下:


特征工程:序列的构建
①用户静态路径:包含用户的静态属性信息。


②短期路径:近20条用户的曝光记录。


③正反馈路径:近256条互动行为记录。


④终身路径:对原始的2000的视频序列,进行2层分层压缩,每层压缩到128的长度,方法是通过聚类,sparse特征直接使用聚类中心点的id,dense特征使用整个类的平均值。

5. Decoder
采用point-wise输出token,整体框架类似于Transfomer的Decoder,里面融合了MoE以及Top-K路由,Loss是基于语义ID的Next Token Prediction。

6. RL
传统的推荐系统,模型都是根据已经曝光的分布来进行训练和预测的,这样导致模型容易越推越密集,自己给自己设置了上限且无法突破。本文在Reward的模块引入了对齐机制:
①用户偏好对齐:使用了快手的Pantheon迭代帕累托优化[3](P-score),本质是进行强化学习式的LTR。


②生成格式对齐:使用token是否能映射出item id来作为合法的判断。
③工业场景对齐:对于特定的业务要求,调整RL的reward来控制,比如给P-score加一个权重。

7. 训练框架:使用90台服务器,每台8张GPU卡和2个CPU,训练时也做了一些训练加速,如混合精度等。


①Pre-training:每天处理180亿样本(540亿token),约使用1000亿样本后收敛。


②Post-training:包括拒绝采样(RSFT,Reject Sampling Fine-Tuning)和强化学习(RL,Reinforcement Learning)。

8. 实验
①特征的作用:增加非ID类特征能提升效果。


②每层token的Codebook大小:提升Codebook大小能提升效果。


③token使用item id与3层的聚类id的对比:聚类id效果更优。


④RL的收益


⑤格式对齐


⑥线上AB效果

9. 下一步
①推理能力还不足够。
②多模态特征的整合与利用。
③奖励模型的优化。

10. 本文完整的介绍了快手在生成式推荐里面的做法,以及从多方面的消息来看,快手会往这个方向持续投入。这个方向我觉得是可以提升整体推荐效果天花板的,但是当前仍然会存在较多问题,End2End是工程师理想化的追求,但是推荐系统往往会面临多方面的业务压力,因此需要同时考虑对策略的兼容度。从目前看来,这个方向的预计收益是5%以内,对人力和资源的投入是比较大的,未来还需要有更大的突破才能使这个框架更被大家所接受。
 

参考资料
[1] OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment https://arxiv.org/pdf/2502.18965
[2] https://zhuanlan.zhihu.com/p/1918350919508140128
[3] 快手Pantheon迭代帕累托优化 https://zhuanlan.zhihu.com/p/1926232598402794711
[4] https://mp.weixin.qq.com/s/997BaS-L7gXt1_5YLrOXHg

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐