#Paper Reading# OneRec

论文大体内容本文介绍了快手团队提出的新一代推荐系统OneRec，旨在解决传统多阶段级联推荐架构存在的计算碎片化、优化目标冲突及与AI前沿技术脱节等问题。Motivation推荐系统框架是级联式的多层框架，该非End2End的框架存在碎片化和优化不一致的问题。因此本文对推荐系统的范式做优化，使用End2End的生成式推荐来重塑推荐系统。Contribution本文提出了End2End的推荐系统新框架

John159151

1189人浏览 · 2025-08-11 17:54:13

John159151 · 2025-08-11 17:54:13 发布

论文题目: OneRec Technical Report
论文地址: https://arxiv.org/pdf/2506.13695
论文发表于: arXiv 2025年7月
论文所属单位: Kuaishou

论文大体内容
本文介绍了快手团队提出的新一代推荐系统OneRec，旨在解决传统多阶段级联推荐架构存在的计算碎片化、优化目标冲突及与AI前沿技术脱节等问题。

Motivation
推荐系统框架是级联式的多层框架，该非End2End的框架存在碎片化和优化不一致的问题。因此本文对推荐系统的范式做优化，使用End2End的生成式推荐来重塑推荐系统。

Contribution
本文提出了End2End的推荐系统新框架，革新了当前的范式，并且在离线和在线都取得了很好的效果。
①架构革新：End2End解决推荐问题。
②效率提升：提升资源利用率和降低成本。
③效果提升：在快手离在线场景取得收益。

1. 非End2End式的推荐系统框架存在以下问题：
①碎片化计算：资源用在了非计算上，包括通信和存储。
②优化目标冲突：多个目标之间的冲突，以及每个阶段的目标不一致。
③框架落后：并没有跟上最近LLM的风靡趋势。

2. 本文提出了新的End2End推荐系统框架OneRec，提升了资源利用率和降低了成本，并且发现Scaling law在此生效，RL也展现出较大的潜力。

3. 分词器
分词器的作用是将item id转换为token，具体方案是使用了RQ-Kmeans算法，将item id做了3层的层次聚类，每一层的物理含义类似于item的类目。

①其中利用的信号包括item的多模态信息：字幕、标签、语音转的文本、图像转的文本、封面图像、5个均匀采样的帧。
②数据集构建：item pair，当前正样本与最近一个历史正样本、i2i中的2个item。
③Loss：包含2个：
-Item-to-Item Loss：对比损失函数。
-Caption Loss：使用LLaMA3进行下一个词的预测。

④3层的层次聚类效果如下

4. Encoder
整体框架如下：

特征工程：序列的构建
①用户静态路径：包含用户的静态属性信息。

②短期路径：近20条用户的曝光记录。

③正反馈路径：近256条互动行为记录。

④终身路径：对原始的2000的视频序列，进行2层分层压缩，每层压缩到128的长度，方法是通过聚类，sparse特征直接使用聚类中心点的id，dense特征使用整个类的平均值。

5. Decoder
采用point-wise输出token，整体框架类似于Transfomer的Decoder，里面融合了MoE以及Top-K路由，Loss是基于语义ID的Next Token Prediction。

6. RL
传统的推荐系统，模型都是根据已经曝光的分布来进行训练和预测的，这样导致模型容易越推越密集，自己给自己设置了上限且无法突破。本文在Reward的模块引入了对齐机制：
①用户偏好对齐：使用了快手的Pantheon迭代帕累托优化[3]（P-score），本质是进行强化学习式的LTR。

②生成格式对齐：使用token是否能映射出item id来作为合法的判断。
③工业场景对齐：对于特定的业务要求，调整RL的reward来控制，比如给P-score加一个权重。

7. 训练框架：使用90台服务器，每台8张GPU卡和2个CPU，训练时也做了一些训练加速，如混合精度等。

①Pre-training：每天处理180亿样本（540亿token），约使用1000亿样本后收敛。

②Post-training：包括拒绝采样（RSFT，Reject Sampling Fine-Tuning）和强化学习（RL，Reinforcement Learning）。

8. 实验
①特征的作用：增加非ID类特征能提升效果。

②每层token的Codebook大小：提升Codebook大小能提升效果。

③token使用item id与3层的聚类id的对比：聚类id效果更优。

④RL的收益

⑤格式对齐

⑥线上AB效果

9. 下一步
①推理能力还不足够。
②多模态特征的整合与利用。
③奖励模型的优化。

10. 本文完整的介绍了快手在生成式推荐里面的做法，以及从多方面的消息来看，快手会往这个方向持续投入。这个方向我觉得是可以提升整体推荐效果天花板的，但是当前仍然会存在较多问题，End2End是工程师理想化的追求，但是推荐系统往往会面临多方面的业务压力，因此需要同时考虑对策略的兼容度。从目前看来，这个方向的预计收益是5%以内，对人力和资源的投入是比较大的，未来还需要有更大的突破才能使这个框架更被大家所接受。

参考资料
[1] OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment https://arxiv.org/pdf/2502.18965
[2] https://zhuanlan.zhihu.com/p/1918350919508140128
[3] 快手Pantheon迭代帕累托优化 https://zhuanlan.zhihu.com/p/1926232598402794711
[4] https://mp.weixin.qq.com/s/997BaS-L7gXt1_5YLrOXHg

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【神经风格迁移：性能】22、实时视频风格迁移全栈实战：15fps高帧率直播风格化技术深度解析

2048 AI社区

【Spring】Spring Integration深度解析

Spring Integration 核心要点解析 Spring Integration 是 Spring 生态中实现企业应用集成（EAI）的关键框架，基于《企业集成模式》理论构建。其核心特性包括：消息驱动架构：通过Message（负载+头信息）和Message Channel（点对点/发布订阅）实现组件解耦丰富端点支持：提供Transformer、Router、Splitter等标准端点处理

2048 AI社区

当大模型遇见大数据：重新定义数据湖的智能引擎

摘要：大模型技术正驱动数据湖架构向智能化演进。面对PB级多模态数据的处理挑战，本文系统分析了大模型如何重构数据湖的三大核心能力：基于自然语言交互的智能查询范式、自动化数据治理体系以及深度知识发现机制。重点探讨了向量化存储与混合检索的技术演进路径，结合华为云等实践案例，验证了智能数据湖在提升查询效率（毫秒级响应）、降低使用门槛（非技术人员可用）和增强价值挖掘（多模态关联分析）等方面的显著优势。研究为