TLDR: 针对工业推荐系统中“用户行为序列建模”和“非序列特征交互”通常分离处理、难以联合优化的问题,本文提出了 OneTrans:一个统一的 Transformer架构,它通过将行为序列和非序列特征统一编码为 token 序列,并采用混合参数化(序列 token 共享参数、非序列 token 专属参数)+金字塔式 token 精简+跨候选 KV 缓存等技术,实现了序列建模与特征交互的联动优化。大规模实验证明其具备近 log-线性的扩展性并在线上带来显著 GMV 提升。

论文:https://arxiv.org/pdf/2510.26104

排序固有的问题

从精排切换成深度学习以来,工业界一直会把排序的模型结构研究切分成基本的两部分,序列处理和特征交叉,甚至有一些公司的排序组,下面都拆成两个Team分别处理行为序列和特征交叉。

最早的时候,序列用DIN来处理,序列就被压成了一个或多个向量表征,再参与与其他特征的交叉,我们可以理解成MLP(concat(DIN, Features))。发展到今天大多数的模型研究,还是分立地在特征交叉上把MLP换成DCN,增加个LHUC,复杂化为Rank Mixer或Transformer,序列上把DIN叠加MHA,直接换成Transformer,可以写成RankMixer(concat(Transformer, Features))。

从MLP(concat(DIN, Features))到RankMixer(concat(Transformer, Features)),本质没有变化,序列建模和特征交叉是一个隐式的两阶段过程,序列被压缩到Vector Space才和特征发生交叉。而LLM的有趣之处,就是在Next Token Prediction利用到的交叉发生在词序列的Token Space之中,它能启发推荐排序模型的,就是每一个特征的交叉应该发生在用户序列的Token Space之中。

OneTrans统一建模的核心思路

OneTrans的核心思路很清晰,把用户序列和用户物品特征统一成tokens,作为主体模型的输入,使得特征和序列在单一主干网络中充分交互。然后主体模型选择一个decoder only Transformer。至此,这篇工作80%的价值已经体现了。至于特征怎么转成token,用户序列怎么排布,Transformer做哪些变体,做了哪些工程训推优化,可能每一部分都有多种做法,工作里展示出来的未必是最好的一种。

类似的思路,年中的时候,美团发了MTGR。从下面这张架构图上,核心思想是非常一致的,所以我们以上谈到的观点并非独有,实际也有其他人在选择突破序列压缩瓶颈。不过即便今天来看,无论是公司内还是业界,把统一序列和特征并采用简洁的单一网络结构落地全量的,还是屈指可数的。

和美团的MTGR思路不太一样的,它选择把交叉特征也变成token,并且消融了这些交叉特征的作用,这像是之前wide&deep那种新老交替的妥协。从年初开始,我们确定了OneTrans的主体架构,系统里原本那些巨大维度的FM隐式交叉向量特征,海量存储的稀疏笛卡尔积显式交叉特征,就被我们塞在了Non-Seq Features部分作为token输入,避免了效果损失。但随着模型的Scaling Up,即拉宽,增加Transformer层数,增加序列长度,在一两个版本的迭代中,逐步下掉了这批旧时代的手工交叉特征。而且很有意思的是,当初这些带来很大增益的手工交叉,在模型Scaling Up后,它反而在伤害模型的泛化性,带不来AUC的提升,这种略显作弊的记忆性特征大概有着"梯度抢占"的影响,模型交叉还在DCN/LHUC的水平,它们发挥巨大的作用;在Scaling Up的Transformer面前,它们作用已经不大。

模型总体设计

先从输入讲起,左侧Seq Tokenizer输入就是用户行为序列,推荐系统的行为序列往往是多种的,比如包括隐式曝光、用户的正向行为(点击、购买)、其他域的正向行为(点赞、关注、搜索),在上面说的那种把序列压缩成向量再交叉的两阶段模式中,往往是每一种行为压缩成一个向量。现在是一条序列,怎么排布是会影响效果的,因为Transformer采用了单向的casual attention,也就是右侧的行为的叠层计算能感知到左侧的行为,反过来则不然。早期摸索出来的规律是,越靠近系统的行为放在右侧,就是从左到右依次是其他域的行为(点赞、关注、搜索)、本域的正向行为(点击、购买)、推荐系统的曝光,这么排布下测试和full attention的效果基本一致。

我理解这种tricky的序列排布是一种并不普适的方法,可能换一个业务就不一样了,但是从旧有架构的多sequence切换到one sequence,可以有所适配和参考。后续的版本,对序列特征重新做了组织,按照时间先后排布,这是最自然的一种方案。就是时间上更靠近的行为,视野更广,能看到历史上全部的行为。前者必然是一种中间状态,因为不按照时间排布,虽然可以做KV Cache,但当用户有新增行为时是无法处理KV Cache增量更新的。

右侧的Non-seq tokens,最初是分组的原始特征,逐步演变成所有特征拼接好做一层变换再Split成多个token。

主体是一个标准的Decoder Only Transformer,只是在参数共享和分层的token裁剪上做了一些调整。

Transformer的结构“优化”

接下来是Transformer的一些“优化”,但在我看来这些“优化”更像是trick,它可能是特定条件下的一种妥协,我相信随着架构的推理能力提升、Transformer的宽度、层数提升,这些“优化”会逐步被消灭掉,整个结构蜕变成标准的Transformer。

第一个”优化“就是per-token的Transformer参数,左侧蓝色部分是标准的Transformer共享参数,右侧的橘黄色则是给每一个特征token分配了独立的参数,类似于RankMixer,这么干确实在效果上更好了,我们的解释是每一个特征token的异质性,需要独立参数来处理,但这么做有非常多潜在的危害。

首先是模型参数量暴涨,我想有人会问,这未必是坏事,这不正好是在做Scaling Up么?我的理解是,Scaling Law本质是算力的Scaling,研究的是算力在参数维度和数据量上的最优分配,并不是单纯地把参数量搞大,因为本质算力没有变化,无法共享的参数实际带来了访存量的提升,使得计算强度下降,GPU的利用率变低。其次,我认为LLM能突破是依靠足够强的压缩,压缩产生智能,推荐系统的数据量实际是有限的,有限的训练机会分散给了多组参数,未必是最优分配。所以,我看到那种per-token加上sparse MOE扩展出来的几B的模型都会吐槽一番,实际算力和GPU利用率虚的狠,举个例子,4B的模型深度只有6层,但是qwen 0.5B的模型却有24层和更宽的dmodel。

未来的方向一定是想办法消灭掉这些per-token的参数,比如采用不做per-token的Sparse MOE,或者要设计更好的tokenizer,或者可能继续scaling到一定程度会自然地解决掉问题。

另一个是金字塔的设计,它设计的思考是不必每一层都处理几K的token,相当于token在长度上的算力缩减,以支撑更大的深度,但是启发式地总是保留最近的token,潜在可能导致每次层都被最近的同质化行为主导,最标准地做法还是动态地逐层丢弃token,例如LazyLLM:Dynamic Token Pruning。

训练推理优化

工程上的训练推理优化,就是围绕着标准Transformer的经验而展开,比如最重要的是当序列长度逐步增加,为了避免掉重复的attention计算,就需要借助KV Cache。包括request和session级别,request内训练和推理都只做一次计算,跨刷复用历史计算。

为什么坚定地选择Transformer

接下来讲讲,为什么选择尽可能标准的Decoder Only Transformer。推荐领域实际很喜欢从其他领域借鉴然后修改形成一套模型结构,深度学习框架的灵活性也给了足够的自由度,即便有几篇工作强调了序列和特征的统一建模,也会发现模型结构的改造是五花八门的,更不用说众多的模型复杂化(Scaling Up)工作。最早我们的基线也一度切到过RankMixer,后来才调整到One Transformer,这里面不只是说某一个结构的强弱差距。经验主义的判断总是你来AB下,哪个好就保留哪个,但是我们当时的思路就是,必须是朝着OneTrans方向做,不够好就分析改进,这背后的思考源于认清自己的渺小,甚至推荐领域的渺小。

用标准的Transformer,那么我们就和LLM拉齐了基础。在任何情况下我都倾向于选择Transformer,不再花精力做其他基本结构的探索,并不是说在任何情况下它都更强,而是相信绝大多数闭源和开源LLM的基础模型结构选择。并且因为选择了和LLM相同的基础模型结构,LLM领域的学术界和业界会提供源源不断的对模型的理解和增量创新。举个例子,DeepMind MoR工作尝试在token的深度上进行控制,进行参数的递归和计算的早停,节省一半的内存和计算量,如果我们基础模型结构是Decoder Only的Transformer,是可以直接尝试和复用的。再如DeepSeek的稀疏attention(DSA,NSA)工作,LLM生态的flex attention组件,都是我们做技术增量的源泉。使用Transformer作为基础,对齐LLM做问题映射,相当于免费雇佣了大量LLM的研究者帮你分析理解问题、提供创新思路和帮助构建开源生态工具。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述
在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述
在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐