TBGRecall-淘宝适用于推荐场景的生成式检索模型

《TBGRecall：电商推荐场景的生成式召回模型》提出了一种创新的Next Session Prediction框架，通过会话级自回归建模解决传统自回归模型在推荐召回中的顺序依赖问题。该模型将用户序列划分为多会话段，采用会话掩码和对比学习损失优化检索性能，并引入Partial Incremental Training提升训练效率。在淘宝工业数据集上的实验表明，该模型HR@4000提升3%，在线A

丫头吖丫头

578人浏览 · 2026-01-04 16:50:06

丫头吖丫头 · 2026-01-04 16:50:06 发布

TBGRecall: A Generative Retrieval Model for E-commerce Recommendation Scenarios

论文链接：TBGRecall: A Generative Retrieval Model for E-commerce Recommendation Scenarios

来源：阿里巴巴

研究方向：生成式推荐

使用场景：首页猜喜

关键词：生成式召回、下一会话预测、自回归模型、电商推荐

摘要

推荐系统是现代电子商务中不可或缺的工具，它通过推荐相关产品来为用户提供个性化的体验。最近，生成模型的进展展示了在改进推荐系统方面的潜力；然而，这些模型在优化检索任务方面往往存在局限性，主要是因为它们依赖于自回归生成机制。传统的方法引入了顺序依赖性，这阻碍了高效的检索，因为它们本质上不适合在单个请求会话中生成没有位置约束的多个项目。为了解决这些局限性，我们提出了 TBGRecall，这是一个将“下一个会话预测”（NSP）集成到其中的框架，旨在为电子商务应用增强生成式检索模型。我们的框架重新设计包括将输入样本划分为多会话序列，每个序列由一个会话标记后跟一组项目标记组成，然后进一步纳入针对检索场景中生成任务的多个优化措施。在训练方法方面，我们的流程将有限的历史数据预训练与随机部分增量训练相结合，显著提高了训练效率，并突显了数据时效性相对于单纯数据量的优势。我们在公开基准测试以及来自淘宝的大规模工业数据集上进行的大量实验表明，TBGRecall 比最先进的推荐方法表现更优，并呈现出明显的扩展规律趋势。最终，NSP 在电子商务应用的生成推荐系统的有效性方面代表了一项重大进步。

引言

在自然语言处理和计算机视觉领域表现出色的生成型神经模型，最近在推荐系统中获得了关注。一个突出的方向是利用大型语言模型（LLMs）：一些研究将 LLM 用于检索任务中的特征增强，而另一些则探索直接基于 LLM 的项目生成。然而，诸如语义对齐之类的挑战限制了它们的效率。其他方法则将 LLM 模型的范式应用于推荐，例如 Tiger 的基于 RQ-VAE 的语义 ID 架构。其他研究通过诸如 HSTU 和 E4SRec 这样的模型提出通过稀疏 ID 生成的方法。还有一些其他研究，如 sessionrec ，使用新的方法进行生成式推荐。

尽管近期取得了进展，但现有的生成模型在检索管道中缺乏针对特定任务的优化。在检索过程中，系统每次会返回无序的候选集合——这种推荐请求没有会话内的项目依赖关系。传统的基于词元的自回归模型会强制实现项目之间的顺序依赖关系，这违背了检索的要求：用户的交互是在项目展示之后发生的，因此只在会话之间存在因果关系。因此，同一会话中的项目不应相互影响，而应为未来的会话提供信息。

为解决这一问题，我们提出了淘宝生成式回忆模型（TBGRe-call），这是一种基于会话的自回归模型，其中物品生成是相互独立的。其核心创新是“下一个会话预测”（NSP），这是一种优化用于检索的生成范式。通过重新设计样本结构和损失函数，NSP 比传统的“下一个令牌预测”（NTP）表现更优。基于 HSTU 构建的框架将用户序列划分为多个会话段，每个段都以会话标记开头，随后是物品标记。在训练过程中，上下文标记与正/负物品样本之间的对比损失取代了回归损失。在推理时，会话标记引导近似最近邻（ANN）搜索以进行检索。这种设计解决了自回归依赖冲突，并与检索基础设施相匹配。

进一步的优化增强了 NSP：多会话预测（MSP）和特定令牌网络（TSN）提高了性能，而随机部分增量训练则降低了大规模模型的计算成本。我们的框架呈现出扩展规律趋势，并超越了基准模型。NSP 在生成式检索领域实现了重大突破，它将自回归建模与实际的推荐流程连接了起来，从而填补了这两者之间的空白。

• 为非自回归生成引入了“下一个会话预测”功能，并结合了一系列优化措施，如 MSP，其在推荐检索任务中的表现优于“下一个词预测”。

• 提出了随机部分增量训练方法，该方法在不牺牲模型性能的前提下显著提高了训练效率，突显了数据时效性相对于单纯数据量的优势。

• TBG 检索性能在离线实验中优于现有最佳方法。已将其在淘宝首页“猜你喜欢”场景中实现为近线式处理，从而实现了显著的在线交易金额增长，增幅达 2.16%。

Method

淘宝是该行业领先的电子商务平台之一，为消费者和商家提供了一个安全且便捷的商品买卖渠道。淘宝的大部分业务流量来自移动淘宝应用程序，其中包括诸如首页产品推荐（简称为 GUL）、店内（IS）和搜索（SE）等多种场景。

本文提出的模型名为 TBGRecall，主要关注于产品推荐系统中“猜你喜欢”（GUL）场景下的物品检索。我们的核心贡献在于引入了一种名为“下一次会话预测”的新方法，以获取表示用户当前意图的会话级嵌入。基于此嵌入，我们进行近似最近邻（ANN）搜索以检索候选物品。

$h'_{c(K+1)} = \mathcal{M}_{\text{TBGRecall}}(Q)$

(𝐾 + 1) 表示某一用户行为的第 (𝐾 + 1) 个阶段，而 h′𝑐(𝐾+1)则代表相应位置的上下文标记的输出。在 TBGRecall 中，给定用户交互序列 Q，h′𝑐向全连接网络（ANN）传输的向量。

样本构建

在主页推荐设置中，每次用户打开主页或向下滚动信息流时，客户端都会触发一次推荐请求，每次请求都被称为一个“会话”。收到会话请求后，后端推荐系统会返回一系列精心挑选的待展示内容给用户。用户可以对这些内容进行交互，从而产生用户操作。其他场景也遵循相同的请求-响应模式。

在我们的任务中，样本是按照用户级别进行组织的，每一行都代表了用户最近的 K 次基于会话的交互（按时间顺序汇总，用于意图建模）。对于每个用户，近期的会话会按时间顺序汇总成一个统一的行为序列 Q，从而为意图建模和购买动态分析奠定基础。其他诸如广告和直播等垂直领域的内容被排除在外，这导致每次会话中的项目数量各不相同。对于会话中的每个项目，我们还会记录相关的辅助信息——例如一级和二级类别 ID、卖家 ID、价格以及推荐时间——作为行为序列的一部分。用户的操作行为（包括点击操作）也记录在该序列中。

如图 1 所示，我们将用户的最近行为序列分割成多个会话，其中 K 是会话的数量，每个会话以一个上下文标记 𝑐 开头，随后是 𝑁𝑘 个项目标记，其中 𝑐 (𝑘) 表示会话场景，而 𝑖 表示会话 𝑘 中的第 𝑚 个项目。模型输入序列 Q 为

$Q = \left\{ c^{(1)}, i_1^{(1)}, i_2^{(1)}, i_3^{(1)}, c^{(2)}, \ldots, c^{(K)}, i_1^{(K)}, i_2^{(K)}, c^{(K+1)} \right\}$

序列 Q 中的每个元素都对应于模型中的一个标记，

该标记是通过计算其相关信息的嵌入值并将其相加而得到的。具体而言，每个标记的隐藏向量 h 由四个部分组成：

$\mathbf{h} = \mathbf{e}_{\text{id}} + \mathbf{e}_{\text{act}} + \mathbf{e}_{\text{side}} + \mathbf{e}_{\text{ctx}}$

其中，eid 是项目 ID 的嵌入表示，eact 是代表用户交互类型（点击或曝光）的动作嵌入，eside 是捕捉辅助项目属性（例如类别、价格、卖家）的侧信息嵌入，而 ectx 是场景的嵌入。

下一阶段预测框架

现有的大多数生成式检索方法都采用自回归生成模式，该模式假定会话中的各项之间存在顺序依赖关系。然而，在实际的推荐系统中，各项的顺序往往没有语义意义：所有项目都是同时送达用户的，它们之间没有内在的因果关系或时间关系。这种差异导致了自回归生成中各项之间不必要的依赖关系，这可能会损害模型的准确性和推理效率。为了解决这个问题，我们通过 NSP 提出了一个基于会话的自回归方法。这种方法在推理过程中无需进行迭代的项目生成，从而减少了在线计算开销，同时消除了各项之间不必要的顺序依赖关系。此外，它与现有的项目检索系统基础设施自然地相契合。

会话掩码。在仅使用解码器的架构中，因果掩码用于限制注意力计算。然而，在 NSP（下一个会话预测）中，我们不希望同一会话中的各个项目相互影响。因此，我们基于因果掩码引入了会话掩码。此外，TBGRecall 不使用顺序索引来进行位置编码，而是利用会话索引来作为会话级别的绳索（sw-rope），其中同一会话中的所有标记共享一个共同的位置编码，以模拟用户会话级别的相对位置依赖关系。

TSN。为解决上下文和项目标记之间的语义和分布差异问题，我们引入了“标记特定网络”（TSN），它在嵌入和初始 Transformer 阶段都应用了专用的线性转换层。这种架构消除了共享投影导致的性能下降，同时保持了推理效率——没有额外的计算开销，因为 TSN 只是用两个标记类型特定的替代了一个统一的投影。

MSP 和 MoE。鉴于 TBGRecall 与主流生成模型的兼容性，我们整合了两种成熟的 LLM 技术——多标记预测（MTP）和混合专家（MoE）——以提升性能。我们沿着会话维度实现了多会话预测（MSP）来处理上下文标记，这与 MTP 模式类似[4， 8]。这引入了扩展的训练信号，能够明确地建模长距离用户行为依赖关系以及遥远上下文场景之间的过渡关系。对于

在前馈模块中，我们采用了带有辅助无损失负载均衡功能的 DeepSeekMoE，它利用专门的专家网络在相当的推理浮点运算次数下获取更丰富、针对特定任务的知识，从而提高了整个模型的效能。

总体损失

我们的整体损失函数由两个部分组成：一个是用于自回归训练的对比损失 L𝑁𝐶𝐸 ，另一个是强调高价值样本的级联损失，其中包括 L𝑐𝑙𝑖𝑐𝑘 和 L𝑝𝑎𝑦 。我们提出的损失函数从根本上源自噪声对比估计（NCE），并经过了定制的修改，以更好地适应推荐任务的特点，并增强在高特征项空间中的对比学习效果。此外，由于不同场景下的会话次数分布严重不均衡，直接优化一个统一的损失而忽略场景区分可能会导致性能下降。为了解决这个问题，我们提出了多场景归一化方法，其中针对每个场景分别计算损失。然后对这些按场景计算的损失进行归一化和聚合，以确保在所有场景中实现均衡优化。基于上述内容，该公式可以总结如下：

$\mathcal{L}_{NSP} = \sum_{s \in S} \frac{1}{N_s} \left( \mathcal{L}_{NCE}^{(s)} + \mathcal{L}_{click}^{(s)} + \mathcal{L}_{pay}^{(s)} \right)$

这里，S 表示所有会话的集合，而 𝑁𝑠 则是特定场景下会话的数量。

对于给定的会话 𝑠，其对比损失定义为：

$\mathcal{L}_{NCE}^{(s)} = \frac{1}{|\mathcal{I}^{(s)}|} \sum_{i \in \mathcal{I}^{(s)}} -\log \left( \frac{p_i^{(s)}}{p_i^{(s)} + \sum_{j \in \mathcal{N}^{(s)}} p_j^{(s)}} \right)$

I（s）代表了在某个会话期间推荐给用户的各项内容，这些内容充当了正样本；而 N（s）则表示从项目库中随机抽取的一组负样本。术语 𝑝 (𝑠) 对应于上下文标记与样本标记之间的软最大化归一化内积。L𝑁𝐶𝐸 的目标是使上下文标记更接近正样本标记，同时将其与负样本标记分隔开来。

为了更准确地衡量用户参与度和交易价值，我们新增了两个递归损失项：

$\mathcal{L}_{click}^{(s)} = \frac{1}{|\mathcal{C}^{(s)}|} \sum_{i \in \mathcal{C}^{(s)}} -\log \left( \frac{p_i^{(s)}}{p_i^{(s)} + \sum_{j \in (\mathcal{I}^{(s)} \setminus \mathcal{C}^{(s)})} p_j^{(s)}} \right)$

$\mathcal{L}_{pay}^{(s)} = \frac{1}{|\mathcal{P}^{(s)}|} \sum_{i \in \mathcal{P}^{(s)}} -\log \left( \frac{p_i^{(s)}}{p_i^{(s)} + \sum_{j \in (\mathcal{C}^{(s)} \setminus \mathcal{P}^{(s)})} p_j^{(s)}} \right)$

这里，C(s) 和 P(s) 分别表示在会话 s 中被点击和购买的商品集合。损失值 L_click 和 L_pay 的设定旨在赋予与用户点击相关的样本更大的权重，从而促使模型更侧重于高价值的交互行为。

部分增量训练

对于 TBGRecall 而言，由于模型参数数量庞大以及用户数据规模巨大，仅基于单日新增数据进行训练可能需要长达五天的时间。这会导致部署延迟，从而造成性能显著下降——这种结果在实际应用中是不可接受的。

为了解决这个问题，我们提出了部分增量训练（PIT）方法，如图 3 所示。具体而言，所有用户被随机分为 10 个桶。在每次增量训练阶段，仅使用一个桶中最近十天的数据进行训练。由于每次迭代仅处理完整数据集的十分之一，使用有限数量的 GPU 进行训练可以在不到一天的时间内完成，从而确保更新后的模型能在接下来的一天内部署。此外，由于每个用户的每天数据最终都会在每次迭代中覆盖到，因此不会出现数据丢失或未充分利用的情况。鉴于每个桶中的数据量足够大，任何给定桶内的数据分布都与整体分布保持一致。因此，所提出的这种方法实现了与理想情况相当的性能。

推理

在推理阶段，根据客户端在推荐请求中提供的当前上下文和时间戳，在用户序列的末尾添加了一个新的上下文标记 𝑐 (𝐾 + 1)，之后模型会生成对应于最终位置的输出标记。这个上下文标记随后会被用于在项目池上进行 ANN 搜索，以检索出最热门的候选项目。由于该上下文标记是通过同时使用会话中的项目以及从项目池中抽取的负样本的监督训练得到的，所以它能够学习捕捉潜在检索项目的底层语义。给定上下文嵌入 h (𝐾 + 1) ，项目 𝑖 的检索得分 𝑐 为：

$\text{Score}(c^{(K+1)}, i) = \langle \mathbf{h}'_{c(K+1)}, \mathbf{e}_i \rangle = \langle \mathbf{h}'_{c(K+1)}, \mathbf{e}_{i,\text{id}} + \mathbf{e}_{i,\text{side}} \rangle$

候选项目是通过以下方式获取的：

$\mathcal{R} = \arg\max_{i \in \mathcal{I}} \text{Score}(c^{(K+1)}, i)$

其中 I 表示高质量商品池

工程级别详情

训练框架

图 5 展示了一个高性能训练框架，该框架专为大规模电子商务系统中的生成式推荐模型而构建。它解决了两个难题：（1）在万亿级标记语料库上训练具有 100 亿级稀疏参数和数十亿级密集参数的模型；（2）在数十亿级的产品库存中实现加权随机负采样以优化检索。该框架基于 TorchRec 构建，将分布式系统与先进的训练技术相结合，以提高生产效率。

1. 分布式负采样分片：将数十亿规模的产品目录在节点间进行分布式处理，实现低延迟的分布式采样。

2. 异步数据加载：基于 CPU 的数据加载器采用预取/流水线并行技术来隐藏 I/O 延迟，并保持 GPU 利用率超过 90%。它将数据准备任务（例如特征工程、负采样）卸载到异步 CPU 工作线程，利用 CPU 并行性处理大规模训练中的非 GPU 任务。

3. 分片嵌入：TorchRec 的 DMP 按行将稀疏嵌入在 GPU 之间进行分区，通过 AllToAll 通信减少内存占用。

4. FSDP：在设备间分区密集模型参数/优化器状态，实现线性内存扩展，以支持具有更大参数量的模型训练。

5. 端到端平台能力：支持每日重新训练，具备容错检查点、MLTracker 指标监控、TorchScript 导出和一致性检查等功能。

在线服务系统

为了缓解在线推理计算/延迟方面的限制，我们开发了一种近线检索框架，该框架将用户表示生成与请求处理相分离，如图 5 所示。实时的淘宝用户交互（例如，曝光、点击）会触发两个异步服务：（1）行为序列更新和（2）生成模型推理。后者根据最新的用户行为数据构建输入标记序列，通过基于 PyTorch 的推理模型执行生成模型推理以生成用户兴趣向量，并随后通过预先构建的离线项目嵌入索引上的 ANN 搜索执行前 k 项检索。结果以 <用户 ID，前 k 项项目列表> 的键值对形式进行缓存。

在线请求可直接从缓存中获取预先计算好的推荐结果，从而无需进行实时计算。这种设计降低了延迟，并将资源密集型的检索任务转移到近线管道中。定期的兴趣向量更新能够平衡新鲜度和计算效率，从而确保实现可扩展且低延迟的部署。

实验

实验设计

1. 数据集：

我们在两个大规模数据集上进行了实验：1）RecFlow [18]，该数据集包含了来自快手的丰富上下文信息。2）淘宝数据集，这是一个基于淘宝交易记录的真实世界、大规模的数据集。表 1 汇总了这两个数据集的主要统计信息。

2. 评估指标：

我们采用“命中率@K（HR@K）”这一指标来评估所提出方法的有效性。其定义如下：

3 基准模型：

为了验证我们模型的卓越性能，我们选择了多个生成式推荐基准模型。所选的模型均为非 LLM 架构，与 TBGRecall 一样，它们都使用稀疏 ID。HSTU、SASRec [12] 和 BERT4Rec [24] 是基于序列建模的推荐模型，而 YouTubeDNN [3] 和 FDSA [32] 则代表传统的推荐方法。ONLINE 模型采用了淘宝的生产级双塔推荐检索基准模型。ON-LINE（DT）表示该模型通过每年多次的日常训练进行更新，确保能够持续适应长期趋势和动态的用户偏好。

4 实施细节：

我们的模型使用 Adam 优化器对密集参数进行训练，使用 Adagrad 对稀疏参数进行训练，初始学习率为 1×10−3 。 TBGRecall 框架在 PPU 810E 平台上进行部署和优化，该平台是阿里巴巴开发的内部 GPU 架构，其计算性能约为 NVIDIA A100 的 60%。在训练过程中，我们在轻量级参数配置下（块数 = 4，长度 = 5120，维度 = 512）固定 HSTU 参数。对于涉及混合专家（MoE）架构的模型，我们采用 MoE 设计，其中包括 24 个路由专家网络和 1 个共享专家。在每次前向传播中，通过顶部 K 选择机制激活 2 个专家。此外，除非另有说明，所有提及的方法都是从头开始训练，并通过精心优化的超参数进行训练。

结果

我们在 RecFlow（RF）和淘宝（TB）数据集上，将我们提出的 TBGRecall 与多个生成式推荐基线模型进行了比较，如表 4 所示。

在 RecFlow 数据集上，TBGRecall 在所有 HR@K 指标方面均表现出优于现有基线的卓越性能（如表 4 所示）。值得注意的是，在排名靠前的结果（HR@20 - HR@500）中，其优势最为显著，实现了在高优先级商品检索方面的更显著改进。其优越的性能源于基于会话的序列构建和层次对比目标，这些目标优先考虑检索中的高价值交互。

在淘宝的大型数据集上，TBGRecall 在所有 HR@K 指标方面均显著优于所有基准模型，如表 4 所示。值得注意的是，TBGRecall 在 HR 性能方面优于从头开始训练的在线基准模型以及每日训练的生产级模型（DT）。

消融实验

我们对包括 TSN、MSP、MoE[4] 和 RoPE[23] 在内的关键组件进行了全面的消融实验，以评估它们对模型性能的各自贡献。结果表明，每个模块都独立地提高了检索的准确性，而整个框架则实现了最高的总体效果。MSP 产生了最显著的性能提升，主要是因为它增加了单个会话中编码的信息量，使模型能够更好地理解上下文语义，并在训练过程中避免陷入局部决策模式。双向旋转位置嵌入（RoPE）和专家混合（MoE）这两种技术在当前最先进的大型语言模型中被广泛采用。将它们纳入我们的架构中，我们在模型性能方面取得了显著的提升。此外，TSN（令牌特定网络）模块能够使上下文令牌和项目令牌更有效地、更高效地对齐，进一步提升了模型的整体性能。这些发现证实了所提出的组件在构建电子商务推荐的生成式检索系统方面所具有的结构合理性和实际价值。

部分增量训练

表 3 展示了在不同训练策略下的实验结果，其中“训练持续时间”表示训练一天用户数据所需的时间，而“最新数据使用情况”则表示在模型部署前是否包含了最近一天的数据。由于部署延迟了十天，常规训练并不能取得更好的效果。相比之下，当使用大量 GPU 进行每日增量训练时，模型性能有了显著提升。在 HSTU 中使用随机长度，且 α = 1.6，可以将训练时间缩短 70%，但无法及时利用最新数据，并导致性能下降 9%。然而，我们的部分增量训练方法仅利用十分之一的 GPU 资源仍能保持竞争力的性能。这有力地证明了我们的部分增量训练方法非常适合训练大规模生成模型。

缩放曲线

我们系统地评估了模型容量、计算资源与检索性能之间的关系。在图 6 中，我们通过逐步增加隐藏层的维度（分别为 128、256、512 和 1024）来扩大模型规模。最右边的两个数据点对应的是使用稀疏多专家模型（Mixture of Experts）的模型，后者采用了 24 个 hstu 块。随着参数数量的增加，计算浮点运算次数也呈指数级增长。通过将水平轴取对数，我们观察到模型参数的对数与模型性能之间存在线性关系。实验结果表明，模型的准确率与参数数量和训练计算量都呈现出一种比例关系，这表明随着模型规模的增大，性能会持续提升。值得注意的是，所提出的框架即使在大规模工业环境中也能保持高效的扩展行为，这证实了在实际推荐系统中部署高度参数化的生成模型的可行性和有效性。

在线实验

我们在淘宝首页的“猜你喜欢”板块上进行了在线 A/B 测试，该板块每天的曝光量高达数亿次。在检索阶段新增了一种基于 TBGRecall 模式的检索策略。该实验在 5%的随机用户流量上进行了 7 天的测试。

如表 5 所示，我们的策略在所有部署的检索方法中捕获了 23.94%的总曝光量。这突显了其在具有多种并发策略的生产环境中的竞争力。值得注意的是，观察到了显著的统计学改进：交易数量增加了 0.60%，交易金额增加了 2.16%。这些收益验证了该方法在大规模工业部署中的有效性。它在高流量分配与稳定业务影响之间实现了平衡，使其适用于需要可扩展性和性能的现实世界推荐系统。

结论

本研究通过“下一阶段预测”（NSP）方法为生成式推荐系统引入了一种范式创新，解决了自动回归生成在检索场景中的固有局限性。所提出的 TBGRecall 模型通过基于会话的自回归重新定义了序列建模，消除了会话内的序列依赖关系，同时通过上下文标记优化捕捉跨会话的行为模式。该框架实现了更高的预测准确性和计算效率，在大规模电子商务环境中比基准模型表现更优。基于稀疏 ID 架构的扩展规律的建立以及数据时效性原则的验证，为工业部署提供了可操作的见解。通过将生成模型与实用的检索基础设施相连接，本研究推进了基于会话的顺序推荐模型的可行性，提供了可靠的工业解决方案和未来研究的方向。

总结一下

针对传统自回归生成模型在推荐召回场景中强制引入商品间无效顺序依赖的问题，作者提出了Next Session Prediction框架，通过会话级自回归和对比学习损失，将用户当前意图编码为会话上下文向量进行ANN检索，在淘宝工业级数据集上验证了其优于SOTA方法并能显著提升在线交易额。

这篇论文就像是把”猜你喜欢”从”按顺序报菜名”改成了”直接说你想吃啥”，系统根据你的整体意图直接推荐一桌菜，而不是一道一道菜地问。

背景痛点：传统自回归生成模型在推荐召回场景中强制引入了商品间的顺序依赖，而实际业务中同一会话的商品是同时曝光且无内在因果关系的，这导致建模偏差和推理效率低下。

切入视角：将生成范式从Next Token Prediction重构为Next Session Prediction，实现会话级自回归而非商品级自回归。

关键方法：

核心优化：Session Mask（消除会话内商品交互）、Token-Specific Network（上下文/商品token分治）、Multi-Session Prediction（扩展训练信号）

损失设计：基于NCE的对比学习损失 + 针对点击/购买的高价值样本级联损失

样本重构：将用户序列划分为多会话段，每段以上下文 token 开头，后接商品 token

核心发现：
- 模型性能随参数规模呈现明显的Scaling Law趋势
- 数据时效性优于数据量：Partial Incremental Training在1/10 GPU资源下达到接近全量训练性能
- NSP范式显著优于传统NTP在推荐召回任务中的表现
落地收益：
- 提升：HR@4000从26.45%提升至29.45%，在线测试交易金额+2.16%
- 对比：Baseline为生产级双塔模型（Online DT）
- 场景：淘宝首页”猜你喜欢”推荐场景
应用风险：
- 适用场景限制：主要针对会话内商品无强顺序依赖的推荐场景
- 数据标注成本：需要记录用户完整的会话级行为序列
- 在线服务需要近线架构解耦用户表示生成与请求处理
- 需要构建复杂的分布式训练框架处理万亿级token语料和百亿级参数