HLLM架构核心内容总结表

类别 核心内容 关键细节
研究背景与问题 传统推荐模型痛点 1. 主流ID-based模型依赖嵌入参数,冷启动场景性能差;2. 神经网络较浅,难以建模复杂、多样的用户兴趣
LLM融合推荐的挑战 1. 用户行为历史转为文本输入导致LLM输入序列过长,自注意力复杂度随序列长度呈二次增长;2. 现有LLM-based推荐方法性能提升有限,LLM潜力未充分发挥
未解决关键问题 1. LLM预训练权重(含世界知识)在推荐中的实际价值;2. 推荐任务中LLM微调的必要性;3. LLM在推荐领域的可扩展性(超10亿参数模型表现未知)
核心方案:HLLM架构 整体设计 分层结构,含Item LLM和User LLM,二者参数不共享,将物品建模与用户建模解耦
Item LLM 1. 输入:物品文本描述(标题、标签等)+ 特殊token [ITEM];2. 输出:取[ITEM]对应最后一层隐藏状态作为物品嵌入
User LLM 1. 输入:用户历史交互物品的嵌入序列;2. 输出:预测的下一个物品嵌入;3. 特点:丢弃预训练LLM的词嵌入,保留其他预训练权重
训练目标 生成式推荐
判别式推荐
优化策略 效率优化
兼容性
实验关键发现 预训练与微调 1. 预训练价值:LLM预训练权重对物品特征提取和用户兴趣建模均有益,且预训练token量越多(最高3T),性能越好;2. 微调必要性:仅冻结Item LLM或User LLM会导致性能大幅下降,二者均微调才能超越传统模型
可扩展性 1. 模型参数:Item LLM和User LLM从1B扩展至7B时,性能持续提升;2. 数据量:从0.1M到8M数据规模,性能无瓶颈,持续优化
性能对比 1. 学术数据集:在Pixel8M上,HLLM-1B较传统模型平均提升22.93%;在Amazon Books上,HLLM-1B平均提升108.68%,HLLM-7B提升达169.58%;2. 工业场景:在线A/B测试中,关键指标显著提升0.705%
效率 训练数据效率:HLLM仅需传统ID-based模型1/6-1/4的数据量,即可达到相当性能
核心贡献 1. 提出HLLM架构,在大规模学术数据集和工业场景中均优于传统ID-based模型,且训练和服务效率优秀;2. 证实LLM预训练知识可迁移至推荐任务,且任务特定微调不可或缺;3. 验证HLLM的可扩展性,随数据量和模型参数增加,性能持续提升,为更大规模应用提供基础
这个问题很关键,核心是理解传统ID-based推荐模型的工作逻辑和冷启动场景的矛盾点。

主流 ID-based 模型依赖嵌入参数,冷启动场景性能差

关键概念

  1. ID-based模型与嵌入参数
  • 这类模型会给每个用户、每个物品分配唯一ID。
  • 训练时会学习一个“嵌入表”,把每个ID转换成固定维度的向量(即嵌入参数),这个向量就代表了用户的兴趣或物品的属性。
  • 推荐的核心就是通过计算用户嵌入和物品嵌入的相似度,判断用户是否可能喜欢某个物品。
  1. 冷启动场景
  • 指新用户(没有任何历史交互记录,比如刚注册的用户)或新物品(没有被任何用户点击、购买过,比如刚上架的商品)的场景。
  • 此时模型没有办法通过历史数据学习到新用户/新物品的有效嵌入参数——新ID对应的嵌入向量要么是随机初始化的,要么是空值。
  1. 性能差的原因
  • 随机初始化的嵌入向量无法真实反映新用户的兴趣或新物品的特点,基于这种“无效特征”计算的相似度自然不可靠。
  • 模型没法准确匹配新用户和合适的物品,也没法把新物品推荐给潜在感兴趣的用户,最终导致推荐准确率、点击率等指标大幅下降。
    要理解这三个问题,需结合LLM的核心特性(预训练知识、任务适配性、规模效应)与推荐系统的实际需求(精准建模、效率、扩展性)展开,以下是具体拆解:

解决的问题

1. LLM 预训练权重(含世界知识)在推荐中的实际价值

核心含义

LLM的预训练权重是模型在海量通用语料(如网页、书籍、文档等)上训练后保留的参数,这些参数蕴含了世界知识(如物品属性、常识逻辑、语义关联等)。该问题本质是探究:这些“通用知识”能否迁移到推荐任务中,解决传统推荐模型的痛点(如语义理解弱、冷启动差)?

关键价值体现(结合文献证据)
  • 提升语义建模能力:传统ID-based模型仅靠“ID嵌入”区分物品,无法理解物品文本描述的深层语义(如“防水运动鞋”与“户外徒步鞋”的关联);而LLM预训练权重能将物品文本(标题、标签、描述)转化为富含语义的向量,捕捉传统模型难以识别的关联(如摘要1、3)。例如HLLM的Item LLM通过预训练权重,从物品文本中提取的特征能更精准区分物品差异,辅助User LLM建模用户兴趣(摘要2、4)。
  • 缓解冷启动问题:新物品/新用户缺乏交互数据时,传统模型无法生成有效嵌入;但LLM预训练权重中的世界知识可基于物品文本(如新品“无线降噪耳机”的描述)直接生成合理特征,或基于用户有限的文本偏好(如“喜欢轻便可携的电子设备”)推断兴趣,无需依赖大量交互数据(摘要3、6)。
  • 降低数据依赖:LLM预训练权重的“零样本/小样本能力”可在推荐数据稀疏场景发挥作用——例如新领域推荐中,无需大规模标注数据,仅通过少量提示(如“推荐适合学生的平价笔记本电脑”)即可生成合理推荐,减少对推荐特定数据的依赖(摘要1、3)。
文献验证

HLLM实验显示:使用预训练权重的Item LLM+User LLM(如TinyLlama-1.1B、Baichuan2-7B),在PixelRec数据集上的Recall@5比“从零训练(Scratch)”的模型提升12.7%(3.755 vs 3.330),且预训练Token量越多(从0T到3T),性能越优,证明预训练权重的世界知识对推荐有直接增益(摘要2、4)。

2. 推荐任务中 LLM 微调的必要性

核心含义

LLM预训练是基于“通用语言理解”目标(如预测下一个Token),而推荐任务有其特殊性(如预测用户点击、偏好排序)。该问题探究:是否需要在推荐任务数据上进一步微调LLM,才能让其适配推荐需求?

为什么必须微调?(结合文献证据)
  • 预训练目标与推荐目标不匹配:LLM预训练的核心是“理解语言”,而非“理解用户兴趣与物品匹配逻辑”。例如预训练LLM能看懂“手机”的文本描述,但无法判断“用户A(经常购买游戏配件)是否喜欢这款游戏手机”——需通过推荐数据微调,让模型学习“用户行为-物品特征”的关联规律(摘要2、4)。
  • 未微调的LLM无法直接作为推荐组件:HLLM实验验证:若冻结Item LLM(仅用预训练权重做特征提取)、仅微调User LLM,模型Recall@5仅0.588,远低于“双LLM均微调”的3.755;同理,冻结User LLM、仅微调Item LLM,性能也仅1.619。原因是:预训练LLM的“下一个Token预测”能力无法直接转化为“物品特征提取”或“用户兴趣推理”能力,需通过微调对齐推荐目标(摘要2、4)。
  • 微调可提升任务适配性:推荐任务的评价指标(如Recall@K、NDCG@K)与LLM预训练指标完全不同,微调能让模型优化方向从“语言生成”转向“推荐排序”。例如HLLM通过“生成式推荐的InfoNCE损失”“判别式推荐的交叉熵损失”微调后,在Amazon Books数据集上比未微调的LLM提升超100%(摘要2、4);同时,微调还能融合推荐特有的特征(如时间戳、用户行为序列),进一步提升精度(摘要2、6)。
例外情况

仅当推荐任务与LLM预训练能力高度重合(如“基于用户文本评论推荐相似物品”),且数据极度稀疏时,才可能通过“提示工程”(而非微调)实现基础推荐,但性能远低于微调后的模型(摘要1、3)。

3. LLM 在推荐领域的可扩展性(超10亿参数模型表现未知)

核心含义

“可扩展性”指模型性能随参数规模增大数据量增多而持续提升的能力(即“缩放定律”)。该问题探究:在其他领域(如NLP、CV)已验证的LLM缩放定律,是否在推荐领域同样成立?尤其是参数超10亿的LLM(如7B、13B模型),能否在推荐任务中持续提升性能?

关键背景与文献验证
  • 传统推荐模型的扩展性瓶颈:传统ID-based模型(如SASRec、HSTU)参数规模通常在百万-千万级(如SASRec仅4M参数),当参数增至1B(如SASRec-1B)时,性能提升微弱甚至下降(如在Amazon Books数据集上,SASRec-1B的Recall@10比基础版SASRec下降)——原因是传统模型的“ID嵌入+浅层网络”结构无法承载大规模参数的知识(摘要2、4)。
  • LLM在推荐领域的扩展性验证:HLLM实验显示:
    1. 参数规模扩展:Item LLM从BERT-Base(110M)→BERT-Large(340M)→TinyLlama(1.1B),Recall@5从2.576提升至3.484;User LLM从SASRec(4M)→Llama-2L(0.1B)→TinyLlama(1.1B),Recall@5从3.484提升至3.521;进一步将双LLM从1B扩展至7B(Baichuan2-7B),在Amazon Books数据集上Recall@10从6.97(1B)提升至9.39(7B),性能持续增长(摘要2、4)。
    2. 数据量扩展:当训练数据从0.1M增至8M时,HLLM的NDCG@5从1.0左右提升至2.5以上,无明显瓶颈,证明数据量增大时LLM仍能有效吸收信息(摘要2、4)。
  • 超10亿参数模型的潜力:目前HLLM已验证7B参数模型的有效性,而文献3、6指出:随着参数规模进一步增大(如13B、70B),LLM的语义理解、长序列建模能力会更强,可能进一步提升推荐的精准度(如更好处理用户长行为序列、跨域推荐),但需解决计算成本问题(如通过模型蒸馏、稀疏激活优化效率)。

分层结构,含 Item LLM 和 User LLM,二者参数不共享,将物品建模与用户建模解耦

核心结论

LLM在推荐领域具备优秀的可扩展性,参数超10亿的模型(如7B)仍能持续提升性能,突破了传统推荐模型的规模瓶颈,但需配套高效的训练/推理方案(如HLLM的物品嵌入缓存、分布式推理)(摘要2、4)。
简单说,这句话的核心是:把“理解物品”和“理解用户”拆成两个独立任务,分别交给两个专门的LLM来做,而且这两个模型的“知识”(参数)互不干扰,避免互相拖累。

用生活化的例子解释更清楚:
就像一家电商的推荐部门,分了两个专属团队,各司其职、互不串活:

  1. Item LLM(物品专属团队):只干一件事——“吃透所有商品”。
    它的工作是分析每个物品的文本信息(标题、描述、标签等),比如“无线降噪耳机”的参数、“复古连衣裙”的风格,然后给每个物品生成一个精准的“特征名片”(物品嵌入)。
    它不用管“谁会买这个物品”,只专注把物品的特点刻画清楚。

  2. User LLM(用户专属团队):只干一件事——“摸透每个用户”。
    它的工作是拿着用户的历史交互记录(比如用户之前点击、购买过的物品的“特征名片”),分析用户的兴趣偏好(比如“喜欢轻便、平价的电子设备”),然后预测用户接下来可能喜欢哪个物品的“特征名片”。
    它不用管“这个物品具体是什么样”,只专注把用户的兴趣建模明白。

  3. 参数不共享+解耦

    • 两个团队的“工作方法”(模型参数)完全独立:Item LLM优化“怎么更好描述物品”,User LLM优化“怎么更好理解用户”,一方的调整不会影响另一方的效果(比如优化物品描述逻辑,不会打乱用户兴趣建模的规则)。
    • 解耦就是打破“一荣俱荣、一损俱损”:传统模型常把“物品特征”和“用户兴趣”混在一个模型里学,只要一个部分没学好(比如物品特征没刻画准),整个推荐效果都受影响;而这种分层设计,两个模型可以各自优化到最优,最后再配合起来推荐。

总结下来,核心好处是:

  • 分工明确,每个LLM都能专注自己的任务,建模更精准(比如Item LLM专门练语义理解,User LLM专门练序列兴趣捕捉);
  • 灵活调整,比如想优化新物品的特征,只改Item LLM就行,不用动User LLM的用户兴趣建模逻辑;
  • 提升效率,比如Item LLM生成的物品嵌入可以缓存起来,后续User LLM直接用,不用重复计算(对应之前说的效率优化)。

这是HLLM里两个核心模块的工作流程,简单说就是:

Item LLM(负责“给物品做名片”)

  • 输入:把物品的文字信息(比如标题、标签),加上一个特殊标识[ITEM]一起喂给模型;
  • 输出:模型处理后,把[ITEM]对应的最后一层结果,当作这个物品的“特征名片”(物品嵌入)。

User LLM(负责“猜用户想要啥”)

  • 输入:把用户之前看过/买过的物品的“特征名片”按顺序排好,喂给模型;
  • 输出:模型预测出用户接下来可能喜欢的物品的“特征名片”;
  • 特点:不用LLM原本自带的“文字转向量”功能,只保留LLM其他预训练好的能力(比如理解序列规律)。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐