(文末放置原项目链接)

目录

一、这次开源的到底是什么?

二、总体思路:用大模型接管推荐,而不是“人工调规则”

传统做法 vs X 新算法

三、整体架构:Thunder + Phoenix + Home Mixer

Home Mixer:总调度中心

Thunder(雷霆):关注圈内容引擎

Phoenix(凤凰):全站发现 + 智能排序核心

阶段 A:检索(Retrieval / Two-Tower)

阶段 B:排序(Ranking / Grok Transformer + 候选隔离)

四、算法实际在“预测什么”?——15 种行为

五、过滤规则:算法不是“啥都推”

评分前过滤(Pre-Scoring)

评分后过滤(Post-Selection)

六、几个特别关键的设计点(影响普通创作者最多的地方)

“候选隔离”:不给大号“碾压”小号的机会

“时间 +互动质量”比单纯“点赞数”更重要

防止“刷屏”:作者多样性打分

七、如果你是内容创作者,应该怎么“顺着算法来”?

写能让人“停下来看”的内容

把评论区经营好

不要刷频率,而要刷“质量”

少做让人“想静音/拉黑”的事

八、这次开源相对旧版(2023 年 Twitter the-algorithm)的变化

九、总结版本



一、这次开源的到底是什么?

开源的主要是 X 上 「For You / 为你推荐」信息流 的核心推荐系统,包括:

  • 整体架构和主要服务的代码仓库:xai-org/x-algorithm(Apache 2.0 许可)[1]

  • 核心推荐模型 Phoenix(基于 xAI 的 Grok Transformer)[1][2]

  • 信息流全流程:从候选召回 → 特征补充 → 过滤 → 打分排序 → 最终展示[1][3]

一句话概括:

X 把“给你推荐什么内容”这件事,几乎完全交给一个 Grok 大模型来决定,并把这整套算法公开给了所有人看。


二、总体思路:用大模型接管推荐,而不是“人工调规则”

传统做法 vs X 新算法

  • 传统社交平台推荐:

    • 一堆「手工规则」+ 各种打补丁的特征工程,例如:

      • 新号加权、某些话题加分、外链减分……

    • 算法是“工程师手写规则 + 一点机器学习”

  • X 新算法(2026 版):

    • 几乎不再手工设计特征和规则

    • 把绝大多数决策交给一个 Grok-based Transformer 模型来学

    • 工程层面做的事情主要是:

      • 把候选内容找出来

      • 清洗无效、违规、重复内容

      • 把数据喂给模型,让模型自己算“你会怎么互动”

核心理念:

“不用人拍脑袋写规则,让模型自己学:什么内容对你有吸引力,什么内容让你反感。”[1][3]


三、整体架构:Thunder + Phoenix + Home Mixer

从工程视角,可以理解为三大块:

  1. Home Mixer:总调度中心

  • 负责处理你打开「For You」时的一次请求:

    • 读取用户信息、历史行为

    • 向各个“候选源”要帖子(关注的人 + 全站发现)

    • 做特征补充、过滤

    • 把候选交给 Phoenix 模型打分

    • 挑出 Top-K 条返回给你

可以把它理解为这次开源项目的“总导演”。


  1. Thunder(雷霆):关注圈内容引擎

  • 职责:负责“你关注的人”发了什么[1][3]

  • 技术特点:

    • 实时从 Kafka 流里消费“发帖/删帖”事件

    • 在内存中维护每个用户最近看到的:

      • 原创

      • 回复

      • 转发

      • 视频帖等

    • 查询延迟是 亚毫秒级,非常快

  • 作用:

    • 当你刷新「For You」,Thunder 会给出:“你关注的人最近发了这些,可能值得看”

可以把 Thunder 理解为一个“高速缓存你的关注圈内容的数据库”。


  1. Phoenix(凤凰):全站发现 + 智能排序核心

Phoenix 是整套系统的 AI 大脑,包含两个阶段[1][2][3]:

阶段 A:检索(Retrieval / Two-Tower)
  • 问题:全网有海量帖子,不可能都拿来详细算,必须先 粗筛一批“可能相关”的”。

  • 做法:双塔模型(Two-Tower):

    • 用户塔(User Tower):把你这个用户(兴趣 + 历史行为)编码成一个向量

    • 候选塔(Candidate Tower):把所有帖子编码成向量

    • 用 向量点积相似度 找出最接近你兴趣的 Top-K 帖子

  • 输出:从“全网”里圈出一小撮“你大概会感兴趣”的候选

这一步类似:“在图书馆里先找出可能是你感兴趣的那几排书架”。

阶段 B:排序(Ranking / Grok Transformer + 候选隔离)
  • 输入:

    • 你这个人(用户 embedding)

    • 你近期看过、点过、评论过的历史(History)

    • 检索到的候选帖子(Candidates)

  • 模型结构:

    • Grok 同源 Transformer 架构,专门为推荐任务适配[2]

    • 关键设计:Candidate Isolation(候选隔离):

      • 每个候选帖子:

        • 可以“看”你的信息 + 你的历史行为

        • 但 看不到同批次的其他帖子

      • 好处:

        • 每一条帖子的评分 不受同批其他帖子的影响(防止“大V 帖子把小号稀释掉”)

        • 分数稳定、可缓存,工程上也更高效[1][2][3]

这一步类似:“每一条帖子单独跟你面试,不是几百条一起群面互相挤。”


四、算法实际在“预测什么”?——15 种行为

Phoenix 模型不是简单预测“你会不会点赞”,而是 一次性预测一整套行为概率,包括但不限于[1][2][3]:

  • 正向行为:

    • 点赞(like / favorite)

    • 回复(reply)

    • 转发(repost)

    • 引用转发(quote)

    • 点进帖子 / 点击(click)

    • 点进作者主页(profile_click)

    • 视频观看(video_view)

    • 图片展开(photo_expand)

    • 分享(share)

    • 停留时间(dwell)

    • 关注作者(follow_author)

  • 负向行为:

    • 不感兴趣(not_interested)

    • 屏蔽作者(block_author)

    • 静音作者(mute_author)

    • 举报(report)

然后用一个线性公式:

最终分数 = Σ(每种行为的预测概率 × 该行为的权重)[1][3]

  • 正向行为 → 正权重(加分)

  • 负向行为 → 负权重(扣分)

  • 特别提到:

    • “作者回复评论”这一类互动的权重非常高,大约是点赞的几十倍级别(报道提到约 75 倍量级)[3]

所以,算法实质是在算:

“如果把这条内容推给你,你有多大概率会:

  • 认真看、

  • 点赞、

  • 讨论、

  • 分享,

以及,有多大概率会:

  • 觉得烦、

  • 点‘不感兴趣’、

  • 屏蔽/举报?”

然后综合这些,来决定这条内容值不值得在你时间线上占一个位置。


五、过滤规则:算法不是“啥都推”

推荐前后都有一堆“安全阀”:

  1. 评分前过滤(Pre-Scoring)

在进大模型打分前先过滤掉明显不该进来的东西[1][3]:

  • 去重:同一条内容不反复推给你

  • 过旧内容:太老的帖子丢掉

  • 自己的内容 / 自己转发的内容:一般不再推荐给自己

  • 被屏蔽 / 静音的作者:直接剔除

  • 被设置为不符合订阅权限的内容:没资格看的直接过滤

  • 关键词静音:你屏蔽的关键词相关内容,剔除

  1. 评分后过滤(Post-Selection)

打完分、选出 Top-K 之后,再做一步“安全 & 体验优化”[1][3]:

  • 删除已标记为垃圾、暴力等违规内容

  • 同一讨论串内部多条内容去重,避免刷屏

这保证了:即使模型觉得某个内容“高互动潜力”,只要触碰违规或用户明确不想看,仍然会被拦住。


六、几个特别关键的设计点(影响普通创作者最多的地方)

  1. “候选隔离”:不给大号“碾压”小号的机会

Candidate Isolation 的直接结果:

  • 你的内容不会因为跟某个超大V同批次被拿去算,而被它“比下去”[1][2]

  • 每一条帖子的得分只取决于:

    • 这条帖子本身

    • 用户 + 历史上下文

对小号/普通人来说,这是个利好:

只要你的内容对特定用户真的“对味”,就有机会被模型挑出来,而不是天然输给粉丝更大的账号。


  1. “时间 +互动质量”比单纯“点赞数”更重要

根据开源说明和分析稿,[1][2][3] 可以推断:

  • 停留时间(dwell)是重要指标:

    • 用户愿意多停留,说明内容值得看

  • 高质量讨论(回复 + 作者回应)权重极高:

    • 比“单向刷点赞”更被算法重视

  • 简单的“点赞总数”并不是唯一关键:

    • 有些“猎奇”“低质爽文”可能点赞多,但如果负向行为预测(不感兴趣、静音、举报)也高,会被算法压下去


  1. 防止“刷屏”:作者多样性打分

  • Author Diversity Scorer:如果你短时间发很多条,系统会自动给你后面那几条降权,避免一个作者占满整页[1][3]

  • 对运营含义:

    • 频繁一小时连发 10 条,不会比精心发 1~2 条更吃香

    • 平稳节奏 + 高质量内容,比高频刷屏更符合算法偏好


七、如果你是内容创作者,应该怎么“顺着算法来”?

基于开源算法的机制,可以提炼出一些实用建议(不是“钻漏洞”,而是顺应系统设计)[1][2][3]:

  1. 写能让人“停下来看”的内容

  • 前几句就要把“好奇点”抛出来,提高停留时间(dwell)

  • 段落清晰,易读易扫,降低用户退出概率

  1. 把评论区经营好

  • 主动回复评论非常关键:

    • 算法对“作者回应互动”的权重远大于单纯点赞

  • 提出值得讨论的问题,引导用户互相交流

  1. 不要刷频率,而要刷“质量”

  • 避免一分钟连发多条“碎片垃圾内容”

  • 每条内容都当成单独作品打磨

  • “作者多样性”策略保障了:

    • 你刷十条,不如认真发两条

  1. 少做让人“想静音/拉黑”的事

  • 标题党、恶意撕逼、机械刷屏:

    • 会提升 not_interested / mute / block / report 这些负向行为预测 → 长期伤账号权重

  • 外链引流要谨慎:

    • 部分分析提到“正文外链容易被惩罚”,从机制看也符合“平台倾向留存用户”的逻辑(虽然权重细节未完全公开)


八、这次开源相对旧版(2023 年 Twitter the-algorithm)的变化

对比 2023 年 Twitter 开源的老算法,这次的不同点可以归纳为:

  1. 架构大改:

    1. 老版:传统机器学习 + 大量手工特征(比如“蓝V加分”“社交图复杂规则”等)

    2. 新版:Grok Transformer 统一接管排序,大部分特征、规则退居二线[1][3][4]

  2. 更多依赖模型自动学习:

    1. 减少人工写死的权重与规则

    2. 改为模型端多任务预测,多行为加权

  3. 透明度更高 + 承诺持续更新:

    1. 官方声明:每 4 周更新一次开源版本,并附开发者注释[3]


九、总结版本

  • X 现在的推荐算法本质上是:

“一个用 Grok 大模型驱动的超级推荐系统,它会根据你过去在 X 上的各种操作,预测你对每一条候选内容可能做出的 15 种行为(点赞、回复、转发、拉黑、举报等),然后按‘你不后悔的使用时间’来给所有帖子打分排序。”

  • 对普通用户:

    • 你看到的时间线更“合你胃口”,少一点纯粹为了拉时长的负面刺激内容

  • 对创作者:

    • 单靠“刷点赞”“刷频率”越来越没用

    • 真实互动、停留时间、优质讨论 才是被算法长期看好的东西

原项目链接:https://github.com/xai-org/x-algorithm

不说了,去X写帖子去了。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐