对马斯克开源的 X（原 Twitter）推荐算法的系统性梳理

X开源了「ForYou」推荐系统核心算法，采用Grok大模型取代传统人工规则。系统由HomeMixer调度中心、Thunder关注圈引擎和Phoenix推荐模型组成，通过双塔模型检索候选内容，再用Grok Transformer预测15种用户行为进行排序。创新性地采用候选隔离设计，避免大V内容压制小号。算法更重视停留时间和高质量互动，过滤机制确保内容合规性。相比2023年老版本，新版完全依赖大模型

leovum

696人浏览 · 2026-01-29 14:55:00

leovum · 2026-01-29 14:55:00 发布

（文末放置原项目链接）

一、这次开源的到底是什么？

二、总体思路：用大模型接管推荐，而不是“人工调规则”

传统做法 vs X 新算法

三、整体架构：Thunder + Phoenix + Home Mixer

Home Mixer：总调度中心

Thunder（雷霆）：关注圈内容引擎

Phoenix（凤凰）：全站发现 + 智能排序核心

阶段 A：检索（Retrieval / Two-Tower）

阶段 B：排序（Ranking / Grok Transformer + 候选隔离）

四、算法实际在“预测什么”？——15 种行为

五、过滤规则：算法不是“啥都推”

评分前过滤（Pre-Scoring）

评分后过滤（Post-Selection）

六、几个特别关键的设计点（影响普通创作者最多的地方）

“候选隔离”：不给大号“碾压”小号的机会

“时间 +互动质量”比单纯“点赞数”更重要

防止“刷屏”：作者多样性打分

七、如果你是内容创作者，应该怎么“顺着算法来”？

八、这次开源相对旧版（2023 年 Twitter the-algorithm）的变化

九、总结版本

一、这次开源的到底是什么？

开源的主要是 X 上「For You / 为你推荐」信息流的核心推荐系统，包括：

整体架构和主要服务的代码仓库：xai-org/x-algorithm（Apache 2.0 许可）[1]
核心推荐模型 Phoenix（基于 xAI 的 Grok Transformer）[1][2]
信息流全流程：从候选召回 → 特征补充 → 过滤 → 打分排序 → 最终展示[1][3]

一句话概括：

X 把“给你推荐什么内容”这件事，几乎完全交给一个 Grok 大模型来决定，并把这整套算法公开给了所有人看。

二、总体思路：用大模型接管推荐，而不是“人工调规则”

传统做法 vs X 新算法

传统社交平台推荐：
- 一堆「手工规则」+ 各种打补丁的特征工程，例如：
  - 新号加权、某些话题加分、外链减分……
- 算法是“工程师手写规则 + 一点机器学习”
X 新算法（2026 版）：
- 几乎不再手工设计特征和规则
- 把绝大多数决策交给一个 Grok-based Transformer 模型来学
- 工程层面做的事情主要是：
  - 把候选内容找出来
  - 清洗无效、违规、重复内容
  - 把数据喂给模型，让模型自己算“你会怎么互动”

核心理念：

“不用人拍脑袋写规则，让模型自己学：什么内容对你有吸引力，什么内容让你反感。”[1][3]

三、整体架构：Thunder + Phoenix + Home Mixer

从工程视角，可以理解为三大块：

Home Mixer：总调度中心

负责处理你打开「For You」时的一次请求：
- 读取用户信息、历史行为
- 向各个“候选源”要帖子（关注的人 + 全站发现）
- 做特征补充、过滤
- 把候选交给 Phoenix 模型打分
- 挑出 Top-K 条返回给你

可以把它理解为这次开源项目的“总导演”。

Thunder（雷霆）：关注圈内容引擎

职责：负责“你关注的人”发了什么[1][3]
技术特点：
- 实时从 Kafka 流里消费“发帖/删帖”事件
- 在内存中维护每个用户最近看到的：
  - 原创
  - 回复
  - 转发
  - 视频帖等
- 查询延迟是亚毫秒级，非常快
作用：
- 当你刷新「For You」，Thunder 会给出：“你关注的人最近发了这些，可能值得看”

可以把 Thunder 理解为一个“高速缓存你的关注圈内容的数据库”。

Phoenix（凤凰）：全站发现 + 智能排序核心

Phoenix 是整套系统的 AI 大脑，包含两个阶段[1][2][3]：

阶段 A：检索（Retrieval / Two-Tower）

问题：全网有海量帖子，不可能都拿来详细算，必须先粗筛一批“可能相关”的”。
做法：双塔模型（Two-Tower）：
- 用户塔（User Tower）：把你这个用户（兴趣 + 历史行为）编码成一个向量
- 候选塔（Candidate Tower）：把所有帖子编码成向量
- 用向量点积相似度找出最接近你兴趣的 Top-K 帖子
输出：从“全网”里圈出一小撮“你大概会感兴趣”的候选

这一步类似：“在图书馆里先找出可能是你感兴趣的那几排书架”。

阶段 B：排序（Ranking / Grok Transformer + 候选隔离）

输入：
- 你这个人（用户 embedding）
- 你近期看过、点过、评论过的历史（History）
- 检索到的候选帖子（Candidates）
模型结构：
- Grok 同源 Transformer 架构，专门为推荐任务适配[2]
- 关键设计：Candidate Isolation（候选隔离）：
  - 每个候选帖子：
    - 可以“看”你的信息 + 你的历史行为
    - 但看不到同批次的其他帖子
  - 好处：
    - 每一条帖子的评分不受同批其他帖子的影响（防止“大V 帖子把小号稀释掉”）
    - 分数稳定、可缓存，工程上也更高效[1][2][3]

这一步类似：“每一条帖子单独跟你面试，不是几百条一起群面互相挤。”

四、算法实际在“预测什么”？——15 种行为

Phoenix 模型不是简单预测“你会不会点赞”，而是一次性预测一整套行为概率，包括但不限于[1][2][3]：

正向行为：
- 点赞（like / favorite）
- 回复（reply）
- 转发（repost）
- 引用转发（quote）
- 点进帖子 / 点击（click）
- 点进作者主页（profile_click）
- 视频观看（video_view）
- 图片展开（photo_expand）
- 分享（share）
- 停留时间（dwell）
- 关注作者（follow_author）
负向行为：
- 不感兴趣（not_interested）
- 屏蔽作者（block_author）
- 静音作者（mute_author）
- 举报（report）

然后用一个线性公式：

最终分数 = Σ（每种行为的预测概率 × 该行为的权重）[1][3]

正向行为 → 正权重（加分）
负向行为 → 负权重（扣分）
特别提到：
- “作者回复评论”这一类互动的权重非常高，大约是点赞的几十倍级别（报道提到约 75 倍量级）[3]

所以，算法实质是在算：

“如果把这条内容推给你，你有多大概率会：

认真看、

点赞、

讨论、

分享，

以及，有多大概率会：

觉得烦、

点‘不感兴趣’、

屏蔽/举报？”

然后综合这些，来决定这条内容值不值得在你时间线上占一个位置。

五、过滤规则：算法不是“啥都推”

推荐前后都有一堆“安全阀”：

评分前过滤（Pre-Scoring）

在进大模型打分前先过滤掉明显不该进来的东西[1][3]：

去重：同一条内容不反复推给你
过旧内容：太老的帖子丢掉
自己的内容 / 自己转发的内容：一般不再推荐给自己
被屏蔽 / 静音的作者：直接剔除
被设置为不符合订阅权限的内容：没资格看的直接过滤
关键词静音：你屏蔽的关键词相关内容，剔除

评分后过滤（Post-Selection）

打完分、选出 Top-K 之后，再做一步“安全 & 体验优化”[1][3]：

删除已标记为垃圾、暴力等违规内容
同一讨论串内部多条内容去重，避免刷屏

这保证了：即使模型觉得某个内容“高互动潜力”，只要触碰违规或用户明确不想看，仍然会被拦住。

六、几个特别关键的设计点（影响普通创作者最多的地方）

“候选隔离”：不给大号“碾压”小号的机会

Candidate Isolation 的直接结果：

你的内容不会因为跟某个超大V同批次被拿去算，而被它“比下去”[1][2]
每一条帖子的得分只取决于：
- 这条帖子本身
- 用户 + 历史上下文

对小号/普通人来说，这是个利好：

只要你的内容对特定用户真的“对味”，就有机会被模型挑出来，而不是天然输给粉丝更大的账号。

“时间 +互动质量”比单纯“点赞数”更重要

根据开源说明和分析稿，[1][2][3] 可以推断：

停留时间（dwell）是重要指标：
- 用户愿意多停留，说明内容值得看
高质量讨论（回复 + 作者回应）权重极高：
- 比“单向刷点赞”更被算法重视
简单的“点赞总数”并不是唯一关键：
- 有些“猎奇”“低质爽文”可能点赞多，但如果负向行为预测（不感兴趣、静音、举报）也高，会被算法压下去

防止“刷屏”：作者多样性打分

Author Diversity Scorer：如果你短时间发很多条，系统会自动给你后面那几条降权，避免一个作者占满整页[1][3]
对运营含义：
- 频繁一小时连发 10 条，不会比精心发 1~2 条更吃香
- 平稳节奏 + 高质量内容，比高频刷屏更符合算法偏好

七、如果你是内容创作者，应该怎么“顺着算法来”？

基于开源算法的机制，可以提炼出一些实用建议（不是“钻漏洞”，而是顺应系统设计）[1][2][3]：

写能让人“停下来看”的内容

前几句就要把“好奇点”抛出来，提高停留时间（dwell）
段落清晰，易读易扫，降低用户退出概率

把评论区经营好

主动回复评论非常关键：
- 算法对“作者回应互动”的权重远大于单纯点赞
提出值得讨论的问题，引导用户互相交流

不要刷频率，而要刷“质量”

避免一分钟连发多条“碎片垃圾内容”
每条内容都当成单独作品打磨
“作者多样性”策略保障了：
- 你刷十条，不如认真发两条

少做让人“想静音/拉黑”的事

标题党、恶意撕逼、机械刷屏：
- 会提升 not_interested / mute / block / report 这些负向行为预测 → 长期伤账号权重
外链引流要谨慎：
- 部分分析提到“正文外链容易被惩罚”，从机制看也符合“平台倾向留存用户”的逻辑（虽然权重细节未完全公开）

八、这次开源相对旧版（2023 年 Twitter the-algorithm）的变化

对比 2023 年 Twitter 开源的老算法，这次的不同点可以归纳为：

架构大改：
1. 老版：传统机器学习 + 大量手工特征（比如“蓝V加分”“社交图复杂规则”等）
2. 新版：Grok Transformer 统一接管排序，大部分特征、规则退居二线[1][3][4]
更多依赖模型自动学习：
1. 减少人工写死的权重与规则
2. 改为模型端多任务预测，多行为加权
透明度更高 + 承诺持续更新：
1. 官方声明：每 4 周更新一次开源版本，并附开发者注释[3]

九、总结版本

X 现在的推荐算法本质上是：

“一个用 Grok 大模型驱动的超级推荐系统，它会根据你过去在 X 上的各种操作，预测你对每一条候选内容可能做出的 15 种行为（点赞、回复、转发、拉黑、举报等），然后按‘你不后悔的使用时间’来给所有帖子打分排序。”

对普通用户：
- 你看到的时间线更“合你胃口”，少一点纯粹为了拉时长的负面刺激内容
对创作者：
- 单靠“刷点赞”“刷频率”越来越没用
- 真实互动、停留时间、优质讨论才是被算法长期看好的东西

原项目链接：https://github.com/xai-org/x-algorithm

不说了，去X写帖子去了。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Gemini认证：AI职业发展的黄金通行证

Gemini认证是AI领域的重要专业资质，涵盖机器学习、自然语言处理等核心技术，主要面向开发者与数据科学家。该认证通过验证专业技能提升职业竞争力，获得企业广泛认可，可助力薪资增长与职位晋升。备考需重点掌握深度学习框架与AI伦理规范，推荐结合官方教材与实践项目。认证与AI产品经理等新兴岗位高度契合，并具有国际就业优势。随着技术迭代，认证内容将持续更新，在医疗、金融等垂直领域应用前景广阔，是AI从业者

2048 AI社区

【AI测试全栈：质量】45、Kubernetes云原生AI服务测试全实战：从容器化到多租户隔离（附Kind集群实操+踩坑指南）

云原生AI服务测试实战指南本文针对Kubernetes环境下AI服务的特殊需求，提供了一套完整的测试方法论和实操指南。文章首先分析了云原生AI服务的核心架构，重点突出了GPU适配、模型持久化、推理性能等关键测试维度。随后详细介绍了五大核心测试模块：容器化测试、资源调度测试、弹性伸缩测试、服务网格测试和多租户隔离测试。测试方案基于Kind本地集群，整合了Docker、Helm等云原生工具链，并特

2048 AI社区

存储系统核心技术全解析

本文系统梳理了存储技术体系，从基础架构到前沿趋势：1）硬件层面分析HDD/SSD/NVM介质特性及SATA/NVMe协议差异；2）软件层面详解文件系统结构、日志恢复及缓存优化策略；3）分布式场景探讨CAP理论与RAID/纠删码技术；4）前瞻方向包括SCM内存、存算一体架构和量子存储研究。通过多层次技术解析，呈现了存储系统设计中的性能、可靠性与成本平衡机制。