我让AI的记忆系统“抄袭”了你的CPU，效果拔群

越常用的数据，离LLM越近；越不常用的，甩得越远——就像你的CPU做的那样。我这个项目叫Gliding Horse（流马），用Rust写的，上面说的全部已经实现。关于我为什么选择JSON-LD做数据总线（而不是Markdown），之前写过一篇文章，可以去翻翻。今天这篇是“CPU缓存抄袭指南”，希望对你有启发。

doiito（Do It Together）

192人浏览 · 2026-06-07 21:17:43

doiito（Do It Together） · 2026-06-07 21:17:43 发布

我让AI的记忆系统“抄袭”了你的CPU，效果拔群

你有没有想过一个问题：为什么你的电脑开了100个Chrome标签页还不崩，但AI聊了50轮就开始“失忆”？

答案藏在你电脑的CPU里——缓存架构。

于是，我做了一个“违背祖宗的决定”：让我的AI Agent的记忆系统，全面抄袭CPU的L1/L2/L3缓存设计。

结果出乎意料地好。今天就用人话聊聊，为什么CPU的缓存架构是AI记忆系统的最佳范本，以及我是怎么抄的。

一、先看CPU是怎么解决“失忆”问题的

CPU的速度是内存的100倍。如果CPU每次都直接访问内存，高性能就是个笑话。

于是工程师们发明了多级缓存：

L1 Cache：极小（几十KB），极快（1纳秒），放CPU正在用的数据
L2 Cache：稍大（几百KB），稍慢（5纳秒），放最近用过的数据
L3 Cache：更大（几MB），更慢（20纳秒），放多核共享的数据
内存：巨大（几十GB），慢（100纳秒），放所有数据

核心哲学：越常用的数据，离CPU越近；越不常用的，甩得越远。 这套机制让CPU感觉自己在操作无限大的超高速内存。

那AI Agent不也一样吗？

LLM的上下文窗口 ≈ CPU的L1 Cache（容量极小，但速度极快——因为Token直接喂给LLM）
当前任务的活跃数据 ≈ L2 Cache
历史知识库 ≈ 内存/磁盘

所以，Agent的“失忆症”，本质上就是缓存没设计好。

二、我抄了CPU的“四级记忆系统”

我的Agent操作系统里，记忆被分成了四层：

L1 → LLM上下文窗口（只装摘要和关键引用，类比CPU寄存器/L1）
L2 → 内存黑板（Oxigraph图数据库，共享工作区，类比CPU L2/L3）
L3 → 投影引擎（按需从知识库“搬”数据到L2，类比CPU的MMU换页）
L0 → 持久化知识库（硬盘，类比内存/磁盘）

具体怎么抄的？

L1：给LLM“截肢式减肥”

CPU的L1只存最紧急的数据。我也一样：

每次LLM回复后，系统自动提取一个 Summary（摘要），只把摘要存进L1上下文
完整的推理过程（thought）和正式回答（content）直接扔进L0（硬盘）
LLM下次对话时，上下文里只有几十条摘要，而不是几百KB的聊天记录

结果：聊了50轮，LLM上下文里只多了50条摘要（每条十几Token），Token消耗从O(n)变成了O(1)。

那LLM突然想查某次讨论的细节怎么办？它直接用内置工具查L0图数据库——相当于CPU的“缺页中断”，按需加载。

L2：给多Agent安了个“共享白板”

CPU的L3 Cache是多核共享的。我的L2也一样：

所有Agent读写同一个内存图数据库（Oxigraph）
Agent A写“任务完成”，Agent B秒读到
写完数据自动通知其他Agent——用的是类MESI协议（没错，就是CPU里那个缓存一致性协议）

这样，多Agent协作时再也不会出现“A说做完了，B说没做”的冲突了。

L3：抄CPU的MMU（内存管理单元）

CPU的MMU负责把虚拟内存地址映射到物理内存，需要时换页。

我的L3就是图数据的MMU：

Agent说“我要查那条JWT认证的Skill”
L3自动把那个Skill的完整定义从L0“换页”到L2
如果L2满了，就根据LRU（最近最少使用）淘汰不活跃的数据

Agent感觉自己拥有无限记忆，实际上背后是L3在疯狂换页。

三、这套设计解决了哪些痛点？

痛点	传统Agent	我的CPU式设计
多轮对话失忆	依赖全量上下文，Token爆炸	摘要 + IRI引用，按需查图
多Agent协作冲突	各自为政，状态不一致	MESI协议保证全局一致
知识库膨胀	所有Skill一次性加载，浪费Token	按需加载，只拿需要的
历史查证困难	翻聊天记录，靠感觉	每个结论都有IRI，图数据库瞬间追溯

四、收益到底有多大？

说人话的版本：

Token消耗暴降90%以上：长对话时，上下文不再随着历史膨胀
Agent永远不“失忆”：想查什么，L0图数据库里秒取
多Agent协作不出乱子：MESI协议保证一致性
系统能跑数周不崩：L3自动换页，L2自动淘汰

这套设计的本质，是把AI的记忆管理从“草稿纸”升级成了“企业级数据库”。

五、我为什么要“抄袭”CPU？

CPU的缓存架构，是过去40年计算机体系结构最伟大的发明之一。

它经过了千锤百炼，被证明是管理“速度 vs 容量”矛盾的最优解。

AI Agent面临的问题——上下文窗口小但要求记忆无限大，推理速度快但数据检索慢——和CPU面临的“寄存器快但内存慢”几乎一模一样。

所以这不是“借鉴”，这是“移植”。 把人类在计算硬件上积累了几十年的智慧，原封不动地搬到AI的记忆系统里。

六、最后说句人话

如果你也在做AI Agent，或者对记忆管理感兴趣，记住一句话：

“越常用的数据，离LLM越近；越不常用的，甩得越远——就像你的CPU做的那样。”

我这个项目叫 Gliding Horse（流马），用Rust写的，上面说的全部已经实现。感兴趣的话可以来GitHub看看：https://github.com/doiito/gliding_horse

关于我为什么选择JSON-LD做数据总线（而不是Markdown），之前写过一篇文章，可以去翻翻。今天这篇是“CPU缓存抄袭指南”，希望对你有启发。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

我选了 Oxigraph 做 AI 的大脑，然后整个系统开挂了

2048 AI社区

26K Star！NotebookLM 开源平替来了：本地 AI + 数据自主，5 分钟跑起来。

2048 AI社区

Typora插件开发指南：打造专属IDE式写作环境

**从编辑器到“写作IDE”的愿景**：将Typora从一个优秀的Markdown编辑器，升级为集写作、管理、发布于一体的个性化工作台。- **了解Typora插件架构**：核心文件（`plugin.json`, `main.js`）、生命周期与API边界。- **操作文档内容**：读取、修改、插入Markdown与HTML。## 8. 从插件到生态：创意拓展方向 - **与外部工具链集成**：G