一款核心代码仅 3300 行、上下文始终控制在 30K tokens 以内的轻量级自进化 AI Agent——这是 2026 年开源 Agent 赛道最值得认真评估的框架之一。

一、背景:为什么需要关注 Hermes Agent?

2026 年,AI Agent 框架的竞争已经进入"自进化" vs "可控执行"两条截然不同的路线。

如果你用过 LangChain、CrewAI、AutoGPT,你会发现它们有一个共同问题:能力边界由开发者预先定义,遇到框架覆盖范围之外的任务,Agent 就会卡住或者胡编乱造。你要么自己写代码扩展,要么等待社区贡献。

Hermes Agent 的思路完全不同:让 Agent 自己学会解决新问题,并把经验沉淀下来。它由 Nous Research 团队推出,采用 MIT 开源协议,上线仅两个月 GitHub Stars 增幅超过 418%,最新版本已迭代至 v0.11.0。核心代码仅 3300 行,Agent Loop 更是只有 92 行,而作为对比的 OpenClaw 代码量约为它的 160 倍(约 53 万行)。

更重要的是,Hermes 的设计哲学围绕一个关键指标:上下文信息密度(Context Information Density)。它不追求把尽可能多的内容塞进上下文窗口,而是追求让每一条进入上下文的信息都尽可能有用。这就是为什么它的上下文窗口始终控制在 30K tokens 以内,却能完成复杂任务。

二、核心要点

2.1 安装部署:一条命令搞定,Windows 用户有三条路

Hermes Agent 的安装设计目标是"零门槛"。官方提供了国内镜像加速,中国大陆用户可以直接使用,不需要翻墙。

类 Unix / WSL2 / Linux / macOS(推荐方式)

curl -fsSL https://res1.hermesagent.org.cn/install.sh | bash

Windows PowerShell(最快体验)

irm https://res1.hermesagent.org.cn/install.ps1 | iex

执行完后关闭 PowerShell 窗口,重新打开,输入 hermes 验证。

Windows 用户的重要选择:如果你打算长期使用,强烈建议先安装 WSL2,再在 WSL2 里运行 install.sh。WSL2 方式兼容性更好,尤其在需要浏览器自动化、消息网关等高级功能时,类 Unix 环境能避免大量奇怪的问题。直接用 PowerShell 安装适合快速体验,但长期使用可能会遇到路径、编码、权限等 Windows 特有坑点。

安装后必做的三件事

hermes model      # 选择并配置大语言模型
hermes doctor    # 运行诊断,确认环境正常
hermes chat -q "你好,告诉我你当前可用的工具。"

配置大模型时,Hermes 支持 OpenRouter、Anthropic、Copilot (Codex)、自定义 OpenAI 兼容端点、本地自托管模型(Ollama / LM Studio 等)。国内用户推荐优先使用 OpenRouter,模型选择丰富且接入简单。

手动安装(完全控制)适合需要深度定制的场景:克隆仓库 → 用 uv 创建虚拟环境 → 安装依赖(可按需选择 [messaging][cron][cli][mcp] 等额外组件)→ 配置 ~/.hermes/.env → 添加到 PATH。全套流程在官方文档有详细步骤。


2.2 记忆系统:MEMORY.md + USER.md 双文件架构

Hermes 的记忆系统是它最核心的竞争力之一,而且开箱即用,零人工维护

两套记忆文件

文件 用途 字符限制 大约 token
MEMORY.md 环境事实、项目约定、经验教训、已完成任务 2,200 字符 ~800 token
USER.md 用户身份、偏好、沟通风格、技术熟练度 1,375 字符 ~500 token

两个文件均存储在 ~/.hermes/memories/ 目录下。

工作原理

记忆文件在每次会话开始时作为冻结快照注入系统提示。注意"冻结"的含义:会话期间 Agent 对记忆的修改会立即持久化到磁盘,但不会影响当前会话的上下文——要到下一次会话开始时,更新后的记忆才会生效。这个设计是为了利用 LLM 的前缀缓存(prefix caching)来提升性能。

Agent 通过 memory 工具自我管理记忆,支持三种操作:

  • add:添加新记忆条目

  • replace:用新内容替换已有条目(通过子字符串匹配,不需要完整文本)

  • remove:删除不再相关的条目

    没有 read 操作——因为记忆内容在会话开始时已经注入上下文,Agent 始终"知道"自己记住了什么。

    应该记住什么

    Agent 会自动判断,但作为用户你也可以主动引导。值得记住的内容包括:

  • 环境事实(操作系统版本、已安装工具、服务器地址)

  • 用户偏好(“我更喜欢 TypeScript 而不是 JavaScript”)

  • 项目约定(代码风格、命名规范、测试方法)

  • 修正信息(“不要对 Docker 命令使用 sudo”)

  • 经验教训(某个特定错误的解决方案)

    不值得记住的内容:琐碎的一问一答、容易通过网络搜索重新发现的事实、临时文件路径等一次性信息。

    记忆满了怎么办?

    当使用率超过 80%,Agent 会主动合并相关条目,把多条旧记忆压缩成一条信息密度更高的记忆,然后添加新内容。这个过程是自动的,不需要用户干预。

    外部记忆提供者

    除了内置的双文件记忆,Hermes 还内置了 8 个外部记忆提供者插件:Honcho、OpenViking、Mem0、Hindsight、Holographic、RetainDB、ByteRover、Supermemory。它们与内置记忆并行运行,提供知识图谱、语义搜索、自动事实提取等增强能力。配置命令:

hermes memory setup    # 选择并配置一个 provider
hermes memory status   # 检查当前激活的配置

会话搜索

这是记忆系统的补充能力。所有 CLI 和消息会话都存储在 ~/.hermes/state.db(SQLite 数据库),启用 FTS5 全文搜索。当 Agent 需要找回几周前的对话内容时,可以用 session_search 工具搜索历史会话,由 Gemini Flash 提供摘要。这相当于给 Agent 配备了"几乎无限的历史回忆能力",但只在需要时才消耗 token。


2.3 Skills 与自动进化:越用越聪明的核心机制

这是 Hermes 与几乎所有其他 Agent 框架最本质的区别。

传统框架的问题:Skills(技能)由开发者预先编写,Agent 只能使用已有的技能。遇到新任务,要么开发者手动写新技能,要么 Agent 在没有任何经验沉淀的情况下临时拼凑解决方案。

Hermes 的方案:Agent 在完成复杂任务、修复错误后,会自动调用 skill_manage 工具生成标准技能文档,把成功的经验固化下来。下次遇到类似任务,Agent 可以直接调用之前生成的技能,而不需要重新"思考"。

这个过程是完全自动的,不需要用户要求。你只需要正常使用 Hermes,它会自己在后台学习。

技能自动优化的 patch 机制

更强大的是,Hermes 在使用已有技能的过程中,如果发现技能有缺陷或者可以改进,会通过 patch 动作直接修改技能文件。这意味着技能库不仅会在"数量"上增长,还会在"质量"上持续进化。

对比:OpenClaw 的技能生态

OpenClaw 的技能生态更成熟、数量更丰富,但所有技能都需要人工编写或从社区下载,OpenClaw 自身不具备生成或优化技能的能力。这对于喜欢"完全可控"的用户可能是优点,但对于希望 Agent 能够自主成长的场景,Hermes 的路线显然更符合预期。


2.4 渠道接入:把 Hermes 接入你的数字生活

Hermes 不仅仅是一个命令行工具,它支持通过**网关(Gateway)**接入多种消息平台,让你可以通过微信、Telegram、Discord、WhatsApp 等渠道与 Agent 交互。

配置命令

hermes gateway setup   # 交互式配置消息平台

支持的平台(部分需要额外依赖):

  • Telegram(需要 .[messaging] 组件)

  • Discord(需要 .[messaging] 组件)

  • WhatsApp(需要 Node.js 依赖和浏览器自动化)

  • Signal(需要 .[messaging] 组件)

  • 以及通过 MCP(Model Context Protocol)接入更多平台

    渠道接入的关键设计

    Hermes 的网关设计有一个重要理念:人在决策链中心。对于危险操作(删除文件、发送消息、执行系统命令等),Agent 会先请求用户批准,而不会自主执行。这个审批系统支持三种模式:

# config.yaml
approvals:
  mode: manual   # 所有危险操作需手动审批
  # mode: smart   # 用 LLM 评估风险,低风险自动批准
  # mode: off     # 跳过审批(不推荐)

smart 模式是一个很好的平衡点:让 Agent 自主处理低风险任务,同时保留对高风险操作的把关。


2.5 Dashboard 与第三方 Web UI

Hermes 提供了 Dashboard,可以通过网页界面与 Agent 交互,而不仅仅是命令行。

启动 Dashboard

安装完成后,可以通过相应命令启动 Web 界面(具体命令参考官方文档,不同版本可能有差异)。

第三方网页 UI 的配置允许你使用社区开发的 Web 界面来替代或增强默认 Dashboard。这给了用户很大的定制空间——如果你懂前端开发,完全可以自己写一个符合你审美和使用习惯的界面。

配置第三方 UI 主要涉及修改 config.yaml 中的相关段落,指定静态文件路径或代理地址。


2.6 安全机制:默认完备,开箱即用

Hermes 的安全设计哲学是"默认安全",而不是"灵活但需手动配置"。

内置安全特性

  • 危险命令审批:执行高风险命令前需用户确认

  • 安全沙盒:支持 Docker 后端,实现完全隔离的执行环境

  • 上下文扫描:防止提示注入和数据外泄

  • 检查点(Checkpoints):文件系统快照,支持回滚

  • 密钥脱敏:自动检测并隐藏 API 密钥等敏感信息

  • 网站黑名单:阻止 Agent 访问内部或危险网址

    对比 OpenClaw:OpenClaw 本身不默认提供安全沙盒,权限边界和操作限制需要用户自行配置。这对于有经验的开发者来说意味着更大的灵活性,但也意味着更高的上手门槛和更多的配置工作量。

    终端后端选择

    Hermes 支持多种终端后端,安全性各不相同:

terminal:
  backend: local    # 本地执行,无隔离(默认)
  # backend: docker  # Docker 容器隔离,推荐用于不可信任务
  # backend: ssh     # 远程服务器执行
  # backend: modal   # Modal 云沙箱,完全隔离

如果你担心 Agent 执行危险命令,切换到 dockermodal 后端是最简单的解决方案。


三、补充扩展

3.1 Hermes vs OpenClaw:选型决策指南

这两款框架经常被放在一起比较,但它们的设计哲学和目标用户其实有本质区别。

维度 Hermes Agent OpenClaw
核心定位 自进化智能体,越用越聪明 多渠道个人助理操作系统
记忆系统 原生自动,零人工维护 文件驱动,需手动维护
技能扩展 自动生成 + 自动优化 人工编写 / 社区下载
安全机制 默认完备,开箱即用 需自行配置
定时任务 原生内置 Cron 需安装额外技能
生态成熟度 较新,正在快速成长 成熟,技能数量丰富
代码量 ~3300 行(核心) ~53 万行
上下文策略 高密度,<30K tokens 取决于模型和配置
适合人群 希望 Agent 自主成长的用户 追求完全可控的硬核玩家

选型建议

  • 如果你想要一个"越用越懂你"的长期 AI 伙伴,不想花时间手动维护技能和记忆 → 选 Hermes
  • 如果你需要大量现成技能快速落地,且你擅长配置和定制 → 选 OpenClaw
  • 如果你两者都想用:Hermes 作为指挥中心(记忆沉淀、任务规划、技能生成),OpenClaw 作为执行端(利用其丰富技能完成具体操作),两者并非对立关系,可以互补协作。

3.2 上下文压缩:解决长会话的token焦虑

Hermes 内置了上下文压缩引擎,当会话长度达到阈值时自动触发。这是它能在资源受限环境下稳定运行的关键。

compression:
  enabled: true
  threshold: 0.50           # 上下文使用率达到 50% 时触发压缩
  target_ratio: 0.20        # 压缩后保留最近消息的 20%
  protect_last_n: 20        # 但至少保留最近 20 条消息
  summary_model: "google/gemini-3-flash-preview"  # 用于生成摘要的模型

压缩过程会用 LLM 对较早的消息生成摘要,然后只保留摘要和最近的原始消息。这既控制了 token 消耗,又保留了关键上下文。

3.3 部署方式全解析

除了本地安装,Hermes 还支持多种部署方式:

  • Docker 部署:完全隔离,适合生产环境

  • VPS 部署:在云服务器上运行,24 小时在线

  • 阿里云计算巢部署:国内用户友好,0 代码一键部署

  • Modal / Daytona:云沙箱模式,按需使用

    Windows 用户通过 WSL2 部署是最平衡的方案:既有 Linux 的兼容性,又不需要额外的云服务器费用。


四、深度解读:Hermes 的设计哲学为什么重要?

在 2026 年这个时间节点回看 AI Agent 的发展路径,你会发现一个有趣的现象:

路线 A(绝大多数框架的选择):尽可能多地把功能塞进框架,让 Agent 能应对更多场景。结果是框架越来越重,上下文越来越长,token 消耗越来越高,但面对框架未覆盖的新场景时,Agent 依然无能为力。

路线 B(Hermes 的选择):保持框架精简,但让 Agent 具备"自我扩展"的能力。框架本身只提供基础能力(执行命令、读写文件、调用 API 等),所有高级能力都由 Agent 在使用过程中自主习得。

这两种路线的本质区别是:路线 A 试图让开发者预先解决所有问题,路线 B 让 Agent 在使用过程中自己解决新问题。

从长远来看,路线 B 显然更具扩展性。因为一个活跃的开发者团队能覆盖的场景,永远赶不上真实世界问题的多样性。而一个能够自主学习的 Agent,理论上可以不断扩展自己的能力边界,直到覆盖几乎所有用户遇到的实际问题。

当然,路线 B 也有其挑战:自动生成的技能质量如何保证?Agent 会不会"学错"?这需要有完善的技能和记忆质量管控机制。从目前的实践来看,Hermes 通过 patch 机制和记忆合并策略在一定程度上缓解了这些问题,但距离完美还有距离。

另外值得思考的是上下文信息密度这个设计指标。大多数框架在优化时关注的是"怎么在 200K tokens 的窗口里塞进更多有用信息",而 Hermes 关注的是"怎么让 30K tokens 的窗口达到别人 200K 的效果"。这两种思路导致了完全不同的架构决策,也导致了两者在资源消耗上的巨大差异。


五、总结

Hermes Agent 在 2026 年的 AI Agent 版图中占据了一个独特位置:轻量级架构 + 自进化能力 + 开箱即用的完整体验

核心收获

  1. 安装极简,一条命令完成,国内用户有镜像加速

  2. 记忆系统双层架构(内置 + 外部 Provider),零人工维护

  3. Skills 自动生成与优化,真正意义上"越用越聪明"

  4. 安全机制默认完备,不需要繁琐配置

  5. 与 OpenClaw 并非二选一,可以互补协作

    行动建议

  • 如果你还没用过 Hermes,用 curl -fsSL https://res1.hermesagent.org.cn/install.sh | bash 安装一个试试,17 分钟的视频讲解可以帮助你快速上手
  • 如果你正在选型 AI Agent 框架,先想清楚你想要"自主进化"还是"完全可控",再决定选 Hermes 还是 OpenClaw
  • 如果你已经在使用 OpenClaw,可以尝试把 Hermes 接进来作为"学习引擎",让它帮你生成和优化技能,再导入到 OpenClaw 中使用

参考资料:Hermes Agent 中文社区文档、阿里云开发者社区、腾讯云开发者社区、知乎相关技术文章。本文融合多源信息撰写,力求客观准确,如有谬误欢迎指正。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐