Vibe Coding - 从 “聪明的 Mahesh” 到 “靠谱的 Barry”:Anthropic Skills 如何重塑 AI Agent 的专业能力
主要介绍 Anthropic 提出的 Skills 概念,如何让 AI Agent 从“聪明但不懂业务”进化为“可积累经验的专业助手”
文章目录

一、问题背景:为什么聪明的 Agent 仍然“不专业”
过去两年,很多团队已经把 AI Agent 深度融入日常工作:写代码、做报表、查资料、起草合同,几乎无所不包。 但真实体验往往是——能用,却远谈不上“放心托付”。
一个非常形象的类比来说明这个痛点:
- Mahesh:智商 300 的数学天才,推理能力超强,但对现实税法完全陌生。
- Barry:经验丰富的税务专家,不一定会证明定理,却能在真实业务中游刃有余。
如果把 AI Agent 类比成 Mahesh,它有三大致命短板:
- 无法高效吸收你的专业经验(行业 know-how 很难被沉淀和复用)。
- 无法随时间自我进化(今天教的东西,明天还要从头说一遍)。
- 起步阶段缺乏关键背景信息(不懂你公司流程、不懂你项目上下文)。
Skills 的使命,就是把一个“聪明但缺经验的 Mahesh”,进化成“懂你业务、可持续进步的 Barry”。
https://www.youtube.com/watch?v=CEvIs9y1uog
二、核心理念:为什么是“代码 + 文件夹”
Anthropic 在打造 Claude Code 和 Skills 的过程中,总结出三个关键认知转变,这是理解整个体系设计的基础。
1. 认知一:代码即一切
传统做 Agent 的思路是:
不同领域 = 不同 Agent 架构 + 不同工具链 + 不同脚手架。
但在 Claude Code 的实践中,Anthropic 发现了一个更“极简”的事实:
- 绝大多数数字任务的共性是:操作文件系统 + 调用程序/脚本 + 调用 API。
- 底层只要提供:一个 Bash 环境 + 一个可读写的文件系统,就足以支撑大量复杂任务的编排。
例如“生成财务报告”这个看上去很业务化的任务,本质可以拆成四步:
- 调用 API 抓取数据
- 在文件系统里整理原始资料
- 用 Python 分析数据
- 合成特定格式的报告(比如 PPT/Excel)
不再需要为“财务 Agent”“运营 Agent”“法务 Agent”设计截然不同的底层架构,只需要一个通用的代码执行环境,再把领域经验封装在可复用的“技能包”中即可。
2. 认知二:文件是最佳协作单元
Anthropic 对 Skills 的本质给出的定义非常朴素:
Skills = 文件的有序集合 = 一个个结构化的文件夹。
看上去“原始”,但这背后是三条非常现实的设计原则。
- 普适性:任何会用电脑的人都能理解“文件夹”的概念,开发者可以用,AI 也能用,不引入额外认知负担。
- 兼容性:天然融入现有工具链——用 Git 做版本管理,放在 Google Drive 共享,压缩后发给其他团队,都不需要新基础设施。
- 永恒性:几十年软件工程的实践已经证明文件是稳定的协作单位,这种抽象不会轻易过时。
对开发者来说,一个 Skill 更像是:
“一个可以被模型理解和调用的 repo / 目录”,里边装的是过程性知识而不是静态文档。
3. 认知三:代码胜过传统“工具定义”
传统工具调用设计(例如 JSON 的工具 schema)有四个典型问题:
- 指令容易含糊,边界定义不清。
- 无法自我修改,一旦不适配场景就会“卡住”。
- 持续占用上下文,工具描述越多,token 压力越大。
- 难以表达复杂流程和业务逻辑。
而采用代码 + 文件的方式,有几大优势:
- 代码天然“自文档化”,函数名、注释、文件结构就是最好的说明书。
- 可以由 AI 或人类随时修改优化,而不是一次性写死在 prompt 里。
- 平时只是“躺在文件系统里”,需要的时候按需加载,避免挤占上下文窗口。
一个典型例子:Claude 反复写同一个 Python 脚本来调整 PPT 样式,每次都在重新构造脚本,既浪费 tokens,质量也不稳定。
现在改成:第一次写好后保存为一个 Skill,之后只需要“调用脚本”即可,大幅提升稳定性与效率。
三、Skills 是什么:一个“可执行的专业经验包”
1. Skill 的组成结构
从实现视角看,一个 Skill 本质上是一个目录,它可以包含:
- Markdown 文件(例如 SKILL.md,负责说明与指令)。
- 软件包(依赖库、环境说明)。
- 各类脚本(Python、Shell 等)。
- 可执行文件与二进制文件。
- 相关资产(模板、配置、示例数据等)。
在演进路径上,大多数 Skill 会经历两个阶段:
- 早期:只是一个简单的 Markdown 文件,几分钟即可写完,负责说明“如何完成某个流程”。
- 成熟期:逐渐演化为综合体,包含完整的脚本、配置、测试、资产等,可能需要数周甚至数月精心打磨。
这很像软件工程从“脚本小工具”逐步演变为“企业级应用”的过程。
2. 逐步披露:如何在成千上万个 Skills 中高效检索
如果给 Agent 装上了 500 个甚至几千个 Skills,一个核心挑战是:上下文窗口不够用。
Anthropic 的解决方案是“逐步披露(progressive disclosure)”策略:
- 初始状态:模型只看到所有 Skills 的“元数据”(名称、简介、标签等),大约占用 5–10K tokens。
- 当模型决定使用某个 Skill 时,再加载该 Skill 的 SKILL.md,读入核心指令和目录结构,额外占用约 1–2K tokens。
- 在执行过程中,按需加载具体脚本、模板或配置文件,用完后可从上下文中“清理”。
例如用户说:“帮我生成一份销售报告”,大致流程会是:
- Agent 浏览元数据,找到
sales_reportingSkill。 - 加载
sales_reporting/SKILL.md,理解它能做什么、需要什么输入。 - 再按需调用
generate_report.py、format_template.json等资源,完成任务后释放上下文。
这样一来,即使有成千上万个 Skills,系统依然可以保持上下文轻量、能力丰富、组合灵活。
四、统一架构:Agent Loop + Runtime + MCP + Skills
经历一年多实践,Anthropic 观察到通用 AI Agent 的架构正在收敛为四个核心组件:
-
Agent Loop(大脑)
- 负责理解用户意图、拆解任务、规划步骤。
- 决定何时调用哪些 Skills 或 MCP 工具,并管理上下文窗口。
-
运行时环境(Runtime)
- 提供代码执行能力(例如 Bash、Python)。
- 管理文件系统、进程隔离和安全策略。
-
MCP:Model Context Protocol
- 负责连接外部世界,例如 API、数据库、第三方 SaaS。
- 关注“能不能连上”“能不能调用成功”的层面。
-
Skills(知识与经验层)
- 承载领域专业知识、流程和最佳实践。
- 关注“该不该这样做”“在这个场景下怎么做更合理”。
可以把这套结构类比为:“操作系统 + 驱动 + 应用”的关系,其中:
- MCP 像“驱动层”和“连接器”,让模型看见更多外部资源。
- Skills 像“应用+脚本库”,封装了可执行的业务经验。
对于开发者而言,这种统一架构的好处是:心智模型更简单,可以在一个一致的框架内思考 Agent 能力扩展,而不是为每个垂直场景重新发明轮子。
五、Skills 生态图谱:从基础能力到企业知识库
自 Skills 发布以来,生态中已经涌现出数千个 Skills,大体可以分为三类。
1. 基础 Skills:增强大模型“底盘能力”
这类 Skills 给 Claude 增加了“系统级”能力,例如文档、表格、演示文稿处理等。
代表案例:
- Document Skills:让 Claude 能以专业水准处理 Word、PPT、Excel 等文件,理解文档结构与业务逻辑,真正像一个“高配办公助理”。
对开发者来说,这一类 Skills 更像给操作系统增加新的系统调用——
它们不局限于某一无关紧要的小功能,而是显著扩展模型的通用能力边界。
2. 第三方 Skills:为外部产品定制“AI 使用手册”
第二类是围绕特定产品/平台打造的 Skills,用来让 Claude 更“像熟练用户那样”操作这些工具。
典型示例:
-
Cadence – 科研与生物信息 Skills
- 使 Claude 能在电子病历(EHR)数据分析场景中表现远超原生模型。
- 熟练使用 Python 生物信息学库,理解科研数据处理流程。
-
Browserbase – 自动化浏览器操作 Skills
- 针对开源浏览器自动化工具 Stagehand 定制 Skills。
- 让 Claude 可以更稳健地操控浏览器进行表单填报、数据抓取、流程回放。
-
Notion – 工作空间 Skills
- 帮助 Claude 深度理解用户的 Notion 空间结构。
- 支持跨文档研究、信息整合和项目管理辅助。
这类 Skills 的价值在于:替你写“如何正确使用这些复杂工具”的说明书,并且能自动执行说明书里的步骤。
3. 企业私有 Skills:组织级“数字老员工”
第三类,也是最具想象力的,是企业为自身场景打造的私有 Skills。
常见用法包括:
- 把公司内部的最佳实践编码成 Skills,新来的 AI 也能按公司习惯办事。
- 把内部系统使用方法沉淀为流程,让 AI 像老员工一样熟悉各类后台工具。
- 在代码层面强制执行内部代码规范、Review 流程和工作流,提升工程一致性。
这样的 Skills 不只是“一个工具”,它更像是“组织记忆的一部分”,
新员工、人类或 AI,只要接入这些 Skills,就能快速共享经验红利。
六、趋势:从工程师玩具到全员可用“技能层”
Anthropic 工程师在实践中观察到了三个明显趋势。
1. 趋势一:非技术人员也在写 Skills
Skills 采用文件夹 + Markdown 的形式,门槛相对较低,因此正在吸引大量业务专家参与构建:
- 财务团队、招聘团队、会计师事务所。
- 法律顾问等专业人士。
这些人可能不擅长写复杂代码,但非常清楚“正确的业务流程是什么”。
通过 Skills,他们可以把自己的专业经验转译成 AI 可执行的流程,从而让 Agent 真正进入日常工作主战场。
2. 趋势二:Skills 与 MCP 的分工越来越清晰
很多开发者正在使用 Skills 作为“编排层”,来调度多个 MCP 工具,形成端到端工作流。
在这套范式里,职责大致分为:
- MCP:专注“能不能”,负责连上外部系统、保证调用正确执行。
- Skills:专注“该不该、怎么做”,负责业务策略和流程逻辑。
当你有 N 个 MCP 服务器和 M 个 Skills 时,可以组合出远超传统“单工具调用”的能力空间。
这使得 Agent 能在高度复杂的企业环境中保持灵活而不失可控性。
3. 趋势三:Skills 正在变得越来越复杂
从一开始几分钟写完的 Markdown,到后面包含多种资产、复杂依赖和精细测试的“能力包”,
Skills 的复杂度在迅速提升,这恰恰说明它开始承载真实业务逻辑而不仅是 demo。
复杂化带来的好处包括:
- 能够覆盖更高价值、更高风险的业务场景(例如金融、医疗)。
- 可以被组织当成“软件资产”长期维护和进化,而不是一次性脚本。
七、企业实践:从 6–12 个月到数周的垂直 AI 落地
在内部实践中,Anthropic 基于 Skills 推出了至少两个专业方案:
- 金融服务专业方案
- 生命科学专业方案
实现方式是:预装对应的 MCP 服务器和 Skills 包,让 Claude 直接以“行业专家助手”的姿态上线。
与传统“从零打造垂直 AI 产品”的路线相比,优势非常明显:
- 开发周期从 6–12 个月缩短到数周。
- 易于快速试错和迭代,业务团队可以频繁更新 Skills。
- 同一套 Skills 可以跨项目、跨子场景复用,复利效应显著。
对正在考虑“如何把大模型真正落地到本行业”的团队来说,
这提供了一条成本更低、可控性更强的路径:
先构建和积累 Skills,而不是一上来就重造一个“全新的垂直 Agent”。
八、工程视角:如何把 Skills 当“软件”来管理
想要在更大规模上使用 Skills,必须引入软件工程思维。
1. 像软件一样工程化管理 Skills
关键措施包括:
- 为 Skills 引入测试与评估机制,确保在关键场景下表现稳定。
- 提供更智能的触发逻辑,确保在正确时间激活正确 Skills。
- 建立输出质量指标体系,用量化方式持续优化。
- 强化版本控制、回滚与变更审计能力。
这意味着:Skills 不再只是“个人脚本收藏夹”,
而是作为一类正式的软件资产进入企业开发治理体系。
2. 管理 Skills 间依赖关系
随着 Skills 数量增长,一个明显课题是:依赖管理。
未来的目标是让一个 Skill 能显式依赖于:
- 其他 Skills(复用已有流程)。
- MCP 服务器(需要外部数据或操作)。
- 特定的环境包(例如特定版本的 Python 库)。
有了清晰的依赖图,Agent 在复杂环境中的行为会更可控、更精准,也更容易组合多个 Skills 来完成高级任务。
九、知识库与持续学习:从“堆信息”到“堆经验”
更长期的愿景: Skills 不只是工具,而是迈向“持续学习”与“组织知识库”的重要台阶。
1. 企业内部的能力知识库
理想状态下,企业可以构建一个由“员工 + AI”共同维护的能力知识库:
- 业务流程、操作规范、复盘经验都会沉淀为 Skills。
- 新项目可以复用旧项目的 Skills,并在此基础上增量改进。
- 每次迭代都是对知识库的小幅增强,形成长期复利。
与传统静态知识库相比,Skills 的区别在于:它不仅能被阅读,还能被直接执行。
2. Skills 是“记忆具象化”的载体
在这一框架下,“记忆”不再是模糊的 embedding,而是具体可见的文件和脚本:
- 过去:只是信息堆积(FAQ、文档、wiki)。
- 现在:针对特定任务的过程性知识(步骤、脚本、模板)。
标准化的 Skill 格式保证了一个重要性质:
“今天 Claude 为某个任务创造的经验,明天的 Claude 能够无损继承这些经验。”
这为真正意义上的“持续学习”打下了基础:
与其试图让模型在权重层面不断重训,不如让它通过持续积累 Skills 来扩展能力边界。
十、给开发者的实践启发
如果你正在搭建或改造自己的 Agent 系统,可以从以下几个方向思考如何借鉴Skills 思路
-
以“文件夹 + 代码”的形式组织流程经验
- 把常复用的脚本、模板、流程说明集中放进一个目录,并用一个 Markdown 说明其用途与调用方式。
-
设计自己的“逐步披露”机制
- 不要一股脑把所有工具说明塞进上下文;
- 先只暴露工具列表与简要说明,真正使用时再加载详细文档和脚本。
-
从基础 Skills 做起,再上升到组织知识
- 先实现一批稳固的基础能力(文档、报表、数据处理),
- 再在此之上为本组织打造“私有 Skills”(流程、规范、内网系统)。
-
尽早给 Skills 引入测试与版本管理
- 把 Skills 当作软件来维护,而不是临时脚本;
- 对重要的 Skill 增加单元测试或集成测试,配合 CI/CD 工具自动回归。
-
让业务人员参与 Skill 设计
- 技术人员负责 MCP 和 Runtime,
- 业务人员负责写清楚“正确的做事方式”,共同完成 Skills。
十一、结语:一起从“造 Agent”转向“造 Skills”
“与你共事 30 天后的 Claude,表现应当远优于第 1 天。”
要实现这一点,关键不在于无限堆大模型参数,而在于:
让 AI 拥有可复用、可积累、可共享的专业经验,并以 Skills 为载体持续进化。
从工程实践的角度看,这意味着一个范式切换:
- 少花精力在一次性、场景定制的“超级 Agent”上。
- 多把精力投入到可组合、可管理、可共享的 Skills 生态。
对于开发者、研究者和技术管理者而言, 如果你希望自己的 AI 系统真正走向“专业”“可靠”“可持续”, 那么从今天开始,把“构建 Skills”当作一等公民来设计,可能是一个更长期正确的方向。

更多推荐



所有评论(0)