在这里插入图片描述

作者:小枫
发布时间:2026年3月4日
适合人群:Claude用户、AI Agent开发者、Skill创作者、提效工具爱好者


📌 摘要

2026年3月,Anthropic对官方skill-creator进行重磅升级,将软件工程中的测试、基准评估和迭代机制引入Skill创作流程,全程无需编写代码。升级后的skill-creator支持评估机制(evals)自动验证Skill质量、多智能体并行测试、A/B对比盲测、触发器精准度优化等功能,让普通领域专家也能创建经过严格验证的高质量Skill。本文详解skill-creator新特性、两类Skill的区别、评估与基准测试用法,以及多智能体架构的实战应用。国内用户可通过weelinking中转服务稳定访问Claude,快速上手Skill创作。


📋 目录


🔴 🔴 🔴 国内丝滑使用 Claude? 👉 weelinking 大模型中转服务,全系模型支持 👈

weelinking平台首页


一、为什么skill-creator需要升级?

随着Agent技术的深入应用,编写Skill成为当下热门的实践。Anthropic在去年的实践中发现,大多数Skill的作者是垂直领域的专家,而非工程师。他们清楚自己的工作流,却缺乏工程化工具来验证这些Skill是否依然适配新模型、能否在正确的时机触发,或者在修改之后是否真有改善。

过去创建Skill更像是一种"草台班子"式的操作——写好了觉得能用就行,缺少系统性的测试和验证手段。这次升级的核心目标,就是将软件开发中严谨的测试、基准评估和迭代机制引入Skill创作过程中,且全过程不需要作者编写任何代码。

所有skill-creator的更新现已在Claude.ai和Cowork中上线,用户只需向Claude提出使用skill-creator即可开始。


二、如何安装和使用skill-creator

Claude Code用户可以安装官方插件或从代码库获取相关资源。安装非常简单:

/plugin install {plugin-name}@claude-plugin-directory

或者通过交互方式安装:

/plugin > Discover

安装完成后,就可以开始愉快地创建Skill了。

在这里插入图片描述


三、理解两类不同的Skill

在探讨测试工具之前,需要厘清Skill的两种主要类型,因为它们需要测试的原因各不相同。

3.1 能力提升型Skill

这类Skill主要帮助Claude完成基础模型做不到或表现不够稳定的任务,例如特定的文档生成模式。

随着底层模型能力的进化,这类Skill可能会变得不再必要,因此需要通过测试来判断模型是否已经掌握了这些能力。

3.2 偏好编码型Skill

这类任务Claude本身具备完成各环节的能力,但需要Skill将其按照团队特定流程进行编排,例如:

  • 按既定标准审核NDA
  • 结合多个MCP的数据起草周报

这类Skill的生命周期较长,测试的核心在于验证其是否忠实于你的实际工作流。

无论属于哪一类,引入测试都能让看起来有效的Skill,变成真正被验证有效的Skill。


四、用评估机制测试并改进Skill

更新后的skill-creator能够帮助用户建立评估机制(evals)。用户只需设定测试提示词,并描述预期的理想结果,skill-creator就会验证该Skill是否达到标准。

在这里插入图片描述

4.1 实际案例:PDF文本定位

以处理非填表类PDF为例,原先Claude难以在没有预设字段的情况下精准放置文本。Anthropic团队正是通过评估机制锁定了这个缺陷,随后发布了修复方案,改为通过提取文本坐标来锚定位置

4.2 评估机制解决的两个核心问题

问题一:捕捉质量衰退

当模型或底层基础设施发生变化时,上个月表现良好的Skill今天可能会出现异常。针对新模型运行测试,可以在影响实际工作前提供预警信号。

问题二:了解模型进展

这主要针对能力提升型Skill。如果基础模型在不加载Skill的情况下也能通过测试,说明该Skill的技术方法可能已经被吸收进了模型的默认行为中。这不代表Skill坏了,只是不再被需要。

4.3 基准评估模式

除评估机制外,Anthropic还加入了基准评估模式。这是一种标准化评估流程,适合在模型更新或Skill迭代后运行,它会系统追踪:

追踪指标 说明
测试通过率 验证Skill功能是否正常
运行耗时 监控性能变化
Token用量 控制成本开销

这些测试和结果数据归用户所有,支持本地存储,也可接入仪表盘或持续集成(CI)系统。


五、多智能体支持与触发器优化

5.1 多智能体并行测试

顺序运行测试通常较慢,且上下文的不断积累容易在测试用例间产生干扰。为提升效率与准确性,skill-creator现已支持多智能体机制,可以启动独立的智能体并行运行测试。

每个智能体都在一个干净的上下文中工作,拥有独立的Token和时间统计。

5.2 A/B对比盲测

在这里插入图片描述

同时新增的还有对比智能体,专门用于进行A/B测试。对比智能体可以:

  • 在不知道对照组信息的情况下盲测不同版本的Skill
  • 对比使用和不使用Skill的输出差异

从而直观判断某项修改是否真的带来了提升。

5.3 触发器精准度优化

除了输出质量,Skill是否在正确的时间触发同样关键。随着用户持有的Skill数量增加,描述的精准度变得至关重要:

  • 描述太宽泛 → 误触发
  • 描述太狭窄 → 永远不触发

skill-creator现在会比对现有的描述和示例提示词,并提供修改建议。在Anthropic的内部测试中,这项功能优化了6个公开文档创建Skill中的5个,有效降低了误报和漏报率。


六、下一步:Skill的未来走向

随着模型的持续改进,Skill和规范说明之间的界限将会逐渐模糊

目前的SKILL.md文件本质上还是一个执行方案,详细指示Claude应该如何做某事。在未来,用户可能只需要用自然语言描述Skill应该做什么,模型就能自行解决具体的实现过程。

今天发布的评估框架,正是向这一方向过渡的步骤之一。

个人建议:与其不断折腾龙虾、养龙虾OpenClaw,不如把怎么创建Skill学好。这是一个对日常工作非常有用的大杀器,掌握Skill创作能力将在Agent时代获得巨大的效率优势。


📖 推荐阅读

如果这篇对你有帮助,以下文章你也会喜欢:



🔴 🔴 🔴 国内丝滑使用 Claude? 👉 本文全系使用 weelinking,全系模型支持 👈

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐