skill-creator 是 Anthropic 官方推出的 AI 技能包开发工具,专门用于创建、测试、评估和迭代优化 Claude 等 AI 代理的 Skills(技能包)。它把技能开发从“一次性提示词”变成了可量化、可迭代的工程流程

安装方法

# 安装 skill-creator 技能包
npx skills add https://github.com/anthropics/skills --skill skill-creator

核心使用流程(5步循环)

第1步:确定技能意图

  • 明确目标:技能要解决什么具体问题?
  • 触发场景:用户说什么话时应该触发这个技能?
  • 输出格式:最终交付物是什么样子?
  • 判断是否需要测试用例
    • 客观验证型技能(代码生成、文件转换)→ 需要量化测试
    • 主观创作型技能(写作风格、设计)→ 侧重人工评审

第2步:编写 SKILL.md 草案

按照标准结构创建技能文件夹:

skill-name/
├── SKILL.md          # 核心指令(含YAML元数据)
├── scripts/          # 可执行脚本
├── references/       # 参考资料
└── templates/        # 输出模板

关键编写原则

  • 渐进式披露:元数据→正文→资源,按需加载
  • 解释“为什么”:多用理论说明,少用强硬指令
  • 保持精简:SKILL.md 最好在500行以内

第3步:创建并运行测试用例

  1. 编写2-3个真实用户会说的测试提示
  2. 同时启动两组运行(在同一轮中):
    # 带技能运行
    子代理任务:使用技能路径 <path> 执行 <测试提示>
    
    # 基线运行(新技能:无技能;改进技能:旧版本)
    子代理任务:不使用技能执行相同提示
    
  3. 保存结果到工作区
    <skill-name>-workspace/
    └── iteration-1/
        ├── eval-0-descriptive-name/
        │   ├── with_skill/outputs/
        │   └── without_skill/outputs/
        └── eval_metadata.json
    

第4步:评估与量化分析

  1. 编写客观断言:为每个测试用例定义可验证的成功标准
  2. 自动评分:使用 agents/grader.md 或脚本检查断言
  3. 生成基准报告
    python -m scripts.aggregate_benchmark <workspace>/iteration-1 --skill-name <name>
    
  4. 启动交互式评审器
    nohup python eval-viewer/generate_review.py <workspace>/iteration-1 --skill-name "my-skill" > /dev/null 2>&1 &
    

评审器提供两个标签页

  • Outputs:逐条查看测试输出,提供反馈
  • Benchmark:查看通过率、耗时、Token用量等量化指标

第5步:基于反馈迭代改进

  1. 读取用户反馈:从 feedback.json 获取具体意见
  2. 改进技能
    • 泛化而非过拟合:从具体反馈中提炼通用原则
    • 精简指令:移除无效部分,解释核心原理
    • 提取公共脚本:如果多个测试用例都编写了相似代码,将其放入 scripts/
  3. 重复测试循环:创建 iteration-2/,对比新旧版本

高级功能:描述优化

技能触发准确度取决于 description 字段的质量。skill-creator 提供自动化优化:

# 生成20个真实触发/非触发查询
# 运行5轮优化循环
python -m scripts.run_loop \
  --eval-set <trigger-eval.json> \
  --skill-path <path-to-skill> \
  --model <当前会话模型ID> \
  --max-iterations 5

优化关键

  • 真实查询:包含具体文件路径、公司名、个人背景等细节
  • 边缘案例:重点测试“应该触发但没触发”和“不该触发却触发”的模糊场景
  • 避免简单查询:如“读取PDF”这类Claude自己能处理的不会触发技能

环境适配指南

支持子代理的环境(如 Claude Code)

  • 完整流程:并行测试、基线对比、量化基准
  • 最佳实践:充分利用自动化评估和对比分析

Claude.ai 环境

  • 手动执行:逐条运行测试用例(无并行)
  • 跳过基线:只关注技能输出质量
  • 简化评审:直接在对话中展示结果,请求反馈
  • 侧重定性:依赖人工评审而非量化指标

实用技巧

  1. 从高频场景开始:先开发每天都会用到的核心技能
  2. 测试集逐步扩展:从2-3个案例开始,满意后再增加到10+
  3. 关注重复模式:如果多个测试用例都编写了相似代码,将其提取为共享脚本
  4. 避免指令僵化:多用“因为…所以…”的解释,少用“必须”“绝不”的强制命令
  5. 定期检查触发率:使用描述优化功能确保技能在正确场景被调用

最终交付

技能开发完成后,可以打包为 .skill 文件:

python -m scripts.package_skill <path/to/skill-folder>

通过 skill-creator,你可以系统化地创建出触发准确、输出稳定、可量化验证的专业 AI 技能,真正实现“一次开发,百万次复用”的工程价值。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐