如何使用skill-creator
是 Anthropic 官方推出的,专门用于创建、测试、评估和迭代优化 Claude 等 AI 代理的 Skills(技能包)。它把技能开发从“一次性提示词”变成了。
·
skill-creator 是 Anthropic 官方推出的 AI 技能包开发工具,专门用于创建、测试、评估和迭代优化 Claude 等 AI 代理的 Skills(技能包)。它把技能开发从“一次性提示词”变成了可量化、可迭代的工程流程。
安装方法
# 安装 skill-creator 技能包
npx skills add https://github.com/anthropics/skills --skill skill-creator
核心使用流程(5步循环)
第1步:确定技能意图
- 明确目标:技能要解决什么具体问题?
- 触发场景:用户说什么话时应该触发这个技能?
- 输出格式:最终交付物是什么样子?
- 判断是否需要测试用例:
- 客观验证型技能(代码生成、文件转换)→ 需要量化测试
- 主观创作型技能(写作风格、设计)→ 侧重人工评审
第2步:编写 SKILL.md 草案
按照标准结构创建技能文件夹:
skill-name/
├── SKILL.md # 核心指令(含YAML元数据)
├── scripts/ # 可执行脚本
├── references/ # 参考资料
└── templates/ # 输出模板
关键编写原则:
- 渐进式披露:元数据→正文→资源,按需加载
- 解释“为什么”:多用理论说明,少用强硬指令
- 保持精简:SKILL.md 最好在500行以内
第3步:创建并运行测试用例
- 编写2-3个真实用户会说的测试提示
- 同时启动两组运行(在同一轮中):
# 带技能运行 子代理任务:使用技能路径 <path> 执行 <测试提示> # 基线运行(新技能:无技能;改进技能:旧版本) 子代理任务:不使用技能执行相同提示 - 保存结果到工作区:
<skill-name>-workspace/ └── iteration-1/ ├── eval-0-descriptive-name/ │ ├── with_skill/outputs/ │ └── without_skill/outputs/ └── eval_metadata.json
第4步:评估与量化分析
- 编写客观断言:为每个测试用例定义可验证的成功标准
- 自动评分:使用
agents/grader.md或脚本检查断言 - 生成基准报告:
python -m scripts.aggregate_benchmark <workspace>/iteration-1 --skill-name <name> - 启动交互式评审器:
nohup python eval-viewer/generate_review.py <workspace>/iteration-1 --skill-name "my-skill" > /dev/null 2>&1 &
评审器提供两个标签页:
- Outputs:逐条查看测试输出,提供反馈
- Benchmark:查看通过率、耗时、Token用量等量化指标
第5步:基于反馈迭代改进
- 读取用户反馈:从
feedback.json获取具体意见 - 改进技能:
- 泛化而非过拟合:从具体反馈中提炼通用原则
- 精简指令:移除无效部分,解释核心原理
- 提取公共脚本:如果多个测试用例都编写了相似代码,将其放入
scripts/
- 重复测试循环:创建
iteration-2/,对比新旧版本
高级功能:描述优化
技能触发准确度取决于 description 字段的质量。skill-creator 提供自动化优化:
# 生成20个真实触发/非触发查询
# 运行5轮优化循环
python -m scripts.run_loop \
--eval-set <trigger-eval.json> \
--skill-path <path-to-skill> \
--model <当前会话模型ID> \
--max-iterations 5
优化关键:
- 真实查询:包含具体文件路径、公司名、个人背景等细节
- 边缘案例:重点测试“应该触发但没触发”和“不该触发却触发”的模糊场景
- 避免简单查询:如“读取PDF”这类Claude自己能处理的不会触发技能
环境适配指南
支持子代理的环境(如 Claude Code)
- 完整流程:并行测试、基线对比、量化基准
- 最佳实践:充分利用自动化评估和对比分析
Claude.ai 环境
- 手动执行:逐条运行测试用例(无并行)
- 跳过基线:只关注技能输出质量
- 简化评审:直接在对话中展示结果,请求反馈
- 侧重定性:依赖人工评审而非量化指标
实用技巧
- 从高频场景开始:先开发每天都会用到的核心技能
- 测试集逐步扩展:从2-3个案例开始,满意后再增加到10+
- 关注重复模式:如果多个测试用例都编写了相似代码,将其提取为共享脚本
- 避免指令僵化:多用“因为…所以…”的解释,少用“必须”“绝不”的强制命令
- 定期检查触发率:使用描述优化功能确保技能在正确场景被调用
最终交付
技能开发完成后,可以打包为 .skill 文件:
python -m scripts.package_skill <path/to/skill-folder>
通过 skill-creator,你可以系统化地创建出触发准确、输出稳定、可量化验证的专业 AI 技能,真正实现“一次开发,百万次复用”的工程价值。
更多推荐



所有评论(0)