如何使用skill-creator

是 Anthropic 官方推出的，专门用于创建、测试、评估和迭代优化 Claude 等 AI 代理的 Skills（技能包）。它把技能开发从“一次性提示词”变成了。

怪我冷i

66人浏览 · 2026-04-19 00:30:00

怪我冷i · 2026-04-19 00:30:00 发布

skill-creator 是 Anthropic 官方推出的 AI 技能包开发工具，专门用于创建、测试、评估和迭代优化 Claude 等 AI 代理的 Skills（技能包）。它把技能开发从“一次性提示词”变成了可量化、可迭代的工程流程。

安装方法

# 安装 skill-creator 技能包
npx skills add https://github.com/anthropics/skills --skill skill-creator

核心使用流程（5步循环）

第1步：确定技能意图

明确目标：技能要解决什么具体问题？
触发场景：用户说什么话时应该触发这个技能？
输出格式：最终交付物是什么样子？
判断是否需要测试用例：
- 客观验证型技能（代码生成、文件转换）→ 需要量化测试
- 主观创作型技能（写作风格、设计）→ 侧重人工评审

第2步：编写 SKILL.md 草案

按照标准结构创建技能文件夹：

skill-name/
├── SKILL.md          # 核心指令（含YAML元数据）
├── scripts/          # 可执行脚本
├── references/       # 参考资料
└── templates/        # 输出模板

关键编写原则：

渐进式披露：元数据→正文→资源，按需加载
解释“为什么”：多用理论说明，少用强硬指令
保持精简：SKILL.md 最好在500行以内

第3步：创建并运行测试用例

编写2-3个真实用户会说的测试提示

同时启动两组运行（在同一轮中）：

# 带技能运行
子代理任务：使用技能路径 <path> 执行 <测试提示>

# 基线运行（新技能：无技能；改进技能：旧版本）
子代理任务：不使用技能执行相同提示

保存结果到工作区：

<skill-name>-workspace/
└── iteration-1/
    ├── eval-0-descriptive-name/
    │   ├── with_skill/outputs/
    │   └── without_skill/outputs/
    └── eval_metadata.json

第4步：评估与量化分析

编写客观断言：为每个测试用例定义可验证的成功标准
自动评分：使用 agents/grader.md 或脚本检查断言

生成基准报告：

python -m scripts.aggregate_benchmark <workspace>/iteration-1 --skill-name <name>

启动交互式评审器：

nohup python eval-viewer/generate_review.py <workspace>/iteration-1 --skill-name "my-skill" > /dev/null 2>&1 &

评审器提供两个标签页：

Outputs：逐条查看测试输出，提供反馈
Benchmark：查看通过率、耗时、Token用量等量化指标

第5步：基于反馈迭代改进

读取用户反馈：从 feedback.json 获取具体意见
改进技能：
- 泛化而非过拟合：从具体反馈中提炼通用原则
- 精简指令：移除无效部分，解释核心原理
- 提取公共脚本：如果多个测试用例都编写了相似代码，将其放入 scripts/
重复测试循环：创建 iteration-2/，对比新旧版本

高级功能：描述优化

技能触发准确度取决于 description 字段的质量。skill-creator 提供自动化优化：

# 生成20个真实触发/非触发查询
# 运行5轮优化循环
python -m scripts.run_loop \
  --eval-set <trigger-eval.json> \
  --skill-path <path-to-skill> \
  --model <当前会话模型ID> \
  --max-iterations 5

优化关键：

真实查询：包含具体文件路径、公司名、个人背景等细节
边缘案例：重点测试“应该触发但没触发”和“不该触发却触发”的模糊场景
避免简单查询：如“读取PDF”这类Claude自己能处理的不会触发技能

环境适配指南

支持子代理的环境（如 Claude Code）

完整流程：并行测试、基线对比、量化基准
最佳实践：充分利用自动化评估和对比分析

Claude.ai 环境

手动执行：逐条运行测试用例（无并行）
跳过基线：只关注技能输出质量
简化评审：直接在对话中展示结果，请求反馈
侧重定性：依赖人工评审而非量化指标

实用技巧

从高频场景开始：先开发每天都会用到的核心技能
测试集逐步扩展：从2-3个案例开始，满意后再增加到10+
关注重复模式：如果多个测试用例都编写了相似代码，将其提取为共享脚本
避免指令僵化：多用“因为…所以…”的解释，少用“必须”“绝不”的强制命令
定期检查触发率：使用描述优化功能确保技能在正确场景被调用

最终交付

技能开发完成后，可以打包为 .skill 文件：

python -m scripts.package_skill <path/to/skill-folder>

通过 skill-creator，你可以系统化地创建出触发准确、输出稳定、可量化验证的专业 AI 技能，真正实现“一次开发，百万次复用”的工程价值。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从零开始设计一个智能体编排系统 - 高级特性篇

2048 AI社区

Git Worktree + 多 AI Agent

2048 AI社区

JailWAM：机器人控制中越狱世界动作模型

2048 AI社区

所有评论(0)

查看更多评论

怪我冷i

@e891377

已为社区贡献7条内容

如何使用skill-creator

怪我冷i

安装方法

核心使用流程（5步循环）

第1步：确定技能意图

第2步：编写 SKILL.md 草案

第3步：创建并运行测试用例

第4步：评估与量化分析

第5步：基于反馈迭代改进

高级功能：描述优化

环境适配指南

支持子代理的环境（如 Claude Code）

Claude.ai 环境

实用技巧

最终交付

所有评论(0)

温馨提示：您尚未绑定手机号

怪我冷i