Vibe Coding - 用 Superpowers 把 Claude Code 变成按流程交付的 AI 搭档

摘要： Superpowers为AI编程助手（如Claude/GPT）构建了一套工程化流程，解决其"会写代码但难交付"的痛点。通过将开发流程拆解为brainstorm→plan→implement→review→verify→ship六个标准化阶段，并封装为可复用技能（如需求澄清、计划生成、分步验证等），使AI能像专业工程师一样产出可验证的交付物。相比传统大prompt方案，这

小小工匠

580人浏览 · 2026-01-26 05:15:00

小小工匠 · 2026-01-26 05:15:00 发布

文章目录

概述
一、AI 会写代码，但不会交付
- 1.1 常见痛点：代码有了，工程没有
- 1.2 传统用法的局限：一条大 prompt 解决不了流程问题
二、Claude Code 与 Skills：为什么要把流程做成技能
- 2.1 Claude Code：从聊天到「工程上下文」
- 2.2 Skills / Superpowers：把工程实践「固化」下来
三、什么是 Superpowers：给 AI 加上工程流程纪律
- 3.1 设计目标：从「能写代码」到「能交付」
- 3.2 核心流程：brainstorm → plan → implement → review → verify → ship
四、Superpowers 工作流详解：从想法到可验证交付
五、实战案例：为后端服务新增导出报表接口
六、与其他方案的对比：Superpowers 不只是「更好的 prompt」
- 不同 AI 编程方式的关键差异
七、实践建议：如何在团队里落地 Superpowers
八、结语：用流程驯化 AI，而不是靠运气

在这里插入图片描述

概述

在大多数人的日常体验里，「会写代码的 AI」已经不是新鲜事，但「能按工程流程交付的 AI」依然很少见。很多团队在把 Claude、GPT 接入开发工作流后，会发现一个相同的问题：它们写代码很快，却很难真正撑得住一个严肃项目的长期演进。

接下来我会系统讲讲一个近两年非常有代表性的方案——Superpowers：它不是让 Claude Code 写得「更聪明」，而是给它加上一整套工程流程纪律，让它按照「brainstorm → plan → implement → review → verify → ship」这样的节奏稳定输出可验证的交付物。

https://github.com/obra/superpowers

一、AI 会写代码，但不会交付

1.1 常见痛点：代码有了，工程没有

在真实团队里，用 Claude / GPT 辅助开发经常会遇到这些情况：

需求对不齐：你给出一段自然语言描述，它产出的实现只满足了 60% 的关键需求，剩下的靠来回补丁。
缺乏规划：直接在一堆文件里「动刀」，但没有全局设计，也没有清晰的变更边界。
修 bug 靠「感觉」：让 AI 猜可能原因，一顿修改后问题似乎消失了，但一周后就回归。
没有可信的验证：AI 说「我已经跑过测试了」，却不给任何测试输出、日志或验证步骤。

这些问题的本质，并不是「模型不够聪明」，而是缺乏可重复的工程流程：即使换一个人类初级开发在没有规范的流程下工作，也会踩类似的坑。

1.2 传统用法的局限：一条大 prompt 解决不了流程问题

很多团队一开始会尝试通过「写大 prompt」来解决问题，例如给模型一段巨长的指令：「你是一个资深工程师，要先分析需求，再写设计，再写代码，再写测试……」。

这类方法有几个现实局限：

不可验证：模型有没有真的按你说的步骤做，你很难检查，它顶多在回答里「演一遍流程」。
不可复用：每个项目、每个开发者都要自己维护一套 prompt，风格各异，很难标准化。
不可演进：流程、规范调整时，要手动改无数 prompt，难以像配置/代码那样统一管理。

要把 AI 真正纳入工程体系，就需要把「流程本身」编码成可复用的技能/工具，而不是只写在说明文档和 prompt 里。

二、Claude Code 与 Skills：为什么要把流程做成技能

2.1 Claude Code：从聊天到「工程上下文」

Claude Code 可以看作是「面向工程项目」的一种用法，它通常具备这些能力：

直接访问项目文件（多文件编辑、阅读、搜索）；
在命令行 / IDE 中执行构建、测试等命令（视具体集成方案而定）；
将一次会话绑定到一个稳定的工程上下文，而不是松散的闲聊。

在这种场景下，「怎么写」已经不是最大问题，真正的问题是「按什么过程写」，以及「如何保证最后的结果可验证」。

2.2 Skills / Superpowers：把工程实践「固化」下来

Superpowers 是一个围绕 Claude Code 的技能库，用来把工程实践流程做成「可调用的技能」，而不是停留在口头约定上。

它有几个关键特征：

将工程流程拆解成独立技能（brainstorming、writing-plans、systematic-debugging、verification-before-completion 等）。
每个技能都有清晰的输入、输出和成功条件，行为相对稳定。
技能之间可以组合成完整工作流：从需求澄清到代码审查再到交付验证。

换句话说，Superpowers 不直接让模型「变聪明」，而是让模型「按规矩办事」。

三、什么是 Superpowers：给 AI 加上工程流程纪律

3.1 设计目标：从「能写代码」到「能交付」

Superpowers 的设计目标可以用一句话概括：

让 Claude Code 像一个受过严格训练的工程师那样工作：每个步骤有产出、有验证、有记录，而不是一通「灵感输出」。

它关注的核心问题包括：

如何系统澄清需求和设计（brainstorming 类技能）。
如何生成带验证计划的执行方案（writing-plans）。
如何按计划执行，而不是临时起意（execute-plan / executing-plans）。
如何系统地调试和验证（systematic-debugging、test-driven-development、verification-before-completion 等）。

3.2 核心流程：brainstorm → plan → implement → review → verify → ship

在这里插入图片描述

Superpowers 背后的典型工程流程可以抽象为这一串：brainstorm → plan → implement → review → verify → ship。

brainstorming：围绕需求展开结构化讨论，生成小规格说明（目标、非目标、约束、验收标准）。
writing-plans：将需求拆解成一系列「可执行、可验证」的任务，包含修改文件、接口、数据结构以及对应验证方式。
implement（通常通过 execute-plan 系列技能）：根据计划逐项实施，每一步之后进行局部验证。
review：对变更进行审查，检查是否满足规格、是否符合代码质量和架构约束。
verify（verification-before-completion）：在宣布完成前执行必要的测试、检查和验证，并保存证据。
ship：将结果纳入仓库、合并 PR 或标记任务完成。

注意：Superpowers 并不强制你永远走完整的长流程，它支持根据任务风险适度简化，但默认假设「严肃变更应该走完流程」。

四、Superpowers 工作流详解：从想法到可验证交付

这一部分我们结合典型技能，按顺序走一遍完整工作流。具体命令名、调用方式会因集成方式不同略有差别，但思路是一致的。

4.1 需求澄清与方案设计：brainstorming

第一步是帮 Claude 把「你脑中的需求」变成「结构化的规格」。

你可以给出一个相对粗糙的目标，例如：

「在现有的后端服务中增加一个导出报表的接口，支持按时间范围和用户等级过滤。」

调用 brainstorming 类技能后，它会引导生成一个包含以下要素的规格草案：

背景与目标：为什么需要这个接口，它解决什么问题。
非目标：本次不处理的数据种类、极端性能优化、某些特殊过滤条件等。
约束条件：接口安全性要求、响应时间、调用频率限制、与现有权限系统的兼容性。
输入与输出：请求参数、字段类型、返回结构、错误码设计。
验收标准：哪些用例通过，才算「功能完成」。

好处在于：

你可以直接对这份草案进行修改、评论，然后再让 AI 更新一版规格。
后续所有步骤都可以引用这份规格，以减少「需求解读偏差」。

4.2 生成可执行计划：writing-plans

当规格基本达成共识后，就可以调用 writing-plans 类技能，让 AI 把需求拆解成一系列执行步骤。

一个典型的计划会包含：

要修改 / 新增的文件列表（例如 controller、service、repository、测试文件、配置等）。
每个步骤要做的具体事情（例如「在 XController 中新增 GET /reports/export 接口」「在 ReportService 中增加 assembleExportData 方法」）。
对应的验证方式：每一步如何确认成功（单测、集成测试、手动调用、日志检查等）。

这里有一个重要原则：

没有写明「如何验证」的计划步骤，视为不完整。

这可以强迫 AI 在计划阶段就思考「证明自己没写错」的方法，而不是等出问题再补救。

4.3 按计划执行：execute-plan / executing-plans

计划确认后，就可以使用 execute-plan / executing-plans 之类的技能按步骤推进实现。
特征包括：

分批执行：每次只处理计划中的一小部分（例如一个文件或一组相关改动），降低风险。
每步结束后执行对应验证操作，如运行特定单测、构建项目、启动服务并调用接口。
避免随意跨文件、跨模块地「自由发挥」，保持与计划一致。

在实践中，你可以选择「全自动」或「半自动」：

全自动：让 AI 直接执行与计划对应的修改命令（如果集成了编辑器/CLI）。
半自动：AI 提供 patch / diff，由人工审阅后再应用到代码库。

对于多文件重构、接口门面调整这类高风险改动，分批执行 + 分步验证的收益非常明显。[

4.4 系统化调试与 Bug 修复：systematic-debugging

修改过程中或者线上出现问题时，可以启用 systematic-debugging 类技能来替代「猜测式调试」。

典型的调试流程包括：

定义问题与最小复现：让 AI 帮你整理「问题在什么环境、什么输入下出现」，并尝试构造最小复现用例。
范围收窄：根据日志、调用链、最近变更记录，锁定可能相关的模块与文件。
提出假设列表：列出几种可能的根因，每个假设都要附带「如何验证」。
逐一验证与修复：选择一个假设，设计实验或增补日志来验证，如果确认，就设计对应修复并再次验证。

这一系列动作的关键，不是「一次就猜对」，而是「每一步都有记录、有验证」，你甚至可以回放 AI 的调试过程，查出哪一步的假设是错误的。[web:8]

4.5 验证优先：verification-before-completion

在传统 AI 使用方式里，模型很容易在代码写完后马上说「完成了」，却不给任何证据。verification-before-completion 类技能的目标，就是在「宣布完成」前强制走验证步骤。

常见的验证项包括：

静态检查：lint、format、类型检查。
自动测试：核心单元测试、关键集成测试。
核心用户路径：例如关键 API 的调用路径、主要页面的交互流程。

通过 skill，可以要求 AI：

显式列出本次执行了哪些验证步骤。
尽可能附上关键输出片段（测试结果、日志摘要），而不是只说「我跑过了」。

这一步可以大大减少「完成了，但其实没跑起来」的情况。

4.6 代码审查与规范审核：请求 review 的正确姿势

Superpowers 还鼓励将「实现」与「审查」分离，通常由不同的技能/agent 完成：

规格符合性审查：检查当前实现是否满足之前的规格说明（目标、约束、验收标准）。
代码质量审查：关注命名、结构、可维护性、错误处理、边界情况等。

这种拆分有两个好处：

容易发现「功能看起来 OK，但偏离原始意图」的问题。
更接近真实团队里的 code review 流程，便于接入现有开发规范。

五、实战案例：为后端服务新增导出报表接口

下面我们用一个相对简单但足够完整的例子，把上面的流程串起来。这里不会贴出大段代码，而是重点展示流程和关键交互。

5.1 场景设定

假设你有一个基于某主流框架（例如 Spring Boot）的后端服务，需要新增一个导出报表的接口，支持按时间范围和用户等级过滤，并输出 CSV 文件。

你的目标是：

在不破坏现有接口的前提下增加新功能。
确保接口有测试、有权限校验、有基本性能保障。

5.2 需求澄清（brainstorming）

你向 Claude Code 描述大致需求，然后调用 brainstorming 技能。输出的规格草案可能包含：

目标：
- 新增一个 GET /reports/export 接口，支持通过 query 参数指定时间范围与用户等级。
非目标：
- 不做复杂 BI 分析，只提供原始数据导出。
约束：
- 接口需要走现有的认证与权限系统。
- 导出数据量最多限定在某个范围内，超过时需要提示用户缩小条件。
验收标准：
- 在测试环境中可通过若干示例请求得到正确格式的 CSV。
- 对越界条件（无权限、参数不合法、数据量过大）有明确错误响应。

你可以在这个基础上进行增删，然后让 AI 更新一版最终规格。

5.3 生成实现计划（writing-plans）

确定规格后，调用 writing-plans，让 Claude 生成带验证步骤的实现计划。

可能的计划结构：

在 ReportController 中新增 /reports/export 路由与参数解析逻辑，验证方式：编写一个简单集成测试，调用该接口并检查 HTTP 状态与响应头。
在 ReportService 中新增 exportReport 方法，封装业务逻辑，验证方式：编写单测，对不同参数组合检查返回数据集合。
在 ReportRepository 中新增查询方法，支持按时间与用户等级过滤，验证方式：使用测试数据构建几个典型场景，编写单测。
新增 CSV 序列化工具类，将数据转为 CSV 字符串，验证方式：给定固定输入，检查输出字符串是否符合预期格式。
在安全配置中注册接口权限校验，验证方式：用带权限/无权限 token 分别调用接口，检查响应。

每一步都有对应的「怎么验证」，后续执行过程就有据可依。

5.4 按计划执行（execute-plan）

接下来可以按计划逐步执行，每完成一步就做对应的验证。

例如执行步骤 1：

让 Claude 生成 ReportController 的改动 diff，你审查后应用。
让它生成一个基础集成测试，发起对 /reports/export 的请求，检查路由是否工作。
跑测试（手动或让 AI 触发），如果失败，就重新进入 systematic-debugging。

依次推进，直到所有计划步骤都完成并通过各自的验证。

5.5 系统化调试与补强（systematic-debugging）

假设在大数据量场景下，接口响应超时。你可以启用 systematic-debugging，让 AI 根据日志和代码行为分析瓶颈来源：[web:8]

它可能提出几个假设，例如：
- 查询无分页，导致一次性加载大量数据。
- CSV 序列化使用了低效的字符串拼接方式。
对每个假设，设计验证方法：
- 加日志统计查询耗时和返回数据量。
- 针对序列化部分编写微基准测试。

确认根因后，将「分页查询 + 流式写出」纳入新的实现计划，再通过 execute-plan 执行与验证。

5.6 验证与交付（verification-before-completion）

在你准备合并改动前，调用 verification-before-completion 类型技能，让 AI 汇总本次改动经历的所有验证步骤：

单测：列出增加或修改了哪些测试用例，以及它们的运行结果。
集成测试：列出覆盖的接口场景。
安全检查：列出权限验证、错误处理等关键点。

你可以要求它输出类似「验证报告」的小结，作为 PR 描述的一部分，让团队成员一眼看到这次改动的质量保障措施。

六、与其他方案的对比：Superpowers 不只是「更好的 prompt」

下面用一个表格，对比几种常见的 AI 编程使用方式。

不同 AI 编程方式的关键差异

方式	流程显式程度	验证是否强制	是否支持分步执行	是否有独立审查环节	适合场景
纯自然语言 prompt 写代码	极低	否	否	否	小脚本、一次性工具
一条长 prompt 带「请按流程做」	中（文字描述）	否	有限	否	对流程要求不高的个人项目
任务规划师（Planning Agent）	中高（有任务拆分）	视实现而定	是	部分	中等复杂度任务
Superpowers for Claude Code	高（流程被编码为技能）	是（可配置）	是（execute-plan）	是（多 agent 协作）	中大型工程、长期维护项目
自研复杂多 Agent 系统	最高（可完全定制）	是	是	是	大团队、需要深度定制工作流的场景

Superpowers 的位置，大致介于「通用规划工具」和「完全自研 Agent 系统」之间：

比一条长 prompt 更标准化、更可验证。
比完全自研的多 Agent 架构轻量，易于个人开发者和小团队采用。

七、实践建议：如何在团队里落地 Superpowers

7.1 安装与集成的基本思路

具体安装方式会依赖你使用的工具链（例如 CLI、编辑器扩展、云端 Agent 平台等），但整体思路类似：

在这里插入图片描述

将 Superpowers 作为一套技能库引入 Claude Code 运行环境。
在项目级别配置一些默认约定，比如：
- 哪些任务必须走完整流程（需求澄清 → 计划 → 实施 → 审查 → 验证）。
- 哪些可以走简化流程（例如单文件文案修改）。

你可以从官方仓库和示例配置入手，然后根据自身项目特点调整技能参数和默认行为。

7.2 将 brainstorming 输出接入团队文档

一个实用的小技巧是：不要让 brainstorming 的输出「只活在聊天记录里」。

每次生成的规格草案，整理后可以直接存到项目的设计文档目录（wiki、docs 文件夹等）。
PR 中可以引用本次变更关联的规格链接，方便后续维护者理解上下文。

这样，Superpowers 不仅帮你写代码，还在持续产出结构化的设计文档。

7.3 把 verification-before-completion 对接到 CI

在成熟团队里，验证逻辑往往已经包含在 CI 流水线中，例如运行单测、静态分析等。

你可以：

在计划和验证步骤中，明确指出需要通过哪些 CI 任务。
让 AI 在本地先模拟执行关键验证（例如运行对应测试集），减少 CI 红灯次数。
在 PR 描述中引用验证-before-completion 的汇总结果，与 CI 状态相互印证。

这样可以让 AI 的本地验证和团队的 CI 流程形成闭环。

7.4 何时走全流程，何时适度简化

并不是每个任务都需要完整的 Superpowers 流程，否则成本过高。[web:7][web:8]

可以参考以下粗略分级：

高风险变更（核心业务逻辑、跨模块重构、安全相关改动）：必须走完 brainstorm → plan → implement → review → verify 全流程。
中等风险变更（单模块新功能、中等规模重构）：允许在明确小规格的前提下精简 brainstorm，但保留 plan + verify。
低风险变更（文案调整、单测试数据更新、小范围样式修改）：可以使用轻量流程或直接人工修改。

关键是：默认要有一个清晰的「流程等级」约定，而不是临时凭感觉决定。