Agent 驱动的开发流程

用途：本文件用于”新项目初始化后”的执行清单。

适用场景：已拿到初版 PRD，需要基于本脚手架快速落地前后端分离 Web 应用。

工具集成：结合 gstack 和 superpowers skill 加速各阶段交付。

工具速查表

场景	Skill 命令	说明
会话启动	`/session-start`	初始化编码上下文
理解代码库	`/understand`	快速摸清项目结构
脚手架生成	`/scaffold`	生成模块/组件骨架
产品头脑风暴	`/office-hours`	YC Office Hours 模式
CEO 视角评审	`/plan-ceo-review`	产品价值与优先级
工程评审	`/plan-eng-review`	技术方案可行性
设计评审	`/plan-design-review`	UI/UX 方向把关
自动规划	`/autoplan`	CEO + 工程 + 设计联合评审
技术图表	`/diagram-expert`	ER 图、流程图、架构图
生成待办	`/create-todos`	从需求自动拆解任务
智能实现	`/implement`	上下文感知代码生成
AI 辅助编码	`/codex`	Codex CLI 代码生成
代码审查	`/review`	PR 合并前质量门控
测试运行	`/test`	上下文感知测试执行
BUG 调查	`/investigate`	系统化根因分析
代码健康	`/health`	代码质量仪表盘
安全扫描	`/security-scan`	静态安全分析
CSO 审查	`/cso`	基础设施安全评估
安全专家	`/web-security-expert`	OWASP Top 10 审计
前端设计	`/frontend-design`	生产级界面生成
多方案设计	`/design-shotgun`	并行生成多套设计方案
设计定稿	`/design-html`	高保真 HTML 产出
设计评审	`/design-review`	视觉一致性审查
网页浏览	`/browse`	无头浏览器操作
QA 测试	`/qa`	全链路 QA + 自动修复
仅报告 QA	`/qa-only`	只报告不修改
性能基准	`/benchmark`	性能回归检测
进度存档	`/checkpoint`	保存/恢复工作状态
应用评分	`/score-app`	综合评分报告
文档更新	`/document-release`	发布后文档同步
发布流程	`/ship`	检测 + 合并 + 部署
落地部署	`/land-and-deploy`	合并 PR 并等待部署
金丝雀监控	`/canary`	上线后实时监控
周期复盘	`/retro`	工程回顾分析
安全操作	`/careful`	危险命令二次确认

什么时候用 superpower 的 brainstorming

==明确要做某个功能，核心是完善功能的设计
==通过不断的反问完善需求细节

什么时候用 gstack 的 office-hours

不确定要不要做，需要有人质疑你的想法

先把两个工具中所有相关 skill 的源码读一遍，再给出完整方案。所有关键 skill 的源码已读完。现在可以给出一份完整的技术马拉松使用手册。

技术马拉松 Skill 使用手册

Phase 1（T+0 ~ T+45min）：需求理解与设计

用 superpowers: brainstorming（唯一入口）

输入格式要一次性给全，避免被追问：

题目原文：[完整粘贴]

已知约束：
- 技术栈：Node.js / React / PostgreSQL
- 时间限制：8小时
- 安全要求：未明确，按 Web 应用基线处理
- 性能要求：未明确，参赛者自行判断

范围决策（已做）：
- 子系统 A：核心功能，本次实现
- 子系统 B：认证模块，本次实现
- 子系统 C：数据导出，标记为 out of scope

关键操作：

Scope 判断环节——果断砍掉所有非核心子系统，只做一个单一 spec
模糊需求处理——不要等 agent 问，直接声明”请主动决策并写入 spec”
spec 的 Ambiguity Check 会自动把所有模糊项变成显式决策，这是马拉松的核心竞争力

输出：docs/superpowers/specs/YYYY-MM-DD-[题目]-design.md，Status 变为 APPROVED 后进入下一步。

Phase 2（T+45min ~ T+1.5h）：工程评审与实现计划

并行使用两个工具（可同时跑）

路线 A：gstack /plan-eng-review

这个 skill 会做 Step 0 Scope Challenge，强制回答：

已有代码有哪些能复用（马拉松从零开始时跳过）
架构是否可以用更少文件实现
安全/性能/边界失效场景

输出 Failure Modes 表——马拉松答辩环节的加分项，评委会问”这个场景怎么处理”，你有文档可以直接引用。

它还会生成 Worktree parallelization strategy，告诉你哪些实现步骤可以并行，这直接决定后续实现速度。

路线 B：superpowers: writing-plans（紧接 brainstorming 自动触发）

生成逐步实现计划，格式是 bite-sized tasks（每步 2-5 分钟），每个 task 包含：

精确文件路径
完整代码片段（不是描述，是实际代码）
验证命令和期望输出
git commit 指令

Phase 3（T+1.5h ~ T+7h）：高速实现

这是马拉松成败的核心阶段，skill 选择直接决定速度。

主线：superpowers: subagent-driven-development

这是马拉松推荐路线，而不是 executing-plans，原因：

对比维度	subagent-driven-development	executing-plans
上下文污染	每个 task 用新的 subagent，上下文干净	同一 session 累积，后期容易跑偏
卡住处理	BLOCKED 状态自动上报，换模型重试	需要人工发现卡住
质量门控	每个 task 做两轮 review（spec 合规 + 代码质量）	batch 执行，review 较粗
速度	task 之间无需切换 session	需要上下文切换

执行流程（每个 task 循环）：

派发 implementer subagent
    -> 回答问题（如果有）
    -> 实现 + 自检 + commit
-> 派发 spec reviewer（验证没有多做也没有少做）
-> 派发 code quality reviewer
-> 标记 task DONE
-> 下一个 task

并行加速：superpowers: dispatching-parallel-agents

当 plan-eng-review 产出的 Worktree parallelization strategy 显示有独立 lane 时使用。

典型场景：

Lane A：后端 API 路由 + 数据库层（不依赖前端）
Lane B：前端组件（不依赖后端实现，只依赖 API contract）

两个 lane 可以同时派发，互不干扰，完成后合并。

注意：两个 lane 如果触碰同一个模块目录，plan-eng-review 会标记 Conflict Flag，这种情况回退到顺序执行。

调试：按情况选择

情况	用哪个
有明确报错 / 测试失败 / 异常行为	superpowers: systematic-debugging
在 gstack 项目内 / 有 browse 工具	gstack /investigate
连续 3 次 fix 失败	两者都有”3-strike rule”，会强制要求人工介入

systematic-debugging 的 Iron Law 和 gstack /investigate 的 Iron Law 几乎一致：必须找到 root cause 才能修，禁止猜测性修改。马拉松时间压力大，这条规则反而更重要——猜测性 fix 会导致 3-4 轮反复，比系统调试浪费更多时间。

Phase 4（T+7h ~ T+8h）：收尾与提交

==步骤一：gstack /qa（—quick 模式）

时间不够时用 --quick，只修 critical + high severity。

QA skill 会：

检查工作区是否干净（不干净会问你 commit or stash）
自动截图留证据
对每个 fix 做 before/after 截图对比
输出 PR Summary 一行话：QA found N issues, fixed M, health score X → Y

这一行话直接用于答辩 demo 的开场白。

步骤二：superpowers: finishing-a-development-branch

流程：

跑全套测试（有失败不能继续）
给出 4 个选项（本地合并 / push + PR / 保留 / 丢弃）
马拉松选选项 2：push + 创建 PR，自动生成 PR 描述

步骤三：gstack /ship（如果时间充裕）

/ship 会额外做：

Pre-landing review（找测试覆盖不到的结构问题）
自动版本号 bump
自动生成 CHANGELOG
确认 TODOS.md 中完成的项目

时间不够就跳过，直接用 finishing-a-development-branch 即可。

完整 Skill 使用顺序图

题目拿到
    |
    v
superpowers: brainstorming          <- 需求理解 + spec
    |（spec APPROVED后）
    v
superpowers: using-git-worktrees    <- 创建隔离工作区（自动触发）
    |
    +---> gstack: /plan-eng-review  <- 架构审查 + 并行策略
    |
    v
superpowers: writing-plans          <- 生成逐步实现计划
    |
    v
superpowers: subagent-driven-development   <- 主实现循环
    |                                         每个 task: 实现 -> spec review -> quality review
    +---> superpowers: dispatching-parallel-agents  (如有独立 lane)
    |
    +---> superpowers: systematic-debugging  (遇到 bug 时)
    |         或 gstack: /investigate
    |
    v
gstack: /qa --quick                 <- 快速 QA
    |
    v
superpowers: finishing-a-development-branch  <- 测试验证 + PR
    |（时间充裕时）
    v
gstack: /ship                       <- 完整收尾流程

时间不够时的优先级砍法

时间剩余	砍掉什么
< 2h	跳过 /plan-eng-review，直接 writing-plans
< 1h	跳过 QA，直接 finishing-a-development-branch
< 30min	跳过 finishing-a-development-branch，手动 push
任何时候	绝对不砍 brainstorming 和 systematic-debugging——这两个是防止方向错误和调试陷入死循环的安全网

非功能检查（安全与性能）

在发布前完成基础安全与性能基线验证。

安全检查：鉴权、越权、输入校验、敏感信息暴露
性能检查：关键接口响应时间、慢查询、前端加载性能
记录问题并按优先级闭环

产出与验收

无高危安全问题遗留
性能指标达到本期目标或有明确优化计划

综合评估与发布准备

在发布前形成”可交付结论”和后续改进清单。

对照 PRD 逐条验收并标记状态（已完成/部分完成/延期）
生成项目评分报告
更新必要文档（README、部署说明、模块说明）
执行发布流程并监控上线状态

产出与验收

发布建议结论（可发布 / 有条件发布 / 暂不发布）
遗留问题清单（负责人 + 截止时间）

附：快速使用方式

新项目创建后，先完成阶段 0
拿到 PRD 后，优先完成阶段 1~3，再进入编码
每完成一个阶段，补齐”产出与验收”并提交
禁止跳过 Spec 与 DDL 直接大规模编码

wwsun

探索

Agent 驱动的开发流程

工具速查表

什么时候用 superpower 的 brainstorming

什么时候用 gstack 的 office-hours

技术马拉松 Skill 使用手册

Phase 1（T+0 ~ T+45min）：需求理解与设计

用 superpowers: brainstorming（唯一入口）

Phase 2（T+45min ~ T+1.5h）：工程评审与实现计划

并行使用两个工具（可同时跑）

Phase 3（T+1.5h ~ T+7h）：高速实现

主线：superpowers: subagent-driven-development

并行加速：superpowers: dispatching-parallel-agents

调试：按情况选择

Phase 4（T+7h ~ T+8h）：收尾与提交

==步骤一：gstack /qa（—quick 模式）

步骤二：superpowers: finishing-a-development-branch

步骤三：gstack /ship（如果时间充裕）

完整 Skill 使用顺序图

时间不够时的优先级砍法

非功能检查（安全与性能）

推荐工具

产出与验收

综合评估与发布准备

推荐工具

产出与验收

附：快速使用方式

关系图谱

目录

最近更新

一名谷歌工程师如何利用 Claude Code 简化 80% 工作

Agent 驱动的开发流程

gstack

OpenAI Agent Skills 架构速览

打造「数字同事」——OpenClaw 实战指南