[论文阅读] 人工智能 + 软件工程 | 从挫折到成功：XP2025揭秘GenAI与敏捷融合的“工具+素养+治理”三重解法

本文基于XP2025研讨会的跨学科协作成果，系统梳理了生成式AI（GenAI）与敏捷软件开发融合过程中的6大核心挫折，其中“提示技能缺口”是实践者最关注的痛点；进而构建了以“人中心、负责任”为原则的5大研究路线图，每个路线图均覆盖短期落地行动与长期发展方向，同时提出“测试床、数据集、开源平台”等落地支撑条件。

zhangjiaoshou_

468人浏览 · 2025-08-31 14:45:00

zhangjiaoshou_ · 2025-08-31 14:45:00 发布

从挫折到成功：XP2025揭秘GenAI与敏捷融合的“工具+素养+治理”三重解法

论文信息

类别	详情
论文原标题	《AI and Agile Software Development: From Frustrations to Success—Outcomes of the XP2025 Workshop》（暂译：《AI与敏捷软件开发：从挫折到成功——XP2025研讨会成果》）
主要作者	XP2025研讨会协作团队（含30+跨学科参与者，涵盖学术界研究者与行业实践者，无单一核心作者，体现集体共识）
研究机构	参与机构包含软件工程领域高校（未明确具体名称）、科技企业（如敏捷工具提供商）、开源社区代表等，以“产学研协作”模式开展
APA引文格式	XP2025 Workshop Collective. (2025). AI and agile software development: From frustrations to success—Outcomes of the XP2025 Workshop. arXiv Preprint arXiv:2508.20563.
论文链接	https://arxiv.org/pdf/2508.20563

一段话总结

本文是XP2025研讨会（瑞士布鲁格-温迪施举办，主题“AI与敏捷：从挫折到成功”）的成果总结，由30+产学研专家共同完成；核心聚焦“生成式AI（GenAI）与敏捷开发融合”的实际问题，先通过投票梳理出“工具碎片化、提示技能缺口、隐私合规模糊”等6大核心挫折（其中78.6%团队受“提示技能不足”困扰），再针对性构建“工具整合、AI素养、治理合规、价值评估、创造力提升”5大主题研究路线图（每个主题含1-2年短期落地行动与3-5年长期方向），最终提出“测试床、数据集、开源平台”等支撑条件，旨在填补GenAI与敏捷实践的理论-落地差距，帮助团队从“踩坑”走向“成功”。

思维导图

在这里插入图片描述

研究背景

要理解这篇论文，得先搞懂“敏捷开发”和“生成式AI”这俩“搭档”的现状——就像两个人想组队干活，各自本事都不小，但凑一起总出问题。

先说说敏捷开发：它就像“快速迭代的小团队作战模式”——比如一个APP团队，2周一个“冲刺”，每次都要交付能用的功能，还得跟客户随时沟通调整。从2001年“敏捷宣言”出来后，这模式越来越火，后来又加了CI（持续集成）、DevOps（开发运维一体化），核心就是“灵活、高效、以人为本”。

再看生成式AI：最近两年的“明星技术”，能写代码、生成用户故事、甚至帮着做测试——比如GitHub Copilot能自动补代码，ChatGPT能帮产品经理写需求文档。但它不是一开始就这样：2015年前后还只能做“缺陷预测”（比如判断这段代码有没有bug），2020年能做简单代码补全，2021年后才进入“能生成完整内容”的GenAI阶段。

按理说，“灵活的敏捷”+“能干活的GenAI”应该是“黄金搭档”，但实际用起来却满是坑——这就是论文要解决的“核心矛盾”。举几个真实案例你就懂了：

有个开发团队，为了用AI，装了Copilot、ChatGPT、CodeLlama等5个工具，结果每次写代码都要切来切去，反而比不用AI还慢（这就是“工具碎片化”痛点）；
某金融公司的敏捷团队，想用AI分析用户反馈，又怕客户数据泄露违反GDPR，最后只能“敢想不敢用”（这就是“隐私合规模糊”痛点）；
一个刚接触AI的小团队，让AI写了段代码，结果运行时发现有“幻觉”（AI编了不存在的函数），排查半天还耽误了冲刺进度，从此再也不敢用了（这就是“AI幻觉+提示技能不足”痛点）。

简单说，之前的研究要么只讲“GenAI多厉害”，要么只说“敏捷怎么搞”，却没人系统梳理“两者结合时到底会踩哪些坑”，更没人给“怎么解决这些坑”的落地方案——这篇论文就是来补这个缺口的。

创新点（挖掘独特亮点）

这篇论文不是传统的“实验室研究”，它的创新点全在“实用”和“落地”上，主要有4个：

“从实践者痛点出发”的研究模式：不是先定理论再找案例，而是让30+一线专家（有天天写代码的开发者，有管敏捷项目的经理，还有研究AI的学者）把真实遇到的坑列出来，再投票选出最痛的6个——比如“提示技能缺口”是78.6%的人投票，比其他痛点都高，这就保证了研究方向“不脱离实际”。
“AI实践演示AI价值”的研讨会设计：一般研讨会只聊理论，这篇论文的研讨会却亲自用AI干活——比如用AI生成研讨会主题曲，还建了个“定制GPT”（把所有会议材料喂进去，方便大家查信息），相当于“用自己的行动证明AI能帮上忙”，比光说不练有说服力多了。
“短期能落地+长期有方向”的路线图：很多研究只给“远期愿景”，比如“未来AI会自动做敏捷决策”，但这篇论文的5大路线图每个都分“短期（1-2年）”和“长期（3-5年）”——比如“工具整合”主题，短期先做“工具分类表”（让团队知道该选哪个），长期再做“多智能体界面”（让AI自己选工具），既解决当下问题，又不缺长远规划。
“跨学科协作”的解决方案：GenAI与敏捷融合的问题，不是光靠“写代码”能解决的——比如隐私合规要懂法律，团队心态要懂组织心理学，AI素养要懂教育。这篇论文特意拉了软件工程、人机交互（HCI）、伦理、法律等领域的专家一起聊，避免了“只从技术角度看问题”的局限。

研究方法和思路

这篇论文的研究方法本质是“研讨会协作法”，整个过程分3步，每一步都很扎实：

步骤1：会前准备——收集“素材”（2024年底-2025年初）

先明确研讨会目标：要搞清楚“GenAI在敏捷里怎么用、有什么坑、怎么解决”；
公开征集材料：向全球研究者和实践者要“GenAI+敏捷”的案例、论文、经验报告，最后收到17份，筛选出3篇研究论文、3篇行业报告（比如某大厂的AI敏捷实践）、2个主题演讲（邀请了敏捷领域专家Joshua Kerievsky和AI领域专家Alex Polyakov）；
提前建资源库：把所有征集到的材料整理好，还做了个“定制GPT”（方便参会者随时查信息），避免会上“信息不对称”。

步骤2：会中研讨——梳理“痛点”+ 制定“方案”（2025年XP会议期间，约2天）

这一步是核心，分两个环节：

环节1：找痛点（“吐槽大会”+ 投票）

先让参会者分组，每组4-5人，用Padlet（在线协作工具）写下自己遇到的“GenAI+敏捷”坑，一共收集了120+个痛点；
再把痛点归类：比如“工具太多不会选”“不知道怎么写提示词”“怕数据违规”，最后合并成6大类（就是前面说的F1-F6）；
投票选“最痛的点”：每个参会者给痛点投票，算出投票率（比如F5“提示技能缺口”78.6%最高），确保优先解决“大家最关心的问题”。

环节2：定方案（分组 brainstorm + 集体共识）

按“痛点类型”分5个小组，每组负责一个解决方案方向（对应后来的5大路线图）；
每组先讨论“短期能做什么”（比如解决“提示技能缺口”，短期可以搞培训工作坊），再聊“长期要做什么”（比如长期建“人-AI伙伴模型”）；
各组展示方案，全体参会者一起修改，最后形成“集体共识”——确保方案不是某个人拍脑袋想的，而是大家都认可的。

步骤3：会后整理——输出“成果”（2025年会议后1-2个月）

把会上的讨论记录、投票结果、路线图草稿整理成文稿；
发给所有参会者审核，修改意见后再定稿；
补充“落地支撑条件”：比如要做这些方案，需要“测试床”（模拟敏捷环境的实验平台）、“数据集”（训练AI用的敏捷工件，比如用户故事、代码），最后形成这篇论文。

八、主要成果和贡献（大白话+表格）

这篇论文的成果不是“某个新算法”，而是“能直接用的指南和路线图”，核心价值是“帮团队少踩坑、快落地”。用表格总结更清楚：

核心成果类型	具体内容	给领域带来的实际价值	相关资源（开源/工具）
1. 6大核心挫折清单	明确GenAI+敏捷的关键问题：工具碎片化（F1）、隐私合规（F2）、流程错位（F3）、AI幻觉（F4）、提示技能缺口（F5）、创造力不足（F6）	让团队知道“别人也在踩这些坑”，不用自己摸黑找问题；也给研究者指明“该研究什么”	无（清单已在论文中公开）
2. 5大主题路线图	每个主题对应1-2个痛点，含短期（1-2年）和长期（3-5年）行动（如“工具整合”主题：短期建工具分类学，长期做多智能体界面）	团队能直接照路线图做事（比如小团队先看“工具分类学”选工具，大厂可以探索“多智能体界面”）；避免“盲目试错”	后续计划建开源协作平台（论文未给具体地址，待更新）
3. 4大落地支撑条件	AI4Agile测试床（模拟敏捷环境）、敏捷工件数据集（训练AI用）、多维度评估框架（测AI效果）、开源平台（共享工具/案例）	解决“想做但没资源”的问题——比如小团队没有数据集，可以用共享数据集训练AI；企业可以用测试床先试AI，再落地	测试床和数据集待共建（论文呼吁研究者/实践者参与）
4. 跨学科协作模式	证明“软件工程+人机交互+伦理+法律”一起解决问题，比单一领域更有效	打破“技术只管技术、法律只管法律”的壁垒——比如做AI工具时，提前让法律专家参与，避免合规风险	无（模式可直接借鉴）

关键问题

问题1：GenAI与敏捷融合时，团队最容易卡在哪个环节？为什么？

答：最容易卡在“提示技能不足”（F5，78.6%团队投票）。因为现在的GenAI就像“需要指令才能干活的助手”——比如让AI写用户故事，得说清楚“用户是谁、要做什么、为什么要做”，这就是“提示词设计”；但大多数敏捷团队没接受过系统培训，要么写的提示太简单（比如只说“写个登录功能的用户故事”），AI生成的内容没用；要么写得太复杂，AI抓不住重点，最后反而浪费时间。

问题2：论文的5大路线图里，哪个最适合小团队优先落地？为什么？

答：“工具生态与整合”（主题1）的短期行动最适合小团队。因为小团队资源少、人手紧，最头疼“工具选不对”——比如本来想省时间用AI，结果装了3个工具反而更乱。这个主题的短期行动是“建工具分类学”（比如“写代码用Copilot、写需求用ChatGPT、做测试用CodeLlama”）和“开源工具选择指南”，小团队不用自己调研，直接照着选工具，能快速上手，还不用花钱买商业工具。

问题3：怎么平衡“敏捷的灵活性”和“AI的合规要求”？比如怕数据泄露，又想快速用AI。

答：论文给了“短期+长期”两个办法：短期用“AI评估沙盒”——就是建一个“安全测试环境”，用合成数据（比如编的用户故事、假代码）先试AI工具，没问题了再用真实数据，既不耽误敏捷迭代，又避免合规风险；长期搞“透明AI审计机制”——在敏捷工具里加个功能，记录AI生成内容的“来源”（比如用了哪些训练数据），万一出合规问题能追溯，不用为了合规放弃AI的灵活性。

问题4：这篇论文的成果，对完全没接触过AI的敏捷团队有用吗？

答：有用，而且很实用。因为论文没讲复杂的AI理论，而是从“怎么避坑”“怎么开始用”入手：比如先看6大挫折清单，知道“别人踩过什么坑，自己要注意什么”；再看路线图的短期行动，比如“先参加AI素养工作坊”（学怎么写提示词）、“用开源工具先试手”（不用花钱），相当于给“AI小白团队”一个“入门指南”，不用怕一开始就做错。

问题5：这篇论文有什么局限？后续还需要补充什么研究？

答：主要局限是“参会者代表性不足”——比如没太多终端用户（比如用敏捷开发出来的产品的用户）、产品经理、合规专家参与，可能漏掉了这些角色的痛点；另外，路线图还没在真实企业里验证过，效果怎么样还不知道。后续需要做两件事：一是邀请更多不同角色的人加入，补充痛点；二是在企业里试点路线图（比如选一个团队试“提示技能培训”），看看实际效果，再修改完善。