从挫折到成功:XP2025揭秘GenAI与敏捷融合的“工具+素养+治理”三重解法

论文信息

类别 详情
论文原标题 《AI and Agile Software Development: From Frustrations to Success—Outcomes of the XP2025 Workshop》(暂译:《AI与敏捷软件开发:从挫折到成功——XP2025研讨会成果》)
主要作者 XP2025研讨会协作团队(含30+跨学科参与者,涵盖学术界研究者与行业实践者,无单一核心作者,体现集体共识)
研究机构 参与机构包含软件工程领域高校(未明确具体名称)、科技企业(如敏捷工具提供商)、开源社区代表等,以“产学研协作”模式开展
APA引文格式 XP2025 Workshop Collective. (2025). AI and agile software development: From frustrations to success—Outcomes of the XP2025 Workshop. arXiv Preprint arXiv:2508.20563.
论文链接 https://arxiv.org/pdf/2508.20563

一段话总结

本文是XP2025研讨会(瑞士布鲁格-温迪施举办,主题“AI与敏捷:从挫折到成功”)的成果总结,由30+产学研专家共同完成;核心聚焦“生成式AI(GenAI)与敏捷开发融合”的实际问题,先通过投票梳理出“工具碎片化、提示技能缺口、隐私合规模糊”等6大核心挫折(其中78.6%团队受“提示技能不足”困扰),再针对性构建“工具整合、AI素养、治理合规、价值评估、创造力提升”5大主题研究路线图(每个主题含1-2年短期落地行动与3-5年长期方向),最终提出“测试床、数据集、开源平台”等支撑条件,旨在填补GenAI与敏捷实践的理论-落地差距,帮助团队从“踩坑”走向“成功”。

思维导图

在这里插入图片描述

研究背景

要理解这篇论文,得先搞懂“敏捷开发”和“生成式AI”这俩“搭档”的现状——就像两个人想组队干活,各自本事都不小,但凑一起总出问题。

先说说敏捷开发:它就像“快速迭代的小团队作战模式”——比如一个APP团队,2周一个“冲刺”,每次都要交付能用的功能,还得跟客户随时沟通调整。从2001年“敏捷宣言”出来后,这模式越来越火,后来又加了CI(持续集成)、DevOps(开发运维一体化),核心就是“灵活、高效、以人为本”。

再看生成式AI:最近两年的“明星技术”,能写代码、生成用户故事、甚至帮着做测试——比如GitHub Copilot能自动补代码,ChatGPT能帮产品经理写需求文档。但它不是一开始就这样:2015年前后还只能做“缺陷预测”(比如判断这段代码有没有bug),2020年能做简单代码补全,2021年后才进入“能生成完整内容”的GenAI阶段。

按理说,“灵活的敏捷”+“能干活的GenAI”应该是“黄金搭档”,但实际用起来却满是坑——这就是论文要解决的“核心矛盾”。举几个真实案例你就懂了:

  • 有个开发团队,为了用AI,装了Copilot、ChatGPT、CodeLlama等5个工具,结果每次写代码都要切来切去,反而比不用AI还慢(这就是“工具碎片化”痛点);
  • 某金融公司的敏捷团队,想用AI分析用户反馈,又怕客户数据泄露违反GDPR,最后只能“敢想不敢用”(这就是“隐私合规模糊”痛点);
  • 一个刚接触AI的小团队,让AI写了段代码,结果运行时发现有“幻觉”(AI编了不存在的函数),排查半天还耽误了冲刺进度,从此再也不敢用了(这就是“AI幻觉+提示技能不足”痛点)。

简单说,之前的研究要么只讲“GenAI多厉害”,要么只说“敏捷怎么搞”,却没人系统梳理“两者结合时到底会踩哪些坑”,更没人给“怎么解决这些坑”的落地方案——这篇论文就是来补这个缺口的。

创新点(挖掘独特亮点)

这篇论文不是传统的“实验室研究”,它的创新点全在“实用”和“落地”上,主要有4个:

  1. “从实践者痛点出发”的研究模式:不是先定理论再找案例,而是让30+一线专家(有天天写代码的开发者,有管敏捷项目的经理,还有研究AI的学者)把真实遇到的坑列出来,再投票选出最痛的6个——比如“提示技能缺口”是78.6%的人投票,比其他痛点都高,这就保证了研究方向“不脱离实际”。

  2. “AI实践演示AI价值”的研讨会设计:一般研讨会只聊理论,这篇论文的研讨会却亲自用AI干活——比如用AI生成研讨会主题曲,还建了个“定制GPT”(把所有会议材料喂进去,方便大家查信息),相当于“用自己的行动证明AI能帮上忙”,比光说不练有说服力多了。

  3. “短期能落地+长期有方向”的路线图:很多研究只给“远期愿景”,比如“未来AI会自动做敏捷决策”,但这篇论文的5大路线图每个都分“短期(1-2年)”和“长期(3-5年)”——比如“工具整合”主题,短期先做“工具分类表”(让团队知道该选哪个),长期再做“多智能体界面”(让AI自己选工具),既解决当下问题,又不缺长远规划。

  4. “跨学科协作”的解决方案:GenAI与敏捷融合的问题,不是光靠“写代码”能解决的——比如隐私合规要懂法律,团队心态要懂组织心理学,AI素养要懂教育。这篇论文特意拉了软件工程、人机交互(HCI)、伦理、法律等领域的专家一起聊,避免了“只从技术角度看问题”的局限。

研究方法和思路

这篇论文的研究方法本质是“研讨会协作法”,整个过程分3步,每一步都很扎实:

步骤1:会前准备——收集“素材”(2024年底-2025年初)

  • 先明确研讨会目标:要搞清楚“GenAI在敏捷里怎么用、有什么坑、怎么解决”;
  • 公开征集材料:向全球研究者和实践者要“GenAI+敏捷”的案例、论文、经验报告,最后收到17份,筛选出3篇研究论文、3篇行业报告(比如某大厂的AI敏捷实践)、2个主题演讲(邀请了敏捷领域专家Joshua Kerievsky和AI领域专家Alex Polyakov);
  • 提前建资源库:把所有征集到的材料整理好,还做了个“定制GPT”(方便参会者随时查信息),避免会上“信息不对称”。

步骤2:会中研讨——梳理“痛点”+ 制定“方案”(2025年XP会议期间,约2天)

这一步是核心,分两个环节:

环节1:找痛点(“吐槽大会”+ 投票)
  • 先让参会者分组,每组4-5人,用Padlet(在线协作工具)写下自己遇到的“GenAI+敏捷”坑,一共收集了120+个痛点;
  • 再把痛点归类:比如“工具太多不会选”“不知道怎么写提示词”“怕数据违规”,最后合并成6大类(就是前面说的F1-F6);
  • 投票选“最痛的点”:每个参会者给痛点投票,算出投票率(比如F5“提示技能缺口”78.6%最高),确保优先解决“大家最关心的问题”。
环节2:定方案(分组 brainstorm + 集体共识)
  • 按“痛点类型”分5个小组,每组负责一个解决方案方向(对应后来的5大路线图);
  • 每组先讨论“短期能做什么”(比如解决“提示技能缺口”,短期可以搞培训工作坊),再聊“长期要做什么”(比如长期建“人-AI伙伴模型”);
  • 各组展示方案,全体参会者一起修改,最后形成“集体共识”——确保方案不是某个人拍脑袋想的,而是大家都认可的。

步骤3:会后整理——输出“成果”(2025年会议后1-2个月)

  • 把会上的讨论记录、投票结果、路线图草稿整理成文稿;
  • 发给所有参会者审核,修改意见后再定稿;
  • 补充“落地支撑条件”:比如要做这些方案,需要“测试床”(模拟敏捷环境的实验平台)、“数据集”(训练AI用的敏捷工件,比如用户故事、代码),最后形成这篇论文。

八、主要成果和贡献(大白话+表格)

这篇论文的成果不是“某个新算法”,而是“能直接用的指南和路线图”,核心价值是“帮团队少踩坑、快落地”。用表格总结更清楚:

核心成果类型 具体内容 给领域带来的实际价值 相关资源(开源/工具)
1. 6大核心挫折清单 明确GenAI+敏捷的关键问题:工具碎片化(F1)、隐私合规(F2)、流程错位(F3)、AI幻觉(F4)、提示技能缺口(F5)、创造力不足(F6) 让团队知道“别人也在踩这些坑”,不用自己摸黑找问题;也给研究者指明“该研究什么” 无(清单已在论文中公开)
2. 5大主题路线图 每个主题对应1-2个痛点,含短期(1-2年)和长期(3-5年)行动(如“工具整合”主题:短期建工具分类学,长期做多智能体界面) 团队能直接照路线图做事(比如小团队先看“工具分类学”选工具,大厂可以探索“多智能体界面”);避免“盲目试错” 后续计划建开源协作平台(论文未给具体地址,待更新)
3. 4大落地支撑条件 AI4Agile测试床(模拟敏捷环境)、敏捷工件数据集(训练AI用)、多维度评估框架(测AI效果)、开源平台(共享工具/案例) 解决“想做但没资源”的问题——比如小团队没有数据集,可以用共享数据集训练AI;企业可以用测试床先试AI,再落地 测试床和数据集待共建(论文呼吁研究者/实践者参与)
4. 跨学科协作模式 证明“软件工程+人机交互+伦理+法律”一起解决问题,比单一领域更有效 打破“技术只管技术、法律只管法律”的壁垒——比如做AI工具时,提前让法律专家参与,避免合规风险 无(模式可直接借鉴)

关键问题

问题1:GenAI与敏捷融合时,团队最容易卡在哪个环节?为什么?

答:最容易卡在“提示技能不足”(F5,78.6%团队投票)。因为现在的GenAI就像“需要指令才能干活的助手”——比如让AI写用户故事,得说清楚“用户是谁、要做什么、为什么要做”,这就是“提示词设计”;但大多数敏捷团队没接受过系统培训,要么写的提示太简单(比如只说“写个登录功能的用户故事”),AI生成的内容没用;要么写得太复杂,AI抓不住重点,最后反而浪费时间。

问题2:论文的5大路线图里,哪个最适合小团队优先落地?为什么?

答:“工具生态与整合”(主题1)的短期行动最适合小团队。因为小团队资源少、人手紧,最头疼“工具选不对”——比如本来想省时间用AI,结果装了3个工具反而更乱。这个主题的短期行动是“建工具分类学”(比如“写代码用Copilot、写需求用ChatGPT、做测试用CodeLlama”)和“开源工具选择指南”,小团队不用自己调研,直接照着选工具,能快速上手,还不用花钱买商业工具。

问题3:怎么平衡“敏捷的灵活性”和“AI的合规要求”?比如怕数据泄露,又想快速用AI。

答:论文给了“短期+长期”两个办法:短期用“AI评估沙盒”——就是建一个“安全测试环境”,用合成数据(比如编的用户故事、假代码)先试AI工具,没问题了再用真实数据,既不耽误敏捷迭代,又避免合规风险;长期搞“透明AI审计机制”——在敏捷工具里加个功能,记录AI生成内容的“来源”(比如用了哪些训练数据),万一出合规问题能追溯,不用为了合规放弃AI的灵活性。

问题4:这篇论文的成果,对完全没接触过AI的敏捷团队有用吗?

答:有用,而且很实用。因为论文没讲复杂的AI理论,而是从“怎么避坑”“怎么开始用”入手:比如先看6大挫折清单,知道“别人踩过什么坑,自己要注意什么”;再看路线图的短期行动,比如“先参加AI素养工作坊”(学怎么写提示词)、“用开源工具先试手”(不用花钱),相当于给“AI小白团队”一个“入门指南”,不用怕一开始就做错。

问题5:这篇论文有什么局限?后续还需要补充什么研究?

答:主要局限是“参会者代表性不足”——比如没太多终端用户(比如用敏捷开发出来的产品的用户)、产品经理、合规专家参与,可能漏掉了这些角色的痛点;另外,路线图还没在真实企业里验证过,效果怎么样还不知道。后续需要做两件事:一是邀请更多不同角色的人加入,补充痛点;二是在企业里试点路线图(比如选一个团队试“提示技能培训”),看看实际效果,再修改完善。

论文总结

本文基于XP2025研讨会的跨学科协作成果,系统梳理了生成式AI(GenAI)与敏捷软件开发融合过程中的6大核心挫折,其中“提示技能缺口”是实践者最关注的痛点;进而构建了以“人中心、负责任”为原则的5大研究路线图,每个路线图均覆盖短期落地行动与长期发展方向,同时提出“测试床、数据集、开源平台”等落地支撑条件。

论文的核心贡献在于:一是填补了“GenAI+敏捷”领域“理论多、实践少”的缺口,提供了可直接参考的痛点清单和行动指南;二是开创了“产学研协作”解决 socio-technical 问题(技术+社会因素结合的问题)的模式,为后续类似研究提供了借鉴。

但论文也存在局限:参会者覆盖角色不够全面(如终端用户、合规专家不足),路线图尚未经过工业场景验证。未来需要更多跨角色、跨行业的协作,通过真实案例验证路线图效果,进一步完善GenAI与敏捷融合的实践体系。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐