[论文阅读] AI+软件工程（安全） | LLM 与专业经验对Web应用安全需求评估的影响

本研究旨在探究LLM使用和专业软件开发经验对网络应用安全需求评估的影响。通过对23名研究生的分组实验，结合MoSCoW优先级法和8项评估标准，运用非参数检验进行数据分析。结果表明，LLM使用对评估无显著影响，而专业经验对成本、用户体验、风险评估有显著作用。研究填补了相关领域空白，强调了专业经验在 cybersecurity 决策中的重要性，为软件工程领域的人才培养和实践工作提供了有价值的参考。

zhangjiaoshou_

990人浏览 · 2025-10-11 15:30:00

zhangjiaoshou_ · 2025-10-11 15:30:00 发布

LLM 与专业经验对Web应用安全需求评估的影响

论文信息

论文原标题：Selecting Cybersecurity Requirements: Effects of LLM Use and Professional Software Development Experience
主要作者及研究机构：来自卢布尔雅那大学计算机与信息科学学院的研究者团队

arXiv:2510.04274
Selecting Cybersecurity Requirements: Effects of LLM Use and Professional Software Development Experience
Damjan Fujs, Damjan Vavpotič, Tomaž Hovelja, Marko Poženel
Comments: 5 pages, 1 figure, 2 tables, presented at IARIA CYBER 2025
Journal-ref: The Tenth International Conference on Cyber-Technologies and Cyber-Systems (CYBER 2025), September 28, 2025 to October 02, 2025 - Lisbon, Portugal
Subjects: Software Engineering (cs.SE)

一段话总结

该研究以23名卢布尔雅那大学计算机与信息科学学院的研究生为对象，探究大型语言模型（LLM）使用和专业软件开发经验对网络应用安全需求（SR）优先级排序及评估的影响。参与者被分为两组（实验组12人可使用LLM，对照组11人不可使用），通过MoSCoW方法对15个SR进行优先级划分（筛选2个“Must-have”、2个“Should-have”、2个“Could-have”），并基于8项标准进行5分制评估。结果显示，Mann-Whitney U检验表明LLM使用对SR评估无显著差异（H1不成立） ，而Kruskal-Wallis检验显示专业经验对“估计开发成本（EC）”“用户体验影响（UX）”“未实现风险（RM）”3项标准有显著影响（H2部分成立） ：经验更丰富的参与者对UX影响评分更高、风险估计更低，且能更准确估计成本。研究最终为软件工程领域的后续实证研究提供指导，强调了从业者专业经验在 cybersecurity 决策中的重要性。

思维导图

在这里插入图片描述

研究背景

在当下数字化时代，软件就像我们生活中的“基础设施”，小到手机里的社交APP，大到企业的管理系统，复杂度都在不断飙升。而网络安全，就像是软件的“防盗门”，必须在开发早期就考虑周全，否则一旦出现漏洞，可能会导致用户信息泄露、系统瘫痪等严重问题。

以前，大家普遍认为，有经验的开发人员在评估软件安全需求时会更靠谱，毕竟他们见过更多“坑”。但随着大型语言模型（LLM）的兴起，不少人猜测，LLM或许能像“外挂”一样，帮助经验不足的人也做出准确的安全评估，缩小经验差距。就像新手厨师跟着智能菜谱可能做出不错的菜一样，新手开发者是不是用了LLM就能在安全评估上媲美老手呢？可现实中，这个问题一直没有明确答案，现有研究要么只看LLM的作用，要么只关注经验，却没人把两者放在一起好好研究。这篇论文就是为了填补这个空白，看看LLM和专业经验到底谁对网络应用安全需求评估影响更大。

创新点

双变量研究视角：突破以往单一变量研究的局限，首次将LLM使用和专业软件开发经验作为两个关键变量，共同探究它们对网络应用安全需求评估的影响，更贴近实际开发场景。
聚焦准从业者群体：选择研究生作为研究对象，他们既有一定理论基础，又即将进入职场，研究结果对行业人才培养和实际工作具有更强的参考价值，避免了仅研究新手或老手的片面性。
多维度评估体系：不仅采用MoSCoW方法划分安全需求优先级，还从“未实现风险”“估计成本”“用户体验影响”等8个维度进行评估，让研究结果更全面、更具说服力。

研究方法和思路、实验方法等

1. 参与者与分组

参与者：23名卢布尔雅那大学计算机与信息科学学院的研究生，均参与过“高级软件开发方法”课程，有ScrumBan web应用开发基础。
经验分组：根据“非教育类专业软件开发年限”分为3组：0年（10人）、1年（6人）、2+年（7人）。
LLM分组：实验组（12人）可自选LLM（6人用ChatGPT，2人用DeepSeek等）；对照组（11人）不可使用LLM。

2. 任务设计（3个阶段）

阶段	核心内容	关键细节
调查阶段	知情同意+信息收集	收集基本信息和专业软件开发经验
任务阶段（2小时）	选SR→优先级划分→评估	1. 从ScrumBan web应用场景中选15个安全需求（SR）； 2. 用MoSCoW法选2个“Must-have”（必须有）、2个“Should-have”（应该有）、2个“Could-have”（可以有），剩余9个为“Won’t have”（暂不有）； 3. 基于8项标准对选中的SR进行5分制评估
分析阶段	数据统计与检验	用Mann-Whitney U检验比较LLM组与对照组差异，用Kruskal-Wallis检验比较不同经验组差异，报告中位数和p值

3. 8项SR评估标准（5分制）

ID	评估项	1分（最低）	5分（最高）
RM	未实现风险	风险极小	严重安全风险
ET	估计时间	<1小时	>10小时
EC	估计成本	无成本（易实现）	高成本（需外部工具/专家）
TC	技术复杂度	极简单（无需研究）	极复杂（需重构/专业知识）
UX	用户体验影响	几乎无影响	高影响
SV	安全价值	极小安全收益	应用安全必需
CP	生产环境必要性	无需上线	上线前必需
AL	滥用可能性	极不可能	极可能（无此功能时）

主要成果和贡献

主要成果（表格归纳）

研究问题（RQ）	研究方法	结论
RQ1：LLM使用对SR评估有何影响？	Mann-Whitney U检验（LLM组vs对照组）	无显著差异（H1不成立）
RQ2：专业经验对SR评估有何影响？	Kruskal-Wallis检验（不同经验组）	对“估计开发成本（EC）”“用户体验影响（UX）”“未实现风险（RM）”有显著影响（H2部分成立）

核心价值

这篇研究的厉害之处在于，它用实实在在的实验打破了“LLM能轻松提升安全评估能力”的幻想。对于企业来说，以后不能指望靠LLM就让新手开发者独立完成重要的安全评估，还是得重视老员工的经验传承；对于学校来说，培养计算机专业学生时，要更注重实践经验的积累，不能只依赖AI工具。而且，研究还指出了专业经验具体在哪些方面起作用，比如经验丰富的人能更准确估计成本、更关注用户体验、更理性判断风险，这为针对性培养开发者的安全评估能力提供了方向。

详细总结

一、引言（研究背景、假设与贡献）

研究背景
- 软件开发动态性增强，需结构化决策；随着系统复杂度与AI融合提升，cybersecurity需在开发早期介入，但决策仍以人为主导。
- 现有认知：专业经验可能提升决策有效性（文献支持[4]），但Agentic AI或可承担部分cybersecurity决策（[5]），需验证LLM是否缩小经验差距。
研究假设
- H1：LLM使用对参与者评估SR的8项标准有显著影响。
- H2：专业软件开发经验对参与者评估SR的8项标准有显著影响。
研究贡献
- C1：实证表明LLM对研究生的cybersecurity决策影响有限，不显著改变SR优先级与评估结果。
- C2：验证专业经验显著影响SR评估（成本、UX、风险），强调从业者经验对cybersecurity策略的重要性。

二、相关工作（现有研究缺口）

研究者（年份）	研究内容	核心结论
Ronanki et al.（2023）	ChatGPT辅助需求获取	ChatGPT生成的需求质量高于人类需求工程专家
Krishna et al.（2024）	LLM生成软件需求规格说明书	LLM输出质量可媲美入门级软件工程师
Perry et al.（2023）	AI辅助代码编写与安全性	使用AI助手的参与者编写的代码安全性更低（过度依赖风险）
Jalali et al.（2019）	专业经验与cybersecurity决策	未发现专业经验显著影响cybersecurity决策的明确证据
本研究	LLM+专业经验对SR评估的影响	填补“LLM与经验如何共同影响SR优先级/评估”的研究缺口

三、研究方法（实验设计与流程）

参与者与分组
- 样本：23名研究生（卢布尔雅那大学，技术学科硕士项目，含计算机科学、数学、多媒体方向），均参与“高级软件开发方法”课程，有ScrumBan web应用开发基础（含登录功能的安全实现经验）。
- 分组：
  - 实验组（N=12）：可自选LLM（6人用ChatGPT，2人用DeepSeek，2人用Gemini，1人用Perplexity，1人用Claude）；
  - 对照组（N=11）：无LLM使用权限。
- 经验分组：基于“非教育类专业软件开发年限”分为3组——0年（N=10）、1年（N=6）、2+年（N=7） 。

任务设计（3阶段）

阶段	核心内容	关键细节
调查阶段	知情同意+信息收集	收集基本信息、专业经验（问题：“非教育类专业软件开发年限”）
任务阶段（2小时）	1. 选SR→2. 优先级划分→3. 评估	1. 基于ScrumBan web应用，选15个SR； 2. 用MoSCoW法选2个“Must-have”、2个“Should-have”、2个“Could-have”，剩余9个为“Won’t have”； 3. 基于8项标准（表1）进行5分制评估
分析阶段	数据统计与检验	用Mann-Whitney U检验（LLM组vs对照组）、Kruskal-Wallis检验（经验组间比较），报告中位数与p值

8项SR评估标准（5分制）
表1：SR评估标准详情

ID	评估项（Item）	1分（最低）	5分（最高）
RM	未实现风险	风险极小	严重安全风险
ET	估计时间	<1小时	>10小时
EC	估计成本	无成本（易实现）	高成本（需外部工具/专家）
TC	技术复杂度	极简单（无需研究）	极复杂（需重构/专业知识）
UX	用户体验影响	几乎无影响	高影响
SV	安全价值	极小安全收益	应用安全必需
CP	生产环境必要性	无需上线	上线前必需
AL	滥用可能性	极不可能	极可能（无此功能时）

四、结果与讨论

LLM使用的影响（H1验证）
- 结论：H1不成立——Mann-Whitney U检验显示，LLM组与对照组在8项评估标准上均无显著差异（p>0.05）。
- 原因分析：
  - LLM仅辅助生成SR，未影响参与者对自身方案的评估（评估基于自我认知，而非LLM反馈）；
  - 研究生缺乏行业经验，难以批判性评估SR质量，导致两组评估趋同；
  - 实验组可自主选择是否使用LLM，未强制使用，可能存在LLM利用不充分的情况。

专业经验的影响（H2验证）

结论：H2部分成立——Kruskal-Wallis检验显示，仅3类评估项（EC、UX、RM）存在显著差异（p<0.05），且仅“Should-have”和“Could-have”类SR有差异，“Must-have”类无差异（因属基础安全机制，认知统一）。

显著差异详情（表2）：
表2：专业经验对SR评估的显著影响（中位数与p值）

ID	评估项	经验分组（中位数）	p值	核心发现
S1 EC	估计成本	0年：2.00；1年：2.50；2+年：3.00	0.010	经验越丰富，成本估计越准确（无经验者低估）
S1 UX	用户体验影响	0年：1.00；1年：1.00；2+年：2.00	0.036	2+年经验者对UX影响评分更高（更关注用户体验）
S2 RM	未实现风险	0年：4.00；1年：4.00；2+年：3.00	0.049	2+年经验者风险估计更低（更了解风险边界）
C1 RM	未实现风险	0年：3.00；1年：2.00；2+年：3.00	0.003	经验组间风险认知差异显著（p<0.01）
C2 EC	估计成本	0年：1.50；1年：2.50；2+年：2.00	0.018	无经验者显著低估成本（与S1 EC一致）

五、研究局限性

样本量有限：仅23人，统计效力低，结果可推广性受限。
主观偏差：评估为自我报告，参与者可能依赖直觉而非系统分析，结果准确性受影响。
分组偏差：按教室位置分组（前11人对照组，后12人实验组），可能聚类相似特征（如学术能力），影响组间可比性。
LLM利用不充分：参与者可能因时间限制、不熟悉提示词或怀疑工具价值，未充分发挥LLM功能。

六、结论与未来工作

核心结论
- LLM对研究生评估SR无显著影响，暂无法缩小经验差距；
- 专业软件开发经验显著影响成本、UX、风险评估，是cybersecurity决策的关键因素。
未来研究方向
- 设计需深度LLM交互的任务，更精准评估LLM对SR评估的影响；
- 引入外部专家评估或同行评审，提升SR评估的客观性；
- 探究不同职业角色（如开发者、项目经理、利益相关者）对LLM输出的评估差异。

4. 关键问题

问题1：该研究中LLM的使用为何未对参与者评估网络应用安全需求（SR）产生显著影响？核心原因有哪些？

答案：研究通过Mann-Whitney U检验发现，LLM使用对SR的8项评估标准均无显著影响（H1不成立），核心原因包括3点：

LLM的角色定位有限：LLM仅被用于辅助生成15个SR，未参与后续评估环节，而参与者的评估基于对自身方案的自我认知（如个人经验、信心），而非LLM的反馈；
参与者经验不足：23名参与者均为研究生，缺乏正式行业经验，难以批判性评估SR的质量（如技术复杂度、实际风险），导致无论是否使用LLM，评估逻辑与结果趋同；
LLM使用非强制：实验组可自主选择是否使用LLM，未被强制要求依赖工具，可能存在部分参与者未充分使用LLM（如不熟悉提示词、时间限制），削弱了LLM对评估的潜在影响。

问题2：专业软件开发经验对参与者评估SR的哪些具体维度有显著影响？不同经验组的评估差异具体表现为何？

答案：通过Kruskal-Wallis检验，专业经验仅对3类评估维度（估计成本EC、用户体验影响UX、未实现风险RM）有显著影响（p<0.05），且仅“Should-have”和“Could-have”类SR存在差异（“Must-have”类因属基础安全机制，认知统一），具体差异如下：

估计成本（EC）：经验越丰富，成本估计越准确——0年经验组中位数仅2.00（S1 EC）/1.50（C2 EC），2+年经验组中位数达3.00（S1 EC）/2.00（C2 EC），无经验者显著低估开发成本（如忽视预算、资源分配或集成复杂度）；
用户体验影响（UX）：经验更丰富者更关注UX——2+年经验组对S1 UX的中位数评分（2.00）显著高于0年/1年组（均为1.00），反映其在安全需求设计中更重视用户体验与安全性的平衡；
未实现风险（RM）：经验更丰富者风险估计更理性——2+年经验组对S2 RM的中位数评分（3.00）低于0年/1年组（均为4.00），因他们更了解实际场景中的风险边界，避免过度估计风险。

问题3：该研究在方法设计上存在哪些关键局限性？这些局限性可能如何影响研究结果的可靠性与可推广性？

答案：研究存在4项关键局限性，对结果的可靠性与可推广性产生显著影响：

样本量过小：仅23人参与，统计检验的效力低（如非参数检验对样本量敏感），难以排除偶然因素，结果可能无法推广到更大规模的开发者群体（如行业从业者）；
评估方式主观：SR评估为自我报告，参与者可能依赖直觉或 heuristics（而非系统分析），且可能存在“社会期望偏差”（如高估自身方案的安全价值），导致评估结果准确性下降；
分组存在选择偏差：按教室位置分组（前11人对照组，后12人实验组），未采用随机抽样，可能聚类相似特征（如学术能力强的学生集中在某一组），破坏组间可比性，影响LLM影响结论的可靠性；
LLM使用不充分：参与者未被强制使用LLM，且可能因时间限制（2小时任务）、不熟悉提示词技巧或怀疑工具价值，未充分发挥LLM功能，导致无法真实评估LLM对SR评估的潜在作用，可能低估LLM的实际影响。

总结

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

个人博客作业 1：提 5 个问题

笔者最近在北京中关村学院修读邹欣老师的《现代软件工程》课程。我是一名数学背景的学生，目前研究大模型强化学习和大模型 Agent 系统，跨入 CS/AI 领域的时间较短，自然代码能力较为浅薄。作为软件工程领域的初学者，我希望通过这门课能够提升编我的编程能力，更好地跟团队协作进行代码创作。以下是我在阅读课程材料《构建之法》时，思考出来的几个问题，希望能和更多开发者交流。

2048 AI社区

更懂新媒体获客的超级「AI 私信线索工具」，让客资转化快人一步！

2048 AI社区

【必学收藏】阿里Qwen3模型完全解析：从架构到代码实现，带你深入理解大模型原理

很多模型都会在这个基础去创新，比如最开始的MHA–>GQA–>MQA–>MLA，通过上图可以看到GQA核心是将KV进行分组，多个Q给到分组的KV(核心参数：num_kv_groups)，从而减少计算和内存开销。在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。整体的一个Qwe