LLM 与专业经验对Web应用安全需求评估的影响

论文信息

  • 论文原标题:Selecting Cybersecurity Requirements: Effects of LLM Use and Professional Software Development Experience
  • 主要作者及研究机构:来自卢布尔雅那大学计算机与信息科学学院的研究者团队

arXiv:2510.04274
Selecting Cybersecurity Requirements: Effects of LLM Use and Professional Software Development Experience
Damjan Fujs, Damjan Vavpotič, Tomaž Hovelja, Marko Poženel
Comments: 5 pages, 1 figure, 2 tables, presented at IARIA CYBER 2025
Journal-ref: The Tenth International Conference on Cyber-Technologies and Cyber-Systems (CYBER 2025), September 28, 2025 to October 02, 2025 - Lisbon, Portugal
Subjects: Software Engineering (cs.SE)

一段话总结

该研究以23名卢布尔雅那大学计算机与信息科学学院的研究生为对象,探究大型语言模型(LLM)使用专业软件开发经验对网络应用安全需求(SR)优先级排序及评估的影响。参与者被分为两组(实验组12人可使用LLM,对照组11人不可使用),通过MoSCoW方法对15个SR进行优先级划分(筛选2个“Must-have”、2个“Should-have”、2个“Could-have”),并基于8项标准进行5分制评估。结果显示,Mann-Whitney U检验表明LLM使用对SR评估无显著差异(H1不成立) ,而Kruskal-Wallis检验显示专业经验对“估计开发成本(EC)”“用户体验影响(UX)”“未实现风险(RM)”3项标准有显著影响(H2部分成立) :经验更丰富的参与者对UX影响评分更高、风险估计更低,且能更准确估计成本。研究最终为软件工程领域的后续实证研究提供指导,强调了从业者专业经验在 cybersecurity 决策中的重要性。

思维导图

在这里插入图片描述

研究背景

在当下数字化时代,软件就像我们生活中的“基础设施”,小到手机里的社交APP,大到企业的管理系统,复杂度都在不断飙升。而网络安全,就像是软件的“防盗门”,必须在开发早期就考虑周全,否则一旦出现漏洞,可能会导致用户信息泄露、系统瘫痪等严重问题。

以前,大家普遍认为,有经验的开发人员在评估软件安全需求时会更靠谱,毕竟他们见过更多“坑”。但随着大型语言模型(LLM)的兴起,不少人猜测,LLM或许能像“外挂”一样,帮助经验不足的人也做出准确的安全评估,缩小经验差距。就像新手厨师跟着智能菜谱可能做出不错的菜一样,新手开发者是不是用了LLM就能在安全评估上媲美老手呢?可现实中,这个问题一直没有明确答案,现有研究要么只看LLM的作用,要么只关注经验,却没人把两者放在一起好好研究。这篇论文就是为了填补这个空白,看看LLM和专业经验到底谁对网络应用安全需求评估影响更大。

创新点

  1. 双变量研究视角:突破以往单一变量研究的局限,首次将LLM使用和专业软件开发经验作为两个关键变量,共同探究它们对网络应用安全需求评估的影响,更贴近实际开发场景。
  2. 聚焦准从业者群体:选择研究生作为研究对象,他们既有一定理论基础,又即将进入职场,研究结果对行业人才培养和实际工作具有更强的参考价值,避免了仅研究新手或老手的片面性。
  3. 多维度评估体系:不仅采用MoSCoW方法划分安全需求优先级,还从“未实现风险”“估计成本”“用户体验影响”等8个维度进行评估,让研究结果更全面、更具说服力。

研究方法和思路、实验方法等

1. 参与者与分组

  • 参与者:23名卢布尔雅那大学计算机与信息科学学院的研究生,均参与过“高级软件开发方法”课程,有ScrumBan web应用开发基础。
  • 经验分组:根据“非教育类专业软件开发年限”分为3组:0年(10人)、1年(6人)、2+年(7人)。
  • LLM分组:实验组(12人)可自选LLM(6人用ChatGPT,2人用DeepSeek等);对照组(11人)不可使用LLM。

2. 任务设计(3个阶段)

阶段 核心内容 关键细节
调查阶段 知情同意+信息收集 收集基本信息和专业软件开发经验
任务阶段(2小时) 选SR→优先级划分→评估 1. 从ScrumBan web应用场景中选15个安全需求(SR);
2. 用MoSCoW法选2个“Must-have”(必须有)、2个“Should-have”(应该有)、2个“Could-have”(可以有),剩余9个为“Won’t have”(暂不有);
3. 基于8项标准对选中的SR进行5分制评估
分析阶段 数据统计与检验 用Mann-Whitney U检验比较LLM组与对照组差异,用Kruskal-Wallis检验比较不同经验组差异,报告中位数和p值

3. 8项SR评估标准(5分制)

ID 评估项 1分(最低) 5分(最高)
RM 未实现风险 风险极小 严重安全风险
ET 估计时间 <1小时 >10小时
EC 估计成本 无成本(易实现) 高成本(需外部工具/专家)
TC 技术复杂度 极简单(无需研究) 极复杂(需重构/专业知识)
UX 用户体验影响 几乎无影响 高影响
SV 安全价值 极小安全收益 应用安全必需
CP 生产环境必要性 无需上线 上线前必需
AL 滥用可能性 极不可能 极可能(无此功能时)

主要成果和贡献

主要成果(表格归纳)

研究问题(RQ) 研究方法 结论
RQ1:LLM使用对SR评估有何影响? Mann-Whitney U检验(LLM组vs对照组) 无显著差异(H1不成立)
RQ2:专业经验对SR评估有何影响? Kruskal-Wallis检验(不同经验组) 对“估计开发成本(EC)”“用户体验影响(UX)”“未实现风险(RM)”有显著影响(H2部分成立)

核心价值

这篇研究的厉害之处在于,它用实实在在的实验打破了“LLM能轻松提升安全评估能力”的幻想。对于企业来说,以后不能指望靠LLM就让新手开发者独立完成重要的安全评估,还是得重视老员工的经验传承;对于学校来说,培养计算机专业学生时,要更注重实践经验的积累,不能只依赖AI工具。而且,研究还指出了专业经验具体在哪些方面起作用,比如经验丰富的人能更准确估计成本、更关注用户体验、更理性判断风险,这为针对性培养开发者的安全评估能力提供了方向。

详细总结

一、引言(研究背景、假设与贡献)
  1. 研究背景

    • 软件开发动态性增强,需结构化决策;随着系统复杂度与AI融合提升,cybersecurity需在开发早期介入,但决策仍以人为主导。
    • 现有认知:专业经验可能提升决策有效性(文献支持[4]),但Agentic AI或可承担部分cybersecurity决策([5]),需验证LLM是否缩小经验差距。
  2. 研究假设

    • H1:LLM使用对参与者评估SR的8项标准有显著影响。
    • H2:专业软件开发经验对参与者评估SR的8项标准有显著影响。
  3. 研究贡献

    • C1:实证表明LLM对研究生的cybersecurity决策影响有限,不显著改变SR优先级与评估结果。
    • C2:验证专业经验显著影响SR评估(成本、UX、风险),强调从业者经验对cybersecurity策略的重要性。
二、相关工作(现有研究缺口)
研究者(年份) 研究内容 核心结论
Ronanki et al.(2023) ChatGPT辅助需求获取 ChatGPT生成的需求质量高于人类需求工程专家
Krishna et al.(2024) LLM生成软件需求规格说明书 LLM输出质量可媲美入门级软件工程师
Perry et al.(2023) AI辅助代码编写与安全性 使用AI助手的参与者编写的代码安全性更低(过度依赖风险)
Jalali et al.(2019) 专业经验与cybersecurity决策 未发现专业经验显著影响cybersecurity决策的明确证据
本研究 LLM+专业经验对SR评估的影响 填补“LLM与经验如何共同影响SR优先级/评估”的研究缺口
三、研究方法(实验设计与流程)
  1. 参与者与分组

    • 样本:23名研究生(卢布尔雅那大学,技术学科硕士项目,含计算机科学、数学、多媒体方向),均参与“高级软件开发方法”课程,有ScrumBan web应用开发基础(含登录功能的安全实现经验)。
    • 分组:
      • 实验组(N=12):可自选LLM(6人用ChatGPT,2人用DeepSeek,2人用Gemini,1人用Perplexity,1人用Claude);
      • 对照组(N=11):无LLM使用权限。
    • 经验分组:基于“非教育类专业软件开发年限”分为3组——0年(N=10)、1年(N=6)、2+年(N=7)
  2. 任务设计(3阶段)

    阶段 核心内容 关键细节
    调查阶段 知情同意+信息收集 收集基本信息、专业经验(问题:“非教育类专业软件开发年限”)
    任务阶段(2小时) 1. 选SR→2. 优先级划分→3. 评估 1. 基于ScrumBan web应用,选15个SR;
    2. 用MoSCoW法选2个“Must-have”、2个“Should-have”、2个“Could-have”,剩余9个为“Won’t have”;
    3. 基于8项标准(表1)进行5分制评估
    分析阶段 数据统计与检验 Mann-Whitney U检验(LLM组vs对照组)、Kruskal-Wallis检验(经验组间比较),报告中位数与p值
  3. 8项SR评估标准(5分制)
    表1:SR评估标准详情

    ID 评估项(Item) 1分(最低) 5分(最高)
    RM 未实现风险 风险极小 严重安全风险
    ET 估计时间 <1小时 >10小时
    EC 估计成本 无成本(易实现) 高成本(需外部工具/专家)
    TC 技术复杂度 极简单(无需研究) 极复杂(需重构/专业知识)
    UX 用户体验影响 几乎无影响 高影响
    SV 安全价值 极小安全收益 应用安全必需
    CP 生产环境必要性 无需上线 上线前必需
    AL 滥用可能性 极不可能 极可能(无此功能时)
四、结果与讨论
  1. LLM使用的影响(H1验证)

    • 结论:H1不成立——Mann-Whitney U检验显示,LLM组与对照组在8项评估标准上均无显著差异(p>0.05)。
    • 原因分析:
      • LLM仅辅助生成SR,未影响参与者对自身方案的评估(评估基于自我认知,而非LLM反馈);
      • 研究生缺乏行业经验,难以批判性评估SR质量,导致两组评估趋同;
      • 实验组可自主选择是否使用LLM,未强制使用,可能存在LLM利用不充分的情况。
  2. 专业经验的影响(H2验证)

    • 结论:H2部分成立——Kruskal-Wallis检验显示,仅3类评估项(EC、UX、RM)存在显著差异(p<0.05),且仅“Should-have”和“Could-have”类SR有差异,“Must-have”类无差异(因属基础安全机制,认知统一)。
    • 显著差异详情(表2):
      表2:专业经验对SR评估的显著影响(中位数与p值)
      ID 评估项 经验分组(中位数) p值 核心发现
      S1 EC 估计成本 0年:2.00;1年:2.50;2+年:3.00 0.010 经验越丰富,成本估计越准确(无经验者低估)
      S1 UX 用户体验影响 0年:1.00;1年:1.00;2+年:2.00 0.036 2+年经验者对UX影响评分更高(更关注用户体验)
      S2 RM 未实现风险 0年:4.00;1年:4.00;2+年:3.00 0.049 2+年经验者风险估计更低(更了解风险边界)
      C1 RM 未实现风险 0年:3.00;1年:2.00;2+年:3.00 0.003 经验组间风险认知差异显著(p<0.01)
      C2 EC 估计成本 0年:1.50;1年:2.50;2+年:2.00 0.018 无经验者显著低估成本(与S1 EC一致)
五、研究局限性
  1. 样本量有限:仅23人,统计效力低,结果可推广性受限。
  2. 主观偏差:评估为自我报告,参与者可能依赖直觉而非系统分析,结果准确性受影响。
  3. 分组偏差:按教室位置分组(前11人对照组,后12人实验组),可能聚类相似特征(如学术能力),影响组间可比性。
  4. LLM利用不充分:参与者可能因时间限制、不熟悉提示词或怀疑工具价值,未充分发挥LLM功能。
六、结论与未来工作
  1. 核心结论

    • LLM对研究生评估SR无显著影响,暂无法缩小经验差距;
    • 专业软件开发经验显著影响成本、UX、风险评估,是cybersecurity决策的关键因素。
  2. 未来研究方向

    • 设计需深度LLM交互的任务,更精准评估LLM对SR评估的影响;
    • 引入外部专家评估或同行评审,提升SR评估的客观性;
    • 探究不同职业角色(如开发者、项目经理、利益相关者)对LLM输出的评估差异。

4. 关键问题

问题1:该研究中LLM的使用为何未对参与者评估网络应用安全需求(SR)产生显著影响?核心原因有哪些?

答案:研究通过Mann-Whitney U检验发现,LLM使用对SR的8项评估标准均无显著影响(H1不成立),核心原因包括3点:

  1. LLM的角色定位有限:LLM仅被用于辅助生成15个SR,未参与后续评估环节,而参与者的评估基于对自身方案的自我认知(如个人经验、信心),而非LLM的反馈;
  2. 参与者经验不足:23名参与者均为研究生,缺乏正式行业经验,难以批判性评估SR的质量(如技术复杂度、实际风险),导致无论是否使用LLM,评估逻辑与结果趋同;
  3. LLM使用非强制:实验组可自主选择是否使用LLM,未被强制要求依赖工具,可能存在部分参与者未充分使用LLM(如不熟悉提示词、时间限制),削弱了LLM对评估的潜在影响。
问题2:专业软件开发经验对参与者评估SR的哪些具体维度有显著影响?不同经验组的评估差异具体表现为何?

答案:通过Kruskal-Wallis检验,专业经验仅对3类评估维度(估计成本EC、用户体验影响UX、未实现风险RM)有显著影响(p<0.05),且仅“Should-have”和“Could-have”类SR存在差异(“Must-have”类因属基础安全机制,认知统一),具体差异如下:

  1. 估计成本(EC):经验越丰富,成本估计越准确——0年经验组中位数仅2.00(S1 EC)/1.50(C2 EC),2+年经验组中位数达3.00(S1 EC)/2.00(C2 EC),无经验者显著低估开发成本(如忽视预算、资源分配或集成复杂度);
  2. 用户体验影响(UX):经验更丰富者更关注UX——2+年经验组对S1 UX的中位数评分(2.00)显著高于0年/1年组(均为1.00),反映其在安全需求设计中更重视用户体验与安全性的平衡;
  3. 未实现风险(RM):经验更丰富者风险估计更理性——2+年经验组对S2 RM的中位数评分(3.00)低于0年/1年组(均为4.00),因他们更了解实际场景中的风险边界,避免过度估计风险。
问题3:该研究在方法设计上存在哪些关键局限性?这些局限性可能如何影响研究结果的可靠性与可推广性?

答案:研究存在4项关键局限性,对结果的可靠性与可推广性产生显著影响:

  1. 样本量过小:仅23人参与,统计检验的效力低(如非参数检验对样本量敏感),难以排除偶然因素,结果可能无法推广到更大规模的开发者群体(如行业从业者);
  2. 评估方式主观:SR评估为自我报告,参与者可能依赖直觉或 heuristics(而非系统分析),且可能存在“社会期望偏差”(如高估自身方案的安全价值),导致评估结果准确性下降;
  3. 分组存在选择偏差:按教室位置分组(前11人对照组,后12人实验组),未采用随机抽样,可能聚类相似特征(如学术能力强的学生集中在某一组),破坏组间可比性,影响LLM影响结论的可靠性;
  4. LLM使用不充分:参与者未被强制使用LLM,且可能因时间限制(2小时任务)、不熟悉提示词技巧或怀疑工具价值,未充分发挥LLM功能,导致无法真实评估LLM对SR评估的潜在作用,可能低估LLM的实际影响。

总结

本研究旨在探究LLM使用和专业软件开发经验对网络应用安全需求评估的影响。通过对23名研究生的分组实验,结合MoSCoW优先级法和8项评估标准,运用非参数检验进行数据分析。结果表明,LLM使用对评估无显著影响,而专业经验对成本、用户体验、风险评估有显著作用。研究填补了相关领域空白,强调了专业经验在 cybersecurity 决策中的重要性,为软件工程领域的人才培养和实践工作提供了有价值的参考。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐