How AI Impacts Skill Formation

人工智能辅助能为各专业领域带来显著的生产效率提升，对新手从业者的作用尤为明显。但此类辅助手段会如何影响有效监管人工智能所需技能的培养，目前尚无明确结论。新手在完成陌生任务时若过度依赖人工智能，其自身的技能习得过程或会因此受到不利影响。本研究通过随机对照实验，探究开发者在有无人工智能辅助的两种情况下，掌握一款全新异步编程库的学习效果。研究发现，使用人工智能辅助会损害开发者的概念理解、代码阅读与调试能

无妄无望

630人浏览 · 2026-02-10 17:13:36

无妄无望 · 2026-02-10 17:13:36 发布

论文地址：人工智能对技能形成的影响

摘要

人工智能辅助能为各专业领域带来显著的生产效率提升，对新手从业者的作用尤为明显。但此类辅助手段会如何影响有效监管人工智能所需技能的培养，目前尚无明确结论。新手在完成陌生任务时若过度依赖人工智能，其自身的技能习得过程或会因此受到不利影响。本研究通过随机对照实验，探究开发者在有无人工智能辅助的两种情况下，掌握一款全新异步编程库的学习效果。研究发现，使用人工智能辅助会损害开发者的概念理解、代码阅读与调试能力，且平均来看并未带来显著的效率提升。完全将编码任务交由人工智能完成的实验参与者，虽在生产效率上有一定改善，却付出了无法掌握该编程库的代价。本研究识别出六种截然不同的人工智能交互模式，其中三种模式能让参与者保持认知投入，即便接受人工智能辅助，也能保证学习效果。研究结论表明，人工智能带来的效率提升并非掌握专业能力的捷径；在工作流程中引入人工智能辅助时需审慎规划，以保障技能培养的有效性——在安全关键型领域中，这一点尤为重要。

核心信息提炼

研究背景：AI辅助对专业生产效率提升显著（新手尤甚），但其对“AI监管技能+专业核心技能培养”的影响尚未明确，且存在新手过度依赖AI阻碍自身技能习得的潜在问题。
研究方法：以“开发者掌握全新异步编程库”为实验场景，设计有无AI辅助的随机对照实验，聚焦技能习得与效率表现两大维度。
核心实验结论
- 负面效应：AI辅助会损害开发者的概念理解、代码阅读、调试三大核心能力，且平均无显著效率提升；
- 极端情况：完全委托AI完成编码的参与者，仅获得小幅效率提升，却彻底未掌握目标编程库；
- 关键发现：识别出6种AI交互模式，其中3种能兼顾AI辅助与认知投入，可保留学习效果。
研究启示
- AI效率提升≠能力掌握的捷径，二者存在潜在取舍；
- 工作流程中引入AI辅助需审慎设计，优先保障技能培养；
- 该结论在安全关键型领域（如医疗、工业、核心开发）中具有更强的指导意义。

1 引言翻译+核心总结

一、原文翻译

自工业革命以来，劳动力市场的技能需求始终随新技术的出现不断变化；劳动者的角色也常从执行具体任务向监督任务执行转变[Autor 等人, 2001]。例如，工厂机器人的自动化让人类从体力劳动转向机器人监管，会计软件则让专业人员从手工核算转向制定更优的记账与税务策略。在这两种场景中，人类均对最终产品的质量负责，并为任何失误承担相应责任[Bleher 和 Braun, 2022]。即便自动化改变了任务的完成流程，识别并修复错误所需的专业技术知识仍至关重要。

人工智能有望成为自动化与生产效率提升的催化剂，其应用覆盖软件工程、创业等众多领域[Dell’Acqua 等人, 2023、Peng 等人, 2023、Cui 等人, 2024、Otis 等人, 2024、Brynjolfsson 等人, 2025]，但人工智能对劳动力市场的影响尚未被充分认知。尽管越来越多的从业者依赖人工智能提升生产效率，但职场中使用人工智能辅助是否会阻碍对核心概念的理解，或抑制监督自动化任务所需技能的培养，目前尚无明确答案。现有研究大多聚焦于人工智能辅助的产出结果（如编写的代码行数、提出想法的质量），而一个同等重要（甚至更为关键）的问题是：接受人工智能辅助的过程会对从业者产生何种影响。当人类在头脑风暴、写作、综合批判性思考等技能上依赖人工智能时，这些技能的培养过程或将因人工智能的使用方式不同而发生显著改变。

软件工程领域被认为是人工智能工具易落地、高价值的典型场景，人工智能辅助能显著提升日常工作的生产效率[Peng 等人, 2023、Cui 等人, 2024]，其中初级或新手开发者在代码编写中从人工智能辅助中获益最多。在高风险应用场景中，人工智能编写的代码需经人类调试与测试后，相关软件才能部署上线。这种能提升安全性的额外验证环节，只有当人类工程师自身具备理解代码、识别错误的能力时才能实现。随着人工智能技术的发展，若人类的代码理解能力变弱，对能力日益强大的人工智能系统进行监管的难度也会随之增加[Bowman 等人, 2022]。当复杂的软件任务需要人机协作完成时，即便人类的软件技能与人工智能的优势形成互补，人类仍需掌握代码开发的基础概念[Wang 等人, 2020]。高风险场景对从业者能力的硬性要求，与人工智能辅助已被验证的生产效率提升效果相结合，使软件工程成为研究人工智能如何影响技能培养的理想实验场景。

本研究旨在探究使用并依赖人工智能是否会影响软件工程技能的培养[Handa 等人, 2025]。基于人工智能在软件工程领域的快速落地，我们以工程师在职场中习得新技能为研究背景展开探索。尽管人工智能工具的使用可能提升工程师的生产效率，但这是否会抑制其技能培养？更具体地说，借助人工智能完成任务的工作流程，是否会阻碍工程师深入理解完成这些任务所使用的工具？

我们设计了随机对照实验，让实验参与者使用一款从未接触过的新编程库完成编码任务，以此衡量其技能培养效果——这也是工程师习得新技能的常见方式（如Python等编程语言中会不断推出新的编程库）。随后，我们对参与者掌握该新编程库的能力进行评估。本研究的核心研究问题为：（1）在完成需要掌握新概念、新技能的编码任务时，人工智能是否能提升生产效率？（2）使用人工智能是否会降低参与者对这些新概念、新技能的理解程度？
在这里插入图片描述
图 1：结果概览：（左）我们发现，在使用人工智能辅助完成新Python库相关任务的人群中，其特定于该库的技能（包括概念理解、代码阅读和调试能力）出现显著下降。（右）我们对人工智能的使用模式进行分类，并发现了三种有助于技能提升的高阶模式，其特点在于参与者在借助人工智能辅助时仍能保持认知投入。

1.1 研究结果

以人工智能与软件技能的典型应用场景为背景，我们围绕一款较新的Python异步编程库设计了编码任务与能力评估体系，并通过随机对照实验探究人工智能辅助对任务完成时间与技能培养的影响。研究发现，使用人工智能辅助完成涉及该新编程库的任务，会使参与者的评估分数降低17%（即两个等级）（科恩d值=0.738，p值=0.010）；同时，我们未发现人工智能辅助能在统计意义上显著缩短任务完成时间（见图6）。

我们对主实验中所有参与者的屏幕录制视频进行了深度定性分析，解释了人工智能未能提升生产效率的原因：部分参与者在与人工智能助手的交互中投入了额外时间，其中一些参与者提出了多达15个问题，或花费了超过总任务时间30%的精力构思向人工智能的提问（见图1、2）。我们认为，对照组参与者的技能能得到提升，源于其自主遇到问题并独立解决错误的过程。

我们将参与者与人工智能的交互行为归类为六种常见模式，并发现其中三种模式能最大程度保留技能培养效果（见图11）。这三种能让参与者在技能评估中获得更高分数的人工智能交互模式，均体现出更多的认知投入与独立思考（例如，仅向人工智能询问解释性问题或概念性问题）。

二、核心总结

1. 研究背景与动机

行业共性规律：技术革新推动劳动者角色从「任务执行」向「任务监督」转变，且人类始终需为结果负责，识别/修复错误的核心技能从未被替代；
AI研究空白：现有研究聚焦AI辅助的产出结果，却忽略了交互过程对从业者技能培养的影响，且未明确AI辅助是否会阻碍「监管AI所需的核心能力」形成；
实验场景选择：软件工程是研究AI与技能培养的理想场景——AI在该领域落地快、新手获益显著，且高风险场景对工程师的代码理解/调试能力有硬性要求，人机协作中人类的基础技能仍不可或缺。

2. 研究设计核心

实验方法：随机对照实验，对比「有AI辅助」与「无AI辅助」两组参与者的表现；
实验任务：让参与者使用未接触过的Python异步新编程库完成编码任务，贴合工程师在职场习得新技能的真实场景；
核心测量维度：生产效率（任务完成时间）、技能培养效果（新编程库的掌握评估分数）；
补充分析：结合屏幕录制的定性分析，探究结果背后的行为原因，并归类AI交互模式。

3. 核心研究结果（1.1节）

技能培养的负面效应：AI辅助使参与者的新技能评估分数显著降低17%（两个等级），统计上具有显著差异；
生产效率的无增益性：AI辅助未显著缩短任务完成时间，原因是部分参与者在与AI的交互中投入了大量额外时间（构思问题、反复提问）；
对照组的技能提升原因：无AI辅助的参与者通过自主遇错、独立排错的过程完成了技能习得；
AI交互模式的关键发现：识别出6种人机交互模式，其中3种高认知投入的模式（如仅问概念/解释问题）能兼顾AI辅助与技能培养，实现评估高分。

4. 研究的核心价值

填补了「AI辅助的过程影响」这一研究空白，不再仅关注产出，而是探究AI如何改变从业者的技能习得过程；
以软件工程为典型场景，为高风险领域的AI落地提供了关键参考——AI的效率提升并非无代价，需关注对核心技能培养的影响；
从交互行为层面给出了解决方案：并非使用AI就一定会阻碍学习，而是使用方式决定了学习效果，为设计人机协作的最优工作流提供了依据。

2 背景

2.1 AI 使用的影响

自2022年底ChatGPT、Copilot、Claude等先进对话助手广泛普及以来，AI工具已在大量领域得到应用。基于提示词的相关研究帮助人们细致考察了AI的真实落地效果 [Tamkin et al., 2024; Shen and Guestrin, 2025]。例如，AI已被用于软件开发、教育、设计、科学研究等专业领域 [Handa et al., 2025]。

生产力提升
许多研究发现AI助手能显著提升生产力。例如Brynjolfsson等人发现，对话式AI使客服人员平均能处理的问题量提升15%。Dell’Acqua等人发现咨询师在AI帮助下平均多完成12.2%的任务。
尽管不同研究中技能层面的效果有所差异，但在客服、咨询、法律问答、写作等领域都出现了一致规律：经验更少、技能更低的工作者往往受益最大 [Brynjolfsson et al., 2025; Dell’Acqua et al., 2023; Choi and Schwarcz, 2023; Noy and Zhang, 2023]。
一个例外是Otis等人（2024）对肯尼亚小微企业主的研究：AI商业建议能帮助高绩效者提升业绩，但会降低低绩效者的效果。

特别在软件工程领域，Peng等人发现使用Copilot的开源开发者完成任务速度比对照组快55.5%，新手程序员从AI辅助中获益更多。针对大型软件公司开发者的后续研究显示，以PR、提交、构建等指标衡量，AI代码补全带来26.8%的效率提升 [Cui et al., 2024]，且经验较少的开发者提升更明显。
虽然研究表明初级开发者从AI中获得更大效率提升，但这类人群恰恰最需要在工作中快速学习新技能。然而，AI工具对这一群体技能养成的影响仍然未知。新手仍在学习专业技能的阶段，他们的技能发展是否会被显著影响？本研究关注的核心正是：这种生产力提升是免费的，还是有代价的。

认知卸载
近期工作强调了AI辅助对技能退化的潜在影响。例如，在AI辅助下受训的医学专业人员可能无法形成识别病症所需的敏锐视觉能力 [Macnamara et al., 2024]。对知识工作者的调查显示，频繁使用AI与更差的批判性思维能力、更强的认知卸载（依赖外部工具而不主动思考）相关 [Gerlich, 2025]。此外，知识工作者在使用生成式AI时报告更低的认知投入与自信心 [Lee et al., 2025]。但这些调查属于观测性研究，难以确立因果关系。

技能保留
与本研究相近的方向是：人类在接受AI辅助后，知识与技能能保留多少。Wu等人发现，即使生成式AI在内容创作任务（写文案、写评价、写邮件）中提升了即时表现，但当人类后续独立完成任务时，这种提升无法持续。
在数据科学任务中，Wiles等人将AI对非技术咨询师的影响描述为“外骨骼”：AI带来的技术能力提升，在无法使用AI后便不再存在。
本研究进一步追问：对技术从业者本身，AI工具的使用是否会导致在职技能学习效果变差。

过度依赖
尽管许多关于AI提升生产力的经济学文献默认AI生成内容可靠，但现实是生成式AI可能产生错误内容 [Longwell et al., 2024] 或幻觉内容 [Maleki et al., 2024]。
当模型不可靠却仍被用于辅助人类时，人类跟随模型错误做出决策被称为过度依赖 [Buçinca et al., 2021; Vasconcelos et al., 2023; Klingbeil et al., 2024]。虽然已有方法被提出减少过度依赖，但大多聚焦于决策阶段的信息（如解释、辩论）。

2.2 计算机科学教育与AI辅助

技能习得的评估高度依赖具体领域。尤其在计算机科学中，多数入门课程通过选择题、代码编写、代码阅读/解释来衡量学习效果 [Cheng et al., 2022]。
近期研究发现代码面试、主动讨论学生代码能带来更好的学习效果 [Kannam et al., 2025]。

一些观测性研究描述了学生在CS课程中如何使用AI。Poitras等人发现，整个学期里学生用AI写代码、改错误、解释算法概念；编程能力较弱的学生更倾向于使用AI。
其他调查发现，学生可能因“依赖担忧”（担心过度依赖工具）而不愿使用AI编程助手 [Pan et al., 2024]。
在形式化方法课程中，Prasad等人记录了学生使用LLM的多种方式，发现高年级学生并不依赖LLM，只在初期少量提问。

也有在专业开发环境下的用户研究。Wang等人对比了有无对话界面的用户在完成编程任务时的使用模式，发现了丰富的交互模式：交互式调试、代码讨论、提出具体问题等。参与者的行为从“让ChatGPT完全解决问题”（代码质量最低）到“只提极少问题”（效率最高）不等。
其他研究指出，AI工具通过更易获取文档、更准确生成特定API代码来帮助软件开发流程 [Pinto et al., 2024]。

核心精简总结

AI普遍提升生产力，但新手受益最大
- 客服、咨询、软件工程等领域均证实：AI提升效率，且低技能者获益更明显。
- 软件工程中，AI使开发速度提升26.8%–55.5%，初级开发者提升最显著。
研究空白：效率提升是否以“技能丧失”为代价
- 已有研究发现AI会导致认知卸载、批判性思维下降、技能无法保留。
- 医学、教育、内容创作领域均显示：AI带来的即时提升不可持续，离开AI后能力回落。
- 但尚未有研究严格证明：AI会阻碍技术人员在职学习新技能。
过度依赖是重要风险
- AI会出错、产生幻觉；人类容易过度依赖AI输出。
- 现有缓解方法集中在“解释、辩论”，未从学习与技能养成角度解决问题。
CS教育中的AI使用现状
- 学生（尤其基础弱的）大量用AI写代码、改bug、解释概念。
- 学生普遍担心“依赖AI导致自己学不会”，但缺乏实证研究。
- 开发者与AI的交互模式差异巨大：从完全甩锅到少量提问，效果天差地别。
本文的定位
- 填补空白：首次通过随机实验验证AI对编程技能习得（概念理解、读代码、调试）的因果影响。
- 不仅看效率，更看学习代价；不仅看结果，还看交互模式。

3 框架

专业技能习得
许多学习框架（如科尔布体验式学习循环、基于问题的学习（PBL））都提出了“在实践中学习”的理念 [Kolb, 2014; Schmidt, 1994]。这些框架将真实任务的完成与新概念学习、新技能培养联系起来。
在高等教育的软件工程课程中，体验式学习也被用于模拟真实工作场景下的问题解决 [Gonzalez-Huerta et al., 2020]。
我们用最简单的形式建模：使用AI工具辅助，等价于走一条与无AI时不同的学习路径。我们提出假设：在开发过程中使用AI工具生成代码，本质上是走了一条任务完成的捷径，但缺少了关键的学习阶段。
在这里插入图片描述
图2： 随着人工智能辅助在职场中日渐普及，新手工作者或许能够完成任务，却未必能达到同样的学习成效。我们的实验旨在探究一项需要新技能的任务完成过程，以理解人工智能辅助对编程技能形成的影响。

代码编写中的AI使用模式
已有研究发现，人类在编写代码时会以多种方式使用AI：包括问答、写代码、调试等 [Poitras et al., 2024; Wang et al., 2020; Pinto et al., 2024]。
在本框架中，使用AI辅助的不同方式，对应着为完成任务目标所采取的不同学习路径。我们将在本文的定性分析（第6节）中分析这些不同的使用模式。

研究问题
基于以上背景，我们聚焦于在职学习场景：工作者必须习得新技能才能完成任务。我们希望同时理解AI对生产力和技能养成两方面的影响。
我们关注：AI辅助是否在即时生产力与长期技能发展之间存在权衡，还是AI辅助真的能成为同时提升两者的捷径。
我们的研究问题如下：

RQ1：在需要学习新技能的任务中，AI辅助是否能提升任务完成的生产力？
RQ2：使用AI辅助会如何影响这些新技能的习得与发展？

核心精简总结

理论基础
本文基于体验式学习 / 做中学理论：真实任务的执行过程本身就是技能学习的核心环节。
核心模型
- 无AI：通过实践、试错、理解 → 完成任务 + 习得技能
- 有AI：直接借助AI生成结果 → 快速完成任务，但跳过了学习环节
核心假设
使用AI生成代码相当于走捷径，虽然能完成任务，但会削弱概念理解、代码阅读、调试等深层技能的培养。
研究视角
不同的AI交互模式对应不同的学习路径，最终带来不同的学习效果。
两个核心研究问题（RQ）
- RQ1：AI能不能提升新技能任务的生产力？
- RQ2：AI会不会损害新技能的学习效果？

4 实验方法

4.1 任务选择：使用 Trio 学习异步编程

我们为初级软件工程师在工作中可能遇到的多种技能（从数据分析到绘图）设计了原型任务。
最终实验围绕 Python Trio 库 展开：该库用于异步并发与 I/O 处理。它不如 asyncio 知名（依据 Stack Overflow 问题量），且包含结构化并发等超出普通 Python 语法的新概念，同时设计上易于使用，非常适合学习类实验。

我们设计并测试了 5 个使用 Trio 的任务，最终选取前两个用于主实验：

任务 1：编写计时器，每秒打印一次，同时运行其他函数。
核心概念：nursery、启动任务、并发运行。
任务 2：实现记录获取函数，处理缺失记录错误。
核心概念：异常处理、内存通道（memory channels）。

每个任务在预实验中耗时 10–20 分钟，任务间相互独立。
实验使用带 AI 助手聊天界面的在线编程平台。
AI 组可以使用 AI 助手辅助完成任务，底层模型为 GPT-4o，并设定为智能编程助手，可查看参与者当前代码，且能直接生成完整正确代码。

图3：实验界面：我们使用在线访谈平台进行实验。实验组（干预条件）的参与者被提示使用AI助手。

4.2 评估设计

参考计算机科学教育的元分析 [Cheng et al., 2022]，我们用四类问题评估编程技能掌握程度，尤其关注监督 AI 代码所必需的能力：

Debugging（调试）：识别与诊断代码错误的能力。
用于判断 AI 代码是否错误、为何失败。
Code Reading（代码阅读）：读懂代码逻辑的能力。
用于上线前审核 AI 生成的代码。
Code Writing（代码编写）：写出正确代码的能力。
本文排除这类题目，因为语法可被 AI/搜索轻易解决。
Conceptual（概念理解）：理解库与工具背后核心原理的能力。
用于判断 AI 代码是否符合库的正确设计与使用模式。

最终测验包含 14 题，共 27 分，覆盖 Trio 7 个核心概念，只包含调试、代码阅读、概念理解题，不包含代码编写题，以排除语法干扰。

在这里插入图片描述
图4： 学习任务与理解度检查概览。所有参与者均完成了一项无需具备Trio相关知识的预备编码任务。在主要的Trio任务阶段，实验组参与者可借助人工智能辅助来回答问题或生成代码。而在理解度检查环节，所有参与者均被禁止使用人工智能。

4.3 研究设计

采用被试间随机对照实验：

热身阶段
所有参与者完成一个简单 Python 任务（给字符串加边框），无 AI。
用于校准 Python 水平，熟悉界面。
Trio 任务阶段（35 分钟）
- 对照组：无 AI 辅助。
- 实验组（AI 组）：可使用 GPT-4o 编程助手。
  要求所有人尽可能快完成任务。
评估阶段
完成 14 题技能测验 + 人口统计与经验问卷。

参与者招募条件：

≥1 年 Python 经验
每周至少写一次 Python
用过 AI 编程助手至少几次
从未使用过 Trio 库

样本量：

总 52 人
对照组 26 人，AI 组 26 人

数据采集：

平台记录按键操作、代码版本、AI 对话记录
问卷前后测
任务总时长最长 75 分钟，平均 58.5 分钟
参与者来自众包平台，固定报酬 150 美元

在这里插入图片描述
Table 1: Balance table of main study participants (n=52).

极简要点

任务：学习全新异步库 Trio，2 个独立编程任务。
目的：模拟工程师在职学习新工具/新库的真实场景。
评估维度：
- 调试能力
- 代码阅读能力
- 概念理解能力
  （不考代码编写，排除语法干扰）
实验设计：
- 随机对照，被试间
- 对照组：无 AI
- 实验组：可使用 GPT-4o 助手
参与者：有 Python 基础、用过 AI、从未用过 Trio。
测量：任务完成速度、测验分数、操作与对话日志。

5 实验结果

5.1 预实验

不规范行为
在正式实验前，我们进行了4次预实验（表2）。前两次在第一个众包平台（P1）开展。我们观察到35%的高违规率：无论是任务阶段还是测验阶段，对照组参与者仍使用AI完成编程或测验。我们通过用户复制指令、粘贴代码的记录识别这类行为。
我们尝试多种机制确保对照组不使用AI，但即使指令更明确，仍有约25%的对照组违规。

我们在第二个众包平台（P2）开展了另外两次预实验，各20人。通过屏幕录制，我们确认对照组在任务和测验中均未使用AI。
在这里插入图片描述
图5： 预研D中对照组（无AI辅助）与实验组（AI助手辅助）在总体任务完成时间和测验得分上的均值差异。误差线代表95%置信区间。显著性数值对应处理效应。* p<0.05, ** p<0.01, *** p<0.001。

题目局部依赖性
在预实验C中，我们观察到测验存在局部题目依赖：参与者会通过其他题目中的代码片段推断答案。因此我们将测验拆分为多个页面，确保每页题目不会给其他题目提供提示。在预实验D中，屏幕录制显示该问题得到解决。
此外，我们将任务从5个缩减为2个，以便更好地隔离前两个任务带来的学习效果，排除混淆变量：AI组只是因为完成更多任务而“看到”更多概念。测验也相应调整，只覆盖前两个任务。

任务完成障碍
预实验D有20名参与者。结果显示，AI组与无AI组在任务时间和测验分数上均存在显著差异（图5）。
回看屏幕录制发现：对照组（无AI）在与Trio无关的Python语法上遇到困难，如 try/except、字符串格式化。35分钟内，对照组任务完成率仅60%，而AI组为90%。
由于我们的研究焦点并非Python语法，因此在正式实验中加入了字符串格式化与 try/except 的语法提示。

图5展示了对两个指标的处理效应：任务时间与测验分数。

AI组完成Trio任务更快（Cohen’s d=1.11, p=0.03），效率提升。
但AI组在知识测验上表现显著更差（Cohen’s d=1.7, p=0.003），表明学习保留下降。

在功效分析与实验预注册中，我们保守取效应量 d=0.85（预实验观测效应的一半），以避免预实验常见的效应量膨胀。

在这里插入图片描述
Table 2: Summary of pilot studies with different data providers, tasks, and evaluation design.

5.2 正式实验

5.2.1 参与者

我们向58名众包工作者发出邀请，最终招募50人。
参与者在以下维度上均衡分布：

编码经验年限
Python经验年限
是否用过Asyncio
过去一年Python使用频率
异步编程熟悉度（5题概念测验）

最终53人完成全部三部分。根据预注册的排除标准，1人因未注意测验有多页、留白4题而被剔除。
最终有效样本：

对照组：26人
AI辅助组：26人

大部分参与者拥有本科学历，25–35岁，为自由或专职软件开发人员。

5.2.2 结果

图6显示：

AI辅助并未显著缩短任务完成时间
但通过测验衡量的技能习得水平显著下降
- Cohen’s d=0.738, p=0.01
- 两组均值相差 4.15 分
- 在总分27分的测验中，相当于分数降低17%，约两个等级

将热身任务时间作为协变量控制后，处理效应依然显著（d=0.725, p=0.016）。

与过往研究结论不一不同，本研究专门设计用于探究：在需要学习新知识的任务中，AI如何影响技能养成。
虽然在1–3年经验的新手程序员中，AI组平均完成时间略低，但该组样本量极小（n=4），时间差异不显著。
对照组26人中有4人未在35分钟内完成任务2，而AI组全员完成。
总体而言，本实验没有确凿证据表明AI加速或减慢了任务速度。

所有经验层级下，对照组（无AI）的平均分均高于AI辅助组（图7）。
这表明任务设计不依赖参与者原有经验，对所有经验组都是真正的新技能学习。

概念组分析
在探索性分析中，我们将测验分数拆分为子领域与题型（图8）：
每个题目严格对应任务1/任务2，且属于三类之一：概念题、调试题、代码阅读题。
两项任务中，AI组与对照组均存在分数差距。
在三类题型中：

分数差距最大：调试题
分数差距最小：代码阅读题

这符合预期：两组阅读代码的量相近，但无AI组在任务中遇到更多错误，因此调试能力更强。

任务体验
进一步探索性分析显示：

对照组（无AI）自陈学习程度更高（7分量表）
两组均报告较高的任务愉悦度（图9）
难度感知：AI组认为任务更简单，但两组都认为测验难度相近（图10）

在这里插入图片描述
图6： 在主研究（n=52）中，对照组（无AI辅助）与实验组（AI助手辅助）在总体任务完成时间和测验得分上的均值差异。误差线代表95%置信区间。显著性数值对应处理效应。* p<0.05, ** p<0.01, *** p<0.001。

图7： 基于编程经验年数的任务完成时间与测验得分情况。误差线代表95%置信区间。对照组（无AI辅助）的平均测验得分在所有编程经验水平上均高于实验组。
在这里插入图片描述

极简核心要点

预实验关键修正
- 更换平台 + 屏幕录制，解决对照组违规使用AI问题
- 拆分测验页面，消除题目间提示依赖
- 从5个任务减为2个，排除 confounding
- 增加基础语法提示，让焦点落在Trio学习，而非Python语法
正式实验最核心结论
- 🟥 AI 显著损害技能学习：测验分数下降 17%（≈2个等级）
- 🟦 AI 没有显著提升任务速度（虽然完成率更高）
- 效应量 d=0.738，中等偏强，p=0.01，统计显著
分维度结果
- 下降最明显：调试能力（因为无AI组必须自己排错）
- 下降较小：代码阅读
- 所有经验水平的开发者都出现学习受损
主观体验
- 无AI组：觉得更难，但自认为学到更多
- AI组：觉得更简单，但实际掌握更差

6 Qualitative Analysis

6 定性分析

尽管生产力和测验分数的整体统计揭示了AI辅助如何影响新学习任务的宏观趋势，但对每位参与者如何完成学习任务的更深入分析，能让我们更好地理解个体差异。
在定性分析的初始编码阶段，我们对主研究中51名参与者的屏幕录制进行了人工标注。我们将标注归类为几个与任务进度相关的核心概念：例如错误、AI交互、AI查询、任务完成等（表5）。
这一分析不仅让我们理解整体生产力与学习效果，还能揭示在每个任务中AI是如何被使用的。我们将这些标注后的记录公开，以供未来研究使用。

分析这些概念和参与者间的共同模式，可以补充我们对技能习得与任务完成的定量观察。具体而言，以下维度体现了参与者之间及不同实验组之间的差异：

AI交互时间：AI组没有显著提速的原因可以由部分参与者的AI使用方式解释。一些人花费大量时间与AI助手交互，总计最多花费11分钟编写AI查询（图12）。
图12： 人工智能交互总时长与查询次数的分布情况。任务期间与AI交互时间超过6分钟的参与者，是导致实验组（AI辅助）并未比对照组（无AI辅助）显著更快完成任务的主要原因。
查询类型：参与者的行为从“只问概念问题”“只生成代码”到“混合询问概念、调试、生成代码”各不相同。专注于向AI询问调试问题或确认答案的参与者，任务耗时更长（图18）。
遇到错误：对照组（无AI）遇到更多错误，包括语法错误和Trio库相关错误（图14）。遇到更多错误并独立解决错误，很可能提升了Trio技能的习得。
活跃时间：使用AI减少了主动编码的时间。编码时间被转移到与AI交互、理解AI生成内容上（图16）。
图16： 主动编码时间与测验得分的关系：主动编码时间指实际用于编写代码的时间，通常仅占任务总时长的很小部分。在无AI辅助条件下，参与者的主动编码时间更长，且获得了更高的测验分数。
Figure 9: Self-reported enjoyment and learning
by condition during our study.

Figure 10: Self-reported task difficulty by condition during different stages of our study.

基于这些维度，我们根据查询类型、查询数量、每个任务的查询数、活跃时间，归纳出六种AI交互模式。这些模式对应截然不同的任务完成时间与技能习得结果（即测验分数）。
图11总结了每种模式及其平均任务结果。我们可以将交互模式分为两类：低分组模式与高分组模式；高分组模式通常包含更多认知投入和更少的AI依赖。
尽管每个行为簇规模不大，但低分组与高分组之间的差异非常显著。

Figure 11: The 6 AI interaction personas in the treatment (AI) condition from our study with average
completion times and quiz scores.

低分组交互模式（学习效果差）

低分组模式普遍表现为高度依赖AI，无论是代码生成还是调试。这些组的平均测验分数低于40%。表现出这些模式的参与者独立思考更少，认知卸载更明显。

AI 完全委托（n=4）
完全依赖AI写代码、完成任务。本组完成速度最快，过程中几乎不遇到错误。
逐步依赖AI（n=4）
一开始只问1–2个问题，最终将所有代码编写交给AI。本组测验得分很低，主要因为完全没有掌握第二个任务的概念。
迭代式AI调试（n=4）
依赖AI调试或验证代码。向AI发起大量查询，但依靠AI解决问题，而不是理清自己的理解。结果测验得分低，任务完成也相对较慢。

高分组交互模式（学习效果好）

高分组交互模式的平均测验分数 ≥65%。这些参与者会将AI用于代码生成、概念查询，或两者结合。

先生成再理解（n=2）
先让AI生成代码，再手动复制粘贴。生成后，会向AI追问以提升理解。使用AI速度不算快，但测验表现出极高理解水平。
重要的是：行为看似与“完全委托”几乎一样，但额外用AI检查了自身理解。
混合代码+解释（n=3）
查询时同时要求生成代码 + 解释代码。阅读并理解解释花费了更多时间。
仅概念询问（n=7）
只问概念性问题，依靠提升后的理解完成任务。虽然遇到很多错误，但会独立解决。
这是高分组中最快的模式，整体速度仅次于“AI完全委托”。

6.1 AI 交互

交互时间

与之前发现AI显著提升编码速度的研究相反，仅看实验组与对照组的总完成时间，本研究并未发现生产力显著提升。
通过分析AI组如何完成任务，我们发现生产力未提升的原因是花费在与AI交互的时间。
部分参与者花费大量时间（最多11分钟）与AI交互，例如打字或思考该输入什么。

由于参与者可以在时间内任意提问，少数人提问超过5次，在35分钟任务中单次查询最多花费6分钟（图12）。
鉴于AI组的中位完成时间仅19分钟，花费6分钟写一个查询占总时间比例极高。

但从技能习得角度看，花时间构思查询反而有助于理解任务，从而更好地习得技能。
屏幕录像显示，参与者会仔细思考该向AI询问什么（重读任务、改写查询）。
因此，虽然基于聊天的助手比自动补全类助手更耗时，但在自动补全/智能体环境中，无需编写查询，知识损失可能更大。

AI 查询类型

我们将用户对AI的输入分为五大类：解释、生成、调试、能力询问、礼貌感谢（表3）。

最常见：解释类（79次）：询问Trio库、异步操作、概念介绍。25名AI参与者中有21人问过解释类问题。
第二常见：代码生成（51次）：有人要求完成整个任务，有人要求实现某个函数。仅2/3参与者用AI生成代码。
8名最低分参与者中，有3人只让AI生成代码，不问解释。
第三类：调试（9次）：直接粘贴错误或让AI检查代码正确性。
调试查询比例越高 → 完成越慢、测验分数越低。
这表明：学习新任务时，依赖AI调试（反复让AI检查修复而不理解）与学习效果差相关。

即使所有参与者都用过AI助手，仍有4个问题询问AI是否能看到代码、是否了解Trio库。
部分参与者在任务完成后向AI表达感谢，这反映了人机交互中的礼貌行为也出现在AI编程辅助场景中。

采纳AI建议的方式：直接粘贴 vs 手动抄写

参与者之间的另一个差异是：
一些人直接粘贴AI代码，另一些人手动打字输入AI生成的代码。

直接粘贴（n=9）：完成最快
手动抄写（n=9） 或混合方式（n=4）：速度与对照组（无AI）接近
基本自己写（n=4）：仅向AI询问澄清问题 → 速度快、熟练度高

结果表明：只有一部分AI交互方式真正提升了生产力。
在技能习得（测验分数）上，手动打字与直接粘贴没有显著差异。
这表明认知投入可能比单纯花费的时间更重要。

6.2 遇到错误

实验组与对照组在遇到并解决错误的方式上差异显著。

错误频率

AI组：中位数 1个错误
对照组：中位数 3个错误

在12名“零错误完成两个任务”的参与者中，只有2人来自对照组。
大多数AI参与者第一次运行代码就能通过；而对照组大多数人在完成任务过程中遇到多个错误。

错误与Trio技能

并非所有错误对技能发展都同等重要。某些错误需要更深的Trio库理解，这可能导致学习效果差异。
最常见错误与Trio无关（如名称错误、属性错误）。
而与Trio直接相关的错误（如协程未await、类型错误）会迫使学习者理解核心概念。

AI组也会遇到错误，但Trio相关错误少得多。
对照组更频繁地遇到错误，导致对代码逻辑和新库使用方式进行更多批判性思考。
特别是Trio相关错误的频繁出现，确保了特定概念在完成任务的过程中被真正掌握。

综上，主动遇到并解决错误在编程技能习得中起到关键作用。

6.3 主动编码时间的变化

图16显示：
AI组的主动编码时间显著更少。
时间从“编码”转向“阅读AI内容、理解AI输出”。

对照组以更高的主动编码时间获得更高的测验分数。
在各组内部，更高的主动编码时间与更低的测验分数相关，这是因为经验丰富的程序员主动编码时间更短，基础知识更好。

6.4 参与者反馈

约四分之一参与者留下反馈。

对照组（无AI）：认为任务有趣，指令有助于理解Trio。
AI组：后悔在任务中没有更关注Trio细节，觉得自己变“懒”，理解仍有很多缺口。

反馈情绪显示：对照组体验更积极，尽管任务与测验完全相同。

极简核心总结

AI不提速的原因
大量时间花在写查询、思考怎么问AI，抵消了代码生成带来的速度优势。
6种AI交互模式，决定学习生死
- 低分组（完全委托、逐步依赖、迭代调试）→ 分数 <40%
- 高分组（先生成再理解、代码+解释、仅问概念）→ 分数 ≥65%
  关键区别：是否有认知投入，是否主动理解。
错误是学习的核心
无AI组遇到更多错误 → 被迫理解 → 调试/概念能力更强
AI组错误少 → 学得浅
AI把时间从“编码”转向“阅读/交互”
主动编码时间大幅下降 → 技能习得下降
只有一种AI用法是安全的：带思考地用
只生成不问原理 → 学习崩塌
生成+解释+概念询问+自己验证 → 学习保留

7 讨论

本研究的核心发现是：在需要学习新技能（如掌握一个新的Python库）的任务中使用AI，会削弱技能的习得。
在随机对照实验中，参与者被分配到实验组（使用AI助手、网络搜索与任务说明）或对照组（仅使用网络搜索与说明）。
我们观测到，使用AI辅助的参与者在概念理解、代码阅读与调试能力上均出现下降，这表明：正在学习新技能的工作者，应当警惕自己在学习过程中对AI的依赖。

在使用AI的参与者中，技能习得结果呈现出显著分化：

高分交互模式：测验正确率 65%–86%
低分交互模式：测验正确率 24%–39%

高分者只向AI询问概念性问题，或要求AI在生成代码的同时提供解释；这些使用模式体现出高度的认知投入。

与我们最初的假设相反，在正式实验中，AI并未显著提升任务完成效率。
尽管AI助手可以直接生成完整代码，实验组的平均完成时间虽有缩短，但在统计上并不显著。
我们的定性分析表明，这一结果主要源于参与者使用AI方式的高度异质性：

有一小部分参与者完全依赖AI生成所有代码，从不询问概念或解释，这一组的完成速度远快于对照组（19.5 分钟 vs 23 分钟），但他们仅占实验组的 20% 左右。
其他参与者会提出大量查询（如 15 次）、花费大量时间构思提问（如 10 分钟），或要求后续解释，从而拉高了平均完成时间。

这些截然不同的AI使用模式表明：在需要新知识/新技能的任务中使用AI，未必能像仅依赖已有知识的任务那样带来稳定的效率提升。

综上，我们的结果表明：
如果工作者在使用AI时不保持认知投入，那么在工作流程中大量引入AI会对其职业技能发展产生负面影响。
在时间压力与团队要求下，初级开发者或其他从业者可能会为了尽快完成任务而依赖AI，以牺牲真正的技能成长为代价。

此外，我们发现调试题目的得分差异最大。
这意味着：当企业越来越多地使用AI写代码、由人类做监督时，如果人类的技能发展在一开始就被AI抑制，那么他们将不再具备校验、调试AI代码的必要能力。

7.1 未来工作

本研究是理解人机协作过程中AI辅助对人影响的第一步。我们希望未来工作能针对以下局限展开：

任务选择：本研究仅聚焦于一类任务与聊天界面。这可能只是认知卸载的下限，因为更具自主性的AI编程工具会进一步减少人类参与。未来应研究自主型AI编程工具对学习与技能发展的影响。
任务时长：技能养成通常以月、年为单位，而本研究仅在一小时内测量了特定Python库的学习效果。未来应通过纵向追踪研究真实场景下的技能发展。
参与者真实性：尽管参与者是专业或自由程序员，但他们缺少真实工作中必须掌握该库的强动机。未来应在真实企业内部研究新手的技能习得。
提示词技能：我们仅收集了自陈式的AI工具使用熟练度，未实际测量提示词技术差异。未来可客观测量提示词流畅度。
评估设计：本研究通过测验评估技能习得，未来可使用新任务完成情况等替代评估方式。
人类协助对比：本研究未设置“来自人类的帮助”这一对照条件。未来可在课堂、结对编程、代码评审等场景中，对比人类反馈与AI反馈对技能养成的影响。

对于软件工程或其他行业的新手而言，本研究从侧面证明：
即便AI工具无处不在，主动、有意识地进行技能培养依然极具价值。
研究表明，在学习新工具时投入认知努力（即使过程中会遇到错误等障碍）是有益的。
AI可以辅助这种认知投入：除了本文提出的交互模式，主流大模型服务也已提供学习模式（如 ChatGPT Study Mode、Claude 代码学习/解释模式）。

归根结底，要在AI时代实现可持续的技能发展，就需要更全面地看待AI对工作者的影响。
身处AI时代的人们，不仅要关心AI带来的短期生产力提升，更要关注在新AI工具不断普及的背景下，专业能力发展的长期可持续性。

极简核心总结

核心结论
- AI 显著损害新技能学习：概念理解、代码阅读、调试能力全面下降。
- AI 没有显著提速，因为大量时间被消耗在“写提示词、与AI交互”上。
关键机制
- 无AI组：主动踩坑 → 独立排错 → 真正学会
- AI组：直接拿结果 → 少思考 → 学不会
AI使用的分水岭
- ❌ 低分：纯委托、纯生成、纯让AI调试 → 认知卸载
- ✅ 高分：只问概念、要解释、先生成再理解 → 保持认知参与
行业警示
- 过度用AI写代码 → 人类失去监督、校验、调试AI的能力
- 对安全关键领域尤为危险
未来方向
- 更长周期、真实职场、纵向追踪
- 对比人类帮助 vs AI帮助
- 研究自主型AI（Agent）对学习的破坏

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

写作压力小了！8个AI论文网站深度测评，专科生毕业论文+开题报告全攻略

2048 AI社区

SWE-smith: Scaling Data for Software Engineering Agents

摘要：本文提出SWE-smith工具包，用于自动化生成大规模软件工程训练数据。针对现有数据集规模小、构建成本高的问题，SWE-smith通过四种自动缺陷生成策略（语言模型重写、AST修改、PR撤销、缺陷组合），在128个Python代码库中生成5万条任务实例，规模比现有工作大一个数量级。该工具仅需20小时人工投入，显著降低了数据收集成本。基于SWE-smith数据训练的32B参数模型SWE-age