本文探讨了为AI Agent编写技能的效果,研究表明人工编写的Skills平均提升16.2个百分点,但效果因领域差异显著,医疗领域提升51.9%,软件工程仅4.5%。研究发现AI生成的Skills无效,提出聚焦具体任务、控制模块数量、人工编写和定制场景等四条实操建议,强调Skills质量比数量重要,人工定制效果更佳。通过实例说明,优化Skills可显著提升Agent效率,甚至小模型加好Skills能追上大模型,性价比高。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

最近刷到一篇论文,说:「AI 自己生成的 Skills 没用」。

Hacker News 上 200 多个点赞,100 多条评论,吵得挺热闹。

我点进去看了一下,发现这篇叫 SkillsBench 的论文做得挺扎实。研究团队测了 86 个任务,覆盖 11 个领域,跑了 7308 条 Agent 轨迹。就为了回答一个问题:给 AI Agent 写 Skills,到底有没有用?

结论有点出乎意料。

有用,但没那么简单。

📊 论文里的几个关键数据

先说好消息。人工编写的 Skills 平均能提升 16.2 个百分点。这个数字不小,说明给 Agent 写好的指令确实管用。

但细看就有意思了。

不同领域的差距大得离谱。软件工程领域只提升了 4.5 个百分点,而医疗领域直接拉了 51.9 个百分点。差了十倍不止。

为什么?我猜是因为软件工程的知识在模型训练数据里已经很多了,Agent 本身就懂不少。但医疗这种专业领域,模型底子薄,给它补上领域知识,效果就特别明显。

还有个扎心的发现:86 个任务里有 16 个,加了 Skills 反而变差了。所以不是写了就有用,写得不好还不如不写。

然后是最劲爆的结论,AI 自己生成的 Skills 平均没有提升。

对,你没看错。让 Agent 自己总结经验、自己写 Skills,基本白搭。论文原话是「模型不能可靠地编写自己受益的程序性知识」。

这就好比让一个学生自己给自己出复习提纲,听起来很美好,但实际效果约等于零。

🛠️ 怎么写有效的 Skills:4 条实操建议

既然人工写的 Skills 有用,那怎么写才能真正起效?结合论文数据和我自己的使用经验,总结了几条。

第一,聚焦具体任务,别写万能指南。

论文发现,聚焦的 Skills,就是只针对 2-3 个模块的,比大而全的文档效果好。你写一份「如何做好所有事情」的指南,Agent 反而不知道该听哪条。

第二,2-3 个模块就够,别贪多。

这点和第一条相关。Skills 不是越多越好,越长越好。把最关键的流程、最容易出错的地方写清楚就行。

第三,自己写,别让 AI 帮你生成。

这是论文最核心的发现。AI 生成的 Skills 没用,人工写的才有用。原因也好理解,你比 Agent 更清楚自己的需求、自己的工作流、自己踩过的坑。这些隐性知识,AI 总结不出来。

第四,针对你的具体场景定制。

医疗领域提升 51.9 个百分点,软件工程只有 4.5 个百分点。这说明 Skills 的价值取决于你的场景有多「非标」。如果你做的事情比较独特,模型不太熟悉,那写 Skills 的回报就特别高。

💡 回到日常:CLAUDE.md 就是一种 Skills

说到这里,我想到自己用 Claude Code 的经验。

Claude Code 有个 CLAUDE.md 文件,本质上就是给 Agent 写的 Skills。你可以在里面定义项目规范、工作流程、注意事项。

我自己的体感是,写得好确实有用。比如我在 CLAUDE.md 里写了标点符号规范、文件命名规则、代码风格要求,Agent 的输出质量明显更稳定。

但如果只是随便写几句「请认真工作」「注意质量」,那基本等于没写。

这和论文的结论完全一致:Skills 的质量比数量重要,聚焦比全面重要,人工定制比自动生成重要。

所以如果你也在用 AI Agent,不管是 Claude Code、Cursor 还是别的工具,花点时间把你的 Skills 写好。不用多,2-3 个关键模块,把你最在意的规范和流程写清楚。

这可能是当下提升 Agent 效果,性价比最高的方式。

论文还有个有趣的发现:小模型加上好的 Skills,可以追上不用 Skills 的大模型。换句话说,与其花更多钱用更大的模型,不如先把 Skills 写好。

省钱又有效,何乐而不为。

读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。

针对0基础小白:

如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐