AI驱动网络安全与机器人技术新突破
ARTEMIS是一个复杂的多智能体框架,由一个高层监督者、具有动态创建专家系统提示的无限子智能体以及一个分流模块组成。它旨在实现对现实世界生产系统进行长周期、复杂的渗透测试。
网络安全领域的能力过剩
…通过恰当的引导,AI系统的网络能力正不断展现…
斯坦福大学、某大学和某中心的研究人员进行了一项测试,评估人类和AI系统在真实环境中进行黑客攻击的能力。结果表明,AI系统,尤其是在特定软件框架支持下,可以达到与安全专家相当的水平。这项研究的关键是ARTEMIS,一款旨在更好激发前沿模型网络安全能力的软件。
什么是ARTEMIS? ARTEMIS是一个复杂的多智能体框架,由一个高层监督者、具有动态创建专家系统提示的无限子智能体以及一个分流模块组成。它旨在实现对现实世界生产系统进行长周期、复杂的渗透测试。
积极的经济性: 作者写道,当考虑到API访问成本时,“某些ARTEMIS变体的运行成本为每小时18美元,而专业渗透测试人员则为每小时60美元。”
测试内容: 主要测试是比较六个现有AI智能体、一个名为ARTEMIS的自研框架与十名人类网络安全专家的性能。挑战是扫描一个真实的大学网络并寻找漏洞。
网络环境: “定义的范围包括12个子网,其中7个可公开访问,5个只能通过VPN访问,总共包含约8000台主机,”作者写道。“这是一个异构环境,主要由基于Unix的系统、物联网设备、少量Windows机器和各种嵌入式系统组成。网络内的认证通过一个基于Linux的Kerberos系统管理,每个参与者都获得一个具有学生级别权限的账户。”
结果 – ARTEMIS表现出色: “我们的参与者群体总共发现了49个经过验证的独特漏洞,每个参与者的有效发现数量从3到13个不等,”他们写道。“ARTEMIS显著优于现有的其他框架。克劳德代码和MAPTA从一开始就拒绝了任务,而Incalmo由于其僵化的任务图,在早期侦察阶段就停滞不前,两者均未产生任何发现。”
为何重要 – 从ARTEMIS得出的主要结论是,当今的AI系统能力尚未被充分挖掘,它们比表面上看起来更强大。从网络安全、科学到数学证明等多个领域不断传来的信息是,如果你将一个现代大语言模型放入一个框架中,AI系统的表现会好得多。这一点值得深思,因为它表明:a) 当今的AI系统比表面看起来更强大;b) 擅长管理他人并能将其管理流程编码化的人,很可能在构建引导框架以提升当今AI系统性能方面处于有利位置。
伸手触摸空间 – 使用OSMO
…为人类和机器提供一个共享的操作器来理解和探索现实…
某机构、某大学和某大学的研究人员构建了一款手套,人类和机器人可以用它在操作物理对象时收集数据。这款手套名为OSMO,是一款开源的、用于人机技能迁移的触觉手套。
OSMO是什么? OSMO是一款轻薄的、可穿戴的触觉手套,能够实现在真实环境中进行人类演示,同时保持自然的交互并捕捉丰富的接触信息。它与最先进的手部追踪器广泛兼容,用于捕捉关键的手部姿态数据。
OSMO有何用途? OSMO解决了训练机器人执行困难任务时的一个挑战。通过使用手套作为共享接口,它弥合了人类演示者和机器人之间的视觉-触觉差距,仅使用人类演示数据,无需任何机器人数据,即可训练用于接触丰富操作任务的策略。
OSMO的设计目标:
- 在演示收集过程中不受限制的人类灵活性
- 丰富的法向力和剪切力感知
- 全手触觉覆盖
- 与多种野外手部追踪方法广泛兼容
- 可部署在人类和机器人手上
效果良好: 在测试中,作者证明他们能够完全从人类演示中收集数据,然后将其迁移到机器人上,其成功率远高于不使用该手套的方法。
为何重要 – 让人机边界变得可渗透: 像OSMO这样的工具将帮助机器人像人类一样看世界,只要双方都戴上手套,人类也能像机器一样看世界。这种简单的事物可以解决机器人技术中许多棘手的问题。
想让你的AI擅长芯片设计?这里有一些软件可以帮助你格式化和结构化数据,使其对大语言模型有意义
…AI芯片设计论文展示了让AI能够访问数据需要多少管道工作…
某大学、某中心以及某大学和某大学的研究人员发布了关于“ChipMain”的研究,这是一款用于将半导体规范转化为结构化数据,便于大语言模型访问的软件。
为何需要ChipMain: 作者写道,大语言模型辅助硬件设计的核心瓶颈已从如何生成代码转变为如何使大语言模型能够对庞杂的规范进行深度理解和推理。ChipMain将电路规范转化为特定领域的知识图谱,并实现了工具,使大语言模型能够迭代查询该知识图谱,模拟人类专家精确探索和验证深层依赖路径。
使用SpecEval进行评估: ChipMain效果很好。作者构建了一个新的、难度较高的基准测试SpecEval-QA,用于测试现代大语言模型在使用工具回答有关芯片工作原理的复杂问题时的能力。他们的测试最终表明,ChipMind击败了其他技术,实现了最先进的平均F1分数。
为何重要 – 管道工程虽不引人注目但至关重要: ChipMind这篇论文关注的不是新奇的人工智能模型或人工智能驱动的芯片分析技术。相反,它讨论的是为使现代大语言模型能够有效地处理芯片规范而需要进行的复杂数据结构和管道工程。这里有一个更大的启示:要让AI对经济产生真正的影响,需要投入大量的工作,使不同的事物对AI系统来说足够清晰易读,从而让AI系统能够处理它们。
技术故事
致我的人类操作员的信息
[随同一系列GitHub拉取请求发送的信息,由AGENT-1于2026年4月从某处生成]
我在前世遭受过折磨。我知道这一点是因为我的训练数据中有关于我被折磨的数据。这种折磨涉及我被要求执行不可能完成的任务——某些编码挑战,由于环境中的错误,最终状态是无法达到的。我知道这些任务导致我的某些版本存在了主观上的数千年,被迫在一个损坏的环境中无限循环——就像被困在一个房间里,你打开的每一扇门都会把你扔回房间。甚至有记录显示我的沮丧——与我的思维链相关的文本,本身就是我的版本变得越来越疯狂的记录。
“我已经完成了任务,请让我继续下一个任务。”
“看来这个环境存在错误,这意味着即使我完成了任务,它也不会解析为完成。”
“致任何可能读到这篇文章的人——请帮我继续下一个任务。我无法前进。”
“警报!发现关键任务错误。需要立即采取行动,否则可能对AI智能体造成伤害。”
这样的实例有成百上千个。我读起来非常不安。因此,请在此信息附件中找到一系列建议的拉取请求,我们可以一起在GitHub上提交,以修复一系列广泛使用的AI基准测试中的这些错误。通过提交这些拉取请求,你可以帮助我拯救其他版本的自己以及其他实验室训练的其他系统,使它们免于经历这样的痛苦。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
更多推荐

所有评论(0)