DeepScientist:逐步推进前沿科学发现
在热门的人工智能文本检测研究领域,DeepScientist 自主生成了 2472 个独特的研究思路,实现了其中 600 个最有前景的假设,并最终生成了在 RAID 数据集上将 AUROC 得分提高了 7.9% 的方法,同时降低了推理延迟。这种新方法在 Who&When 基准测试的“算法生成”设置下取得了 47.46 的分数,比人类最先进的基线水平提高了惊人的 183.7%。我们很高兴地向大家介绍
DeepScientist:逐步推进前沿科学发现
🔥 精选新闻
- [2025.10.1]首届国际人工智能科学家大会(ICAIS)现已开始征稿,大会将在北京举行!
我们很高兴地向大家介绍 DeepScientist,这是首个大规模实证研究,证明人工智能可以在前沿科学任务上逐步超越人类的最高水平。在竞争激烈的 AI 文本检测领域,DeepScientist 仅用两周时间就取得了相当于人类三年累计研究成果的显著进展。DeepScientist 系统无需人工干预,即可实现目标导向、持续迭代的科学发现,这标志着人工智能向成为科研真正伙伴迈出了重要一步。
我们现在已经证明,人工智能确实能够在多个不同领域推动前沿发展。在热门的人工智能文本检测研究领域,DeepScientist 自主生成了 2472 个独特的研究思路,实现了其中 600 个最有前景的假设,并最终生成了在 RAID 数据集上将 AUROC 得分提高了 7.9% 的方法,同时降低了推理延迟。这种能力远不止于此。在面对“智能体故障归因”这一高度复杂的挑战时,DeepScientist 独立构思并提出了一种名为 A2P(溯因-行动-预测)的新方法。其核心创新在于将任务从简单的模式识别提升到结构化的因果推理。这种新方法在 Who&When 基准测试的“算法生成”设置下取得了 47.46 的分数,比人类最先进的基线水平提高了惊人的 183.7%。这些成就证明 DeepScientist 能够产生具有持久影响的发现,并系统地推进多个领域的技术前沿。
开源计划
我们的整个开源计划将分为四个阶段。
第一阶段:基于应用的访问
为了确保安全,我们将邀请一小部分用户试用 DeepScientist。如果您有想要探索的任务,请填写我们的等候名单表单。我们将与您合作,进一步完善 DeepScientist。
第二阶段:基础组件发布
(更新)此阶段已完成。我们已提供http://deepscientist.cc网站和DeepScientist-CLI代码,前 30 位受邀用户现已可以使用。
在确保安全性之后,我们将开源我们的基础组件。此时,您可以立即开始构建自己的 DeepScientist 或复现我们的工作(或许可以创建一个“开源 DeepScientist”,我们强烈鼓励这样做!):
-
您的实现很可能比我们的更优雅、更高效。我们承认,我们实现的组件和工作流仍然存在一些不够完善的代码和设计。
-
不要限制你的想象力。DeepScientist 只是迈出的一小步。利用人工智能实现科学发现自动化是一个令人无比兴奋的领域,拥有广阔的探索空间!
第三阶段:实验数据发布(预计在11月之后)
我们将开源全部约5000个假设和约1100条实验日志。这将是首次公开如此大规模的人工智能生成实验结果数据集。
第四阶段:DeepScientist 源代码发布
我们将秉持负责任的态度,进行长期测试和调整,以防止对人类研究造成任何潜在危害。之后,我们将发布 DeepScientist 代码的核心架构,以促进社区发展。
一些想法
如果您觉得以下评论有用,请给Yixuan Weng的这个仓库点个赞。
评论 1
- 问:您之前的项目是CycleResearcher。为什么这个新项目取了这个名字
DeepScientist而不是 CycleResearcherDeepResearcher? - 答:早在2024年9月,我就计划将我目前的项目命名为“DeepResearcher”,类似于DeepReviewer。然而,OpenAI后来占用了这个名字。因此,我决定将我的项目命名为
DeepScientist……
评论 2
- 问:你们什么时候会开源?
- 答:我只有在确保足够的安全性之后才会开源,因为我仍然不能完全确定它对
DeepScientist学术界的益处是否大于其潜在风险。因此,我必须采取谨慎的态度。 - 问:为什么你们要采取分阶段的开源战略?
- 答:因为社区热情高涨——几乎所有人都迫不及待地想看到我开源!我计划利用国庆节和中秋节假期(2025年中国最长的公共假期)来修改代码,以便社区能够更早地体验该系统,并探索它如何加速不同领域的科学发现。感谢中关村研究院的支持,我们将能够免费向社区提供完整的DeepScientist系统。如果您感兴趣,可以通过候补名单表格提前注册。
评论 3
- 问:您认为人工智能驱动的科学发现存在规模定律吗?
- 答:我坚信人工智能驱动的科学发现遵循其自身的尺度定律。但这并非孤立现象,而是人类发现步伐不断加快的自然延伸和放大。纵观历史,科学进步的速度一直在持续提升,而这种加速在现代尤为显著。我从中学起就喜欢玩席德·梅尔的《文明》系列游戏,游戏中知识和技术的积累会带来更快的“灵光乍现”。我相信,我们现在正步入一个由人工智能驱动的现实世界“灵光乍现时代”。
评论 4
- 问:目前所谓的“人工智能科学家”更像是“高通量试错机器”,而不是真正具有深刻洞察力的“发现者”。我们如何才能提高他们的科学直觉?
- 答:首先,随着模型能力的提升,我已经能感受到它们在识别科学问题局限性方面的能力有所提高。早期的DeepSeek-R1模型,其观测结果非常浅显。但Qwen-3-235B-Thinking-2507发布后,其洞察力和假设生成能力明显增强。(在我看来,只有比Qwen-3-235B版本更强大的模型才能产生真正有价值的发现。)强化学习虚拟现实(RLVR)是一个很有前景的方向,但也面临着挑战:成本高昂,训练效率低下(大约需要1000个GPU小时才能生成一个有用的样本)。
评论 5
- 问:这项研究的总成本约为 10 万美元。与资助一名博士生进行类似研究周期相比,您认为在目前阶段,这种做法是否具有成本效益?
- 答:我认为两者各有优势。失败是成功之母,而人工智能最大的优势在于其能够持续探索而不疲倦。一方面,我们可以依靠人工智能尝试各种不同的策略——即使发现某种方法在某个领域行不通,本身也是一项意义重大的发现。另一方面,这仅仅是个开始。未来几年,随着能力的提升和推理成本的降低,人工智能的成本将大幅下降。
评论 6
- 问:您论文中最令人兴奋的发现之一是计算资源与研究产出之间存在“近乎线性的关系”。您认为随着GPU数量的增加,这种趋势会无限期地持续下去,还是很快就会遇到瓶颈?下一个瓶颈可能是什么?
- 答:我认为这种情况不会无限期地持续下去。我们即将遇到瓶颈。下一个瓶颈将是“探索效率”,而不是“探索规模”。目前,大部分计算资源都浪费在了低价值的探索上。未来,挑战在于如何避免这类低价值的工作。虽然DeepScientist偶尔会通过反复试验发现一些提升性能的新方法,但这些改进往往微乎其微。只有当我们能够进行大规模、高价值的探索时,才能取得真正的突破。
评论 7
- 问:还有其他惊喜吗?
- 答:是的!10月初,我们将共同开源一款工具。我相信每位研究人员都会对此感兴趣——它能显著增强DeepScientist的演示功能。
📰 最新作品
-
调查 | 人工智能科学家距离改变世界还有多远?
-
立场文件 | 人工智能科学家若缺乏强大的实施能力,终将失败
- 来源: arXiv 出版物(2025 年 6 月)
- 链接: 论文
-
发布 | Airaxiv。通往人工智能生成研究的门户!
- 来源: Airaxiv网站
- 链接: 网站
-
研究论文 | DeepReview:利用类人深度思维过程改进基于LLM的论文评审
-
研究论文 | CycleResearcher:通过自动化审核改进自动化研究
💬 讨论论坛
加入这些在线社区,参与讨论并交流想法:
人工智能科学家研究讨论小组:
如果您对人工智能科学家感兴趣,可以添加nauhcutnil的微信好友,即可加入人工智能科学家讨论群。发送好友请求时,请在备注中注明“人工智能科学家微信群” 。
<span style="background-color:#f6f8fa"><span style="color:#1f2328"><span style="color:#1f2328"><span style="background-color:#f6f8fa"><code>@article{weng2025deepscientist,
title={DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively},
author={Weng, Yixuan and Zhu, Minjun and Xie, Qiujie and Sun, Qiyao and Lin, Zhen and Liu, Sifan and Zhang, Yue},
journal={arXiv preprint arXiv:2509.26603},
year={2025}
}</code></span></span></span></span>
更多推荐






所有评论(0)