InternAgent-1.5:让AI真正成为科学家——自主科学发现的统一智能体框架

一句话总结:InternAgent-1.5构建了一个"生成-验证-进化"的闭环架构,让AI智能体能够在算法发现和实验科学两个领域实现长周期的自主研究,在多个科学推理基准上取得领先表现。


🎯 为什么我们需要这个?

2025年,AI Agent爆发式增长,但大多数智能体还停留在"一次性任务"层面——问个问题、查个资料、写段代码就结束了。真正的科学研究可不是这样。

科学家做研究是什么样的?

  1. 假设生成:读文献、找gap、提出新想法
  2. 实验验证:设计实验、跑代码、分析数据
  3. 迭代改进:根据结果调整假设、优化方法
  4. 知识积累:把学到的东西记下来,指导下一次研究

这个过程可能持续几周、几个月甚至几年。现有智能体最大的问题是:缺乏长周期的记忆和自我进化能力。它们就像金鱼,每次对话都从零开始,无法积累经验。

上海人工智能实验室提出的InternAgent-1.5就是要解决这个问题——构建一个能够持续学习、自我进化的科学发现智能体。


🏗️ 核心架构:三位一体的发现引擎

InternAgent-1.5的架构设计非常漂亮,它把科学发现抽象为三个紧密协作的子系统:

┌─────────────────────────────────────────────────────────────┐
│                    InternAgent-1.5 架构                      │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌──────────────┐   ┌──────────────┐   ┌──────────────┐   │
│   │   生成子系统   │ → │   验证子系统   │ → │   进化子系统   │   │
│   │  Generation  │   │ Verification │   │  Evolution   │   │
│   └──────────────┘   └──────────────┘   └──────────────┘   │
│          │                   │                   │          │
│          ▼                   ▼                   ▼          │
│   ┌──────────────┐   ┌──────────────┐   ┌──────────────┐   │
│   │   深度研究     │   │   方案优化     │   │  长视界记忆   │   │
│   │ Deep Research │   │  Solution    │   │ Long-Horizon │   │
│   │              │   │  Refinement  │   │   Memory     │   │
│   └──────────────┘   └──────────────┘   └──────────────┘   │
│          │                   │                   │          │
│          └───────────────────┴───────────────────┘          │
│                              │                              │
│                              ▼                              │
│                    ┌──────────────────┐                     │
│                    │   科学发现产出     │                     │
│                    │  (算法+实证发现)   │                     │
│                    └──────────────────┘                     │
└─────────────────────────────────────────────────────────────┘

图1:InternAgent-1.5的整体架构,展示了生成、验证、进化三个子系统的协作关系

🔍 生成子系统:深度研究构建假设

这个子系统的任务就像博士生读文献找课题——但速度要快100倍。

核心能力

  • 自动文献分析:阅读论文、提取关键信息、识别研究空白
  • 跨领域知识综合:把不同领域的发现拼接成新想法
  • 结构化假设生成:产出可验证的研究假设

举个例子,假设要研究"气候变化对海洋环流的影响",生成子系统会:

  1. 检索相关论文(大西洋经向翻转环流AMOC、气候模型、海洋动力学…)
  2. 识别关键争议点(AMOC什么时候崩溃?概率多大?)
  3. 提出可验证的假设(“基于CMIP6模型,AMOC在2050年前崩溃的概率是XX%”)

这就像是有一个读过万篇文献的博士生,能在几小时内完成文献综述并提出研究方案。

✅ 验证子系统:解决方案优化与实验执行

假设有了,接下来要验证。这个子系统负责把假设变成可执行的实验。

核心能力

  • 实验设计:将假设转化为可操作的实验协议
  • 代码生成与调试:自动编写、调试、执行实验代码
  • 智能错误纠正:基于异常情况自动调整策略

这个子系统的关键创新是MLEvolve——一个专门用于算法优化的组件。它在MLEBench上排名第一,能够自主优化机器学习算法。

想象一下,你告诉它"帮我优化一个强化学习算法",它会:

  1. 搜索SOTA方法(GRPO、PPO、TRPO…)
  2. 编写代码并测试
  3. 发现bug自动修复
  4. 根据结果迭代改进

这就像是有一个能24小时不睡觉的博士后,不断实验、不断优化。

🔄 进化子系统:长周期记忆驱动持续改进

这是InternAgent最独特的部分——它真的能"记住"学到的东西

核心能力

  • 持久化记忆:跨实验周期积累知识
  • 证据驱动优化:根据实验结果改进假设和方法
  • 跨任务迁移:把一个领域的经验用到另一个领域

传统智能体的问题是"健忘"——每次对话都像第一次见面。InternAgent通过长视界记忆解决了这个问题。

打个比方:传统智能体像实习生,每天早上都要重新介绍自己;InternAgent像资深研究员,记得三年前的实验失败,知道哪些坑不能踩。


🧠 三大基础能力

架构搭建好了,还需要具体的技术支撑。InternAgent-1.5的核心能力来自三个模块:

深度研究(Deep Research)

这不是简单的"搜索+总结",而是真正的研究级分析

输入:研究问题
↓
多源信息整合
├── 论文数据库(arXiv、PubMed、ACL...)
├── 代码仓库(GitHub、PapersWithCode...)
├── 领域数据库(化学数据库、基因库...)
↓
知识图谱构建
├── 实体识别与关联
├── 因果关系推断
├── 争议点识别
↓
结构化假设输出

这套流程让它能够处理真正复杂的科学问题,而不是简单地"找答案"。

解决方案优化(Solution Refinement)

有了假设,怎么验证?这是MLEvolve的核心工作:

# MLEvolve的工作流程(伪代码)
def evolve_solution(task, initial_solution):
    best_solution = initial_solution
    for round in range(10):  # 最多迭代10轮
        # 1. 执行当前方案
        result = execute(best_solution)
        
        # 2. 分析结果,找出问题
        analysis = analyze_result(result)
        
        # 3. 基于分析改进方案
        improved = improve(best_solution, analysis)
        
        # 4. 验证改进是否有效
        if evaluate(improved) > evaluate(best_solution):
            best_solution = improved
    
    return best_solution

这种迭代优化的思想,让AI能够像人类科学家一样"试错-改进"。

长视界记忆(Long-Horizon Memory)

这是InternAgent区别于其他智能体的关键:

传统智能体 InternAgent-1.5
每次对话独立 跨对话知识积累
无法学习经验 实验结果驱动改进
无上下文延续 长周期上下文保持

具体实现上,InternAgent维护了一个结构化的记忆库

  • 实验记录(做了什么、结果如何)
  • 方法库(哪些方法有效、哪些无效)
  • 知识图谱(领域知识、因果关系)

这让智能体能够像真正的科学家一样"越做越好"。


🧪 实验表现:基准测试与真实发现

论文从两个层面验证了InternAgent-1.5的能力:基准测试真实发现任务

科学推理基准

在GAIA、HLE、GPQA和FrontierScience四个基准上,InternAgent-1.5都取得了领先成绩:

GPQA结果

图2:GPQA-Diamond基准测试结果,InternAgent-1.5在生物、化学、物理三个领域平均达到87.37%

基准 InternAgent-1.5 对比最佳方法
GPQA-Diamond 87.37% DeepSeek-R1: 85.35%
GAIA (文本) 领先 超越DeepSeek-R1、Gemini-3
HLE 领先 多领域领先
FrontierScience 显著领先 化学、物理领域突出

这些基准测试的是"科学推理能力"——理解问题、调用工具、综合分析的能力。InternAgent-1.5的表现说明它已经具备了处理复杂科学问题的能力。

真实发现任务

基准测试只是起点,论文更让人兴奋的是真实科学发现

算法发现:为ML问题设计新方法

InternAgent-1.5能够自主设计机器学习算法,包括:

  • LLM推理的测试时缩放(Test-Time Scaling)
  • 智能体的长期记忆管理
  • 测试时强化学习

算法优化结果

图3:MLEvolve在AutoAtom任务上的优化曲线,经过多轮迭代,MMLU准确率从基线的70.8%持续提升

这就像是有一个AI研究员,能够自主发明新的机器学习方法。

实证发现:真实的科学研究

更令人惊叹的是,InternAgent-1.5能够执行完整的计算或湿实验:

气候科学

  • 自动化气候诊断
  • AMOC(大西洋经向翻转环流)崩溃风险分析

海洋环流分析

图4:北欧海域的气候/生物地球化学意义分析图,展示了热盐环流的复杂动力学

生命科学

  • 生物证据合成与靶点发现
  • 精氨酸代谢与癌症免疫的关系研究

癌症代谢通路

图5:Arg2介导的精氨酸代谢通路图,展示了其在肿瘤微环境中的作用机制

蛋白质工程

  • 荧光蛋白工程优化
  • 设计更稳定、更亮的荧光蛋白变体

蛋白质工程

图6:荧光蛋白工程的设计空间,展示了稳定性、溶解度与功能性的权衡

这些不是简单的"信息检索",而是完整的科学发现流程——从假设到实验到结论。


🔬 关键创新点

InternAgent-1.5的成功来自几个关键设计决策:

1. 统一框架覆盖"干湿实验"

传统科学智能体要么只做计算(干实验),要么只做实验(湿实验),InternAgent-1.5把两者统一到一个框架里。

这就像是有一个既能写代码跑模拟,又能设计实验操作仪器的研究员——而且两个技能可以相互促进。

2. 结构化的记忆架构

记忆不是简单的"存起来",而是结构化的知识组织:

记忆结构
├── 实验记录
│   ├── 实验ID、时间戳
│   ├── 输入参数、输出结果
│   └── 成功/失败原因分析
├── 方法库
│   ├── 有效方法(带条件)
│   ├── 失败方法(带原因)
│   └── 适用场景标注
└── 知识图谱
    ├── 实体节点(基因、蛋白、化合物...)
    ├── 关系边(调控、结合、抑制...)
    └── 证据强度(强/中/弱)

这种结构让"经验"真正可查询、可复用、可迁移。

3. 迭代优化而非一次性生成

大多数智能体采用"一次生成"模式——给出问题,生成答案,结束。InternAgent-1.5采用迭代优化模式:

初始方案 → 执行 → 分析 → 改进 → 执行 → ... → 最终方案

这种模式更接近人类科学家的工作方式——很少有一次性成功的研究。


📊 方法对比

InternAgent-1.5与其他科学智能体的对比:

能力维度 传统智能体 CoScientist InternAgent-1.5
长周期记忆 ✅ 结构化记忆
干湿实验统一 部分 ✅ 完整支持
自我进化 ✅ 迭代优化
真实发现产出 文献调研 模拟实验 完整科学发现
开源程度 部分开源 未开源 核心组件开源

InternAgent的核心优势在于:它不是"回答科学问题"的工具,而是"做科学研究"的伙伴


💡 我的观点和启发

读完这篇论文,我有几点深刻的感受:

这才是AI Agent应该有的样子

现在的AI Agent市场,太多"玩具级"产品了——能订餐厅、能写邮件、能查资料。但真正的生产力提升需要的是能解决复杂问题的智能体。

InternAgent-1.5展示了AI Agent的真正潜力:不是替代人类的某个动作,而是扩展人类的能力边界。一个研究员一辈子能做多少实验?InternAgent可以并行做十倍百倍的实验。

长周期记忆是智能体的圣杯

这篇论文最大的贡献,可能不是"做科学发现",而是证明了长周期记忆的可行性

传统智能体最大的痛点是"健忘"——每次对话都像第一次见面。InternAgent通过结构化记忆架构解决了这个问题。这套方案不仅适用于科学发现,也可以迁移到其他需要长期任务的场景。

工程落地的挑战

虽然论文展示了令人印象深刻的结果,但工程落地还有几个挑战:

  1. 成本问题:长周期研究意味着大量API调用,成本可能很高
  2. 可靠性:科学研究容错率低,AI的"幻觉"问题需要更严格的控制
  3. 领域适配:不同学科的方法论差异很大,通用框架需要更细的领域知识注入

不过,论文已经开源了MLEvolve组件,相信社区会推动这些问题的解决。

对研究者的启示

如果你是AI研究者:

  • 长周期任务是一个值得深挖的方向,传统RL的reward signal设计可能需要重新思考
  • 结构化记忆比简单的RAG更有潜力,值得探索更好的记忆组织形式

如果你是应用研究者:

  • 可以尝试用InternAgent框架解决自己领域的问题
  • 开源的MLEvolve可以直接用于算法优化任务

⚠️ 局限性与未来方向

论文也坦诚地讨论了几个局限性:

  1. 领域覆盖:虽然覆盖了多个学科,但每个领域的深度还有提升空间
  2. 可解释性:AI的发现过程有时像"黑盒",科学家难以完全信任
  3. 实验验证:计算发现需要实验验证,完全自主还有距离

未来的方向可能包括:

  • 更强的领域专家知识注入
  • 人机协作的工作流设计
  • 发现结果的可解释性增强

🔗 资源链接

  • 论文:https://arxiv.org/abs/2602.08990
  • 代码仓库:https://github.com/Alpha-Innovator/InternAgent
  • MLEvolve组件:已在GitHub开源,可直接用于算法优化任务
  • 实验平台:https://discovery.intern-ai.org.cn/(实证发现任务)

总结

InternAgent-1.5向我们展示了AI Agent的真正潜力——不是简单的任务自动化,而是成为科学研究的参与者

通过"生成-验证-进化"的闭环架构,它实现了:

  • ✅ 长周期的自主研究能力
  • ✅ 结构化的知识积累
  • ✅ 干湿实验的统一框架
  • ✅ 真实的科学发现产出

这让我想起一句话:AI不应该只是"更快地做人类能做的事",而应该是"做人类做不到的事"。InternAgent-1.5正在向这个方向迈进。

对于AI研究者来说,这篇论文提供了一套完整的智能体架构设计范式;对于应用研究者来说,这是一个可以真正拿来用的科学发现工具。

科学发现的下一个突破,可能就来自AI与人类的协作。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐