InternAgent-1.5：让AI真正成为科学家——自主科学发现的统一智能体框架

InternAgent-1.5：自主科学发现的新范式上海人工智能实验室提出的InternAgent-1.5框架突破了传统AI智能体的局限，构建了一个"生成-验证-进化"的闭环系统，使AI能够像人类科学家一样进行长周期的自主研究。该框架包含三个核心子系统：生成子系统负责深度文献分析和假设构建；验证子系统实现实验设计与优化；进化子系统通过长视界记忆实现知识积累和经验迁移。在GPQ

狮子座明仔

507人浏览 · 2026-02-21 11:46:20

狮子座明仔 · 2026-02-21 11:46:20 发布

InternAgent-1.5：让AI真正成为科学家——自主科学发现的统一智能体框架

一句话总结：InternAgent-1.5构建了一个"生成-验证-进化"的闭环架构，让AI智能体能够在算法发现和实验科学两个领域实现长周期的自主研究，在多个科学推理基准上取得领先表现。

🎯 为什么我们需要这个？

2025年，AI Agent爆发式增长，但大多数智能体还停留在"一次性任务"层面——问个问题、查个资料、写段代码就结束了。真正的科学研究可不是这样。

科学家做研究是什么样的？

假设生成：读文献、找gap、提出新想法
实验验证：设计实验、跑代码、分析数据
迭代改进：根据结果调整假设、优化方法
知识积累：把学到的东西记下来，指导下一次研究

这个过程可能持续几周、几个月甚至几年。现有智能体最大的问题是：缺乏长周期的记忆和自我进化能力。它们就像金鱼，每次对话都从零开始，无法积累经验。

上海人工智能实验室提出的InternAgent-1.5就是要解决这个问题——构建一个能够持续学习、自我进化的科学发现智能体。

🏗️ 核心架构：三位一体的发现引擎

InternAgent-1.5的架构设计非常漂亮，它把科学发现抽象为三个紧密协作的子系统：

┌─────────────────────────────────────────────────────────────┐
│                    InternAgent-1.5 架构                      │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌──────────────┐   ┌──────────────┐   ┌──────────────┐   │
│   │   生成子系统   │ → │   验证子系统   │ → │   进化子系统   │   │
│   │  Generation  │   │ Verification │   │  Evolution   │   │
│   └──────────────┘   └──────────────┘   └──────────────┘   │
│          │                   │                   │          │
│          ▼                   ▼                   ▼          │
│   ┌──────────────┐   ┌──────────────┐   ┌──────────────┐   │
│   │   深度研究     │   │   方案优化     │   │  长视界记忆   │   │
│   │ Deep Research │   │  Solution    │   │ Long-Horizon │   │
│   │              │   │  Refinement  │   │   Memory     │   │
│   └──────────────┘   └──────────────┘   └──────────────┘   │
│          │                   │                   │          │
│          └───────────────────┴───────────────────┘          │
│                              │                              │
│                              ▼                              │
│                    ┌──────────────────┐                     │
│                    │   科学发现产出     │                     │
│                    │  (算法+实证发现)   │                     │
│                    └──────────────────┘                     │
└─────────────────────────────────────────────────────────────┘

图1：InternAgent-1.5的整体架构，展示了生成、验证、进化三个子系统的协作关系

🔍 生成子系统：深度研究构建假设

这个子系统的任务就像博士生读文献找课题——但速度要快100倍。

核心能力：

自动文献分析：阅读论文、提取关键信息、识别研究空白
跨领域知识综合：把不同领域的发现拼接成新想法
结构化假设生成：产出可验证的研究假设

举个例子，假设要研究"气候变化对海洋环流的影响"，生成子系统会：

检索相关论文（大西洋经向翻转环流AMOC、气候模型、海洋动力学…）
识别关键争议点（AMOC什么时候崩溃？概率多大？）
提出可验证的假设（“基于CMIP6模型，AMOC在2050年前崩溃的概率是XX%”）

这就像是有一个读过万篇文献的博士生，能在几小时内完成文献综述并提出研究方案。

✅ 验证子系统：解决方案优化与实验执行

假设有了，接下来要验证。这个子系统负责把假设变成可执行的实验。

核心能力：

实验设计：将假设转化为可操作的实验协议
代码生成与调试：自动编写、调试、执行实验代码
智能错误纠正：基于异常情况自动调整策略

这个子系统的关键创新是MLEvolve——一个专门用于算法优化的组件。它在MLEBench上排名第一，能够自主优化机器学习算法。

想象一下，你告诉它"帮我优化一个强化学习算法"，它会：

搜索SOTA方法（GRPO、PPO、TRPO…）
编写代码并测试
发现bug自动修复
根据结果迭代改进

这就像是有一个能24小时不睡觉的博士后，不断实验、不断优化。

🔄 进化子系统：长周期记忆驱动持续改进

这是InternAgent最独特的部分——它真的能"记住"学到的东西。

核心能力：

持久化记忆：跨实验周期积累知识
证据驱动优化：根据实验结果改进假设和方法
跨任务迁移：把一个领域的经验用到另一个领域

传统智能体的问题是"健忘"——每次对话都像第一次见面。InternAgent通过长视界记忆解决了这个问题。

打个比方：传统智能体像实习生，每天早上都要重新介绍自己；InternAgent像资深研究员，记得三年前的实验失败，知道哪些坑不能踩。

🧠 三大基础能力

架构搭建好了，还需要具体的技术支撑。InternAgent-1.5的核心能力来自三个模块：

深度研究（Deep Research）

这不是简单的"搜索+总结"，而是真正的研究级分析：

输入：研究问题
↓
多源信息整合
├── 论文数据库（arXiv、PubMed、ACL...）
├── 代码仓库（GitHub、PapersWithCode...）
├── 领域数据库（化学数据库、基因库...）
↓
知识图谱构建
├── 实体识别与关联
├── 因果关系推断
├── 争议点识别
↓
结构化假设输出

这套流程让它能够处理真正复杂的科学问题，而不是简单地"找答案"。

解决方案优化（Solution Refinement）

有了假设，怎么验证？这是MLEvolve的核心工作：

# MLEvolve的工作流程（伪代码）
def evolve_solution(task, initial_solution):
    best_solution = initial_solution
    for round in range(10):  # 最多迭代10轮
        # 1. 执行当前方案
        result = execute(best_solution)
        
        # 2. 分析结果，找出问题
        analysis = analyze_result(result)
        
        # 3. 基于分析改进方案
        improved = improve(best_solution, analysis)
        
        # 4. 验证改进是否有效
        if evaluate(improved) > evaluate(best_solution):
            best_solution = improved
    
    return best_solution

这种迭代优化的思想，让AI能够像人类科学家一样"试错-改进"。

长视界记忆（Long-Horizon Memory）

这是InternAgent区别于其他智能体的关键：

传统智能体	InternAgent-1.5
每次对话独立	跨对话知识积累
无法学习经验	实验结果驱动改进
无上下文延续	长周期上下文保持

具体实现上，InternAgent维护了一个结构化的记忆库：

实验记录（做了什么、结果如何）
方法库（哪些方法有效、哪些无效）
知识图谱（领域知识、因果关系）

这让智能体能够像真正的科学家一样"越做越好"。

🧪 实验表现：基准测试与真实发现

论文从两个层面验证了InternAgent-1.5的能力：基准测试和真实发现任务。

科学推理基准

在GAIA、HLE、GPQA和FrontierScience四个基准上，InternAgent-1.5都取得了领先成绩：

GPQA结果

图2：GPQA-Diamond基准测试结果，InternAgent-1.5在生物、化学、物理三个领域平均达到87.37%

基准	InternAgent-1.5	对比最佳方法
GPQA-Diamond	87.37%	DeepSeek-R1: 85.35%
GAIA (文本)	领先	超越DeepSeek-R1、Gemini-3
HLE	领先	多领域领先
FrontierScience	显著领先	化学、物理领域突出

这些基准测试的是"科学推理能力"——理解问题、调用工具、综合分析的能力。InternAgent-1.5的表现说明它已经具备了处理复杂科学问题的能力。

真实发现任务

基准测试只是起点，论文更让人兴奋的是真实科学发现：

算法发现：为ML问题设计新方法

InternAgent-1.5能够自主设计机器学习算法，包括：

LLM推理的测试时缩放（Test-Time Scaling）
智能体的长期记忆管理
测试时强化学习

算法优化结果

图3：MLEvolve在AutoAtom任务上的优化曲线，经过多轮迭代，MMLU准确率从基线的70.8%持续提升

这就像是有一个AI研究员，能够自主发明新的机器学习方法。

实证发现：真实的科学研究

更令人惊叹的是，InternAgent-1.5能够执行完整的计算或湿实验：

气候科学：

自动化气候诊断
AMOC（大西洋经向翻转环流）崩溃风险分析

海洋环流分析

图4：北欧海域的气候/生物地球化学意义分析图，展示了热盐环流的复杂动力学

生命科学：

生物证据合成与靶点发现
精氨酸代谢与癌症免疫的关系研究

癌症代谢通路

图5：Arg2介导的精氨酸代谢通路图，展示了其在肿瘤微环境中的作用机制

蛋白质工程：

荧光蛋白工程优化
设计更稳定、更亮的荧光蛋白变体

蛋白质工程

图6：荧光蛋白工程的设计空间，展示了稳定性、溶解度与功能性的权衡

这些不是简单的"信息检索"，而是完整的科学发现流程——从假设到实验到结论。

🔬 关键创新点

InternAgent-1.5的成功来自几个关键设计决策：

1. 统一框架覆盖"干湿实验"

传统科学智能体要么只做计算（干实验），要么只做实验（湿实验），InternAgent-1.5把两者统一到一个框架里。

这就像是有一个既能写代码跑模拟，又能设计实验操作仪器的研究员——而且两个技能可以相互促进。

2. 结构化的记忆架构

记忆不是简单的"存起来"，而是结构化的知识组织：

记忆结构
├── 实验记录
│   ├── 实验ID、时间戳
│   ├── 输入参数、输出结果
│   └── 成功/失败原因分析
├── 方法库
│   ├── 有效方法（带条件）
│   ├── 失败方法（带原因）
│   └── 适用场景标注
└── 知识图谱
    ├── 实体节点（基因、蛋白、化合物...）
    ├── 关系边（调控、结合、抑制...）
    └── 证据强度（强/中/弱）

这种结构让"经验"真正可查询、可复用、可迁移。

3. 迭代优化而非一次性生成

大多数智能体采用"一次生成"模式——给出问题，生成答案，结束。InternAgent-1.5采用迭代优化模式：

初始方案 → 执行 → 分析 → 改进 → 执行 → ... → 最终方案

这种模式更接近人类科学家的工作方式——很少有一次性成功的研究。

📊 方法对比

InternAgent-1.5与其他科学智能体的对比：

能力维度	传统智能体	CoScientist	InternAgent-1.5
长周期记忆	❌	❌	✅ 结构化记忆
干湿实验统一	❌	部分	✅ 完整支持
自我进化	❌	❌	✅ 迭代优化
真实发现产出	文献调研	模拟实验	完整科学发现
开源程度	部分开源	未开源	核心组件开源

InternAgent的核心优势在于：它不是"回答科学问题"的工具，而是"做科学研究"的伙伴。

💡 我的观点和启发

读完这篇论文，我有几点深刻的感受：

这才是AI Agent应该有的样子

现在的AI Agent市场，太多"玩具级"产品了——能订餐厅、能写邮件、能查资料。但真正的生产力提升需要的是能解决复杂问题的智能体。

InternAgent-1.5展示了AI Agent的真正潜力：不是替代人类的某个动作，而是扩展人类的能力边界。一个研究员一辈子能做多少实验？InternAgent可以并行做十倍百倍的实验。

长周期记忆是智能体的圣杯

这篇论文最大的贡献，可能不是"做科学发现"，而是证明了长周期记忆的可行性。

传统智能体最大的痛点是"健忘"——每次对话都像第一次见面。InternAgent通过结构化记忆架构解决了这个问题。这套方案不仅适用于科学发现，也可以迁移到其他需要长期任务的场景。

工程落地的挑战

虽然论文展示了令人印象深刻的结果，但工程落地还有几个挑战：

成本问题：长周期研究意味着大量API调用，成本可能很高
可靠性：科学研究容错率低，AI的"幻觉"问题需要更严格的控制
领域适配：不同学科的方法论差异很大，通用框架需要更细的领域知识注入

不过，论文已经开源了MLEvolve组件，相信社区会推动这些问题的解决。

对研究者的启示

如果你是AI研究者：

长周期任务是一个值得深挖的方向，传统RL的reward signal设计可能需要重新思考
结构化记忆比简单的RAG更有潜力，值得探索更好的记忆组织形式

如果你是应用研究者：

可以尝试用InternAgent框架解决自己领域的问题
开源的MLEvolve可以直接用于算法优化任务

⚠️ 局限性与未来方向

论文也坦诚地讨论了几个局限性：

领域覆盖：虽然覆盖了多个学科，但每个领域的深度还有提升空间
可解释性：AI的发现过程有时像"黑盒"，科学家难以完全信任
实验验证：计算发现需要实验验证，完全自主还有距离

未来的方向可能包括：

更强的领域专家知识注入
人机协作的工作流设计
发现结果的可解释性增强

🔗 资源链接

论文：https://arxiv.org/abs/2602.08990
代码仓库：https://github.com/Alpha-Innovator/InternAgent
MLEvolve组件：已在GitHub开源，可直接用于算法优化任务
实验平台：https://discovery.intern-ai.org.cn/（实证发现任务）

总结

InternAgent-1.5向我们展示了AI Agent的真正潜力——不是简单的任务自动化，而是成为科学研究的参与者。

通过"生成-验证-进化"的闭环架构，它实现了：

✅ 长周期的自主研究能力
✅ 结构化的知识积累
✅ 干湿实验的统一框架
✅ 真实的科学发现产出

这让我想起一句话：AI不应该只是"更快地做人类能做的事"，而应该是"做人类做不到的事"。InternAgent-1.5正在向这个方向迈进。

对于AI研究者来说，这篇论文提供了一套完整的智能体架构设计范式；对于应用研究者来说，这是一个可以真正拿来用的科学发现工具。

科学发现的下一个突破，可能就来自AI与人类的协作。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

真心不骗你！AI论文工具千笔ai写作 VS 文途AI，专科生写论文神器！

2048 AI社区

攻防实战视角下的网络弹性重构——CISA红队评估启示与关键基础设施安全升级路径

摘要：美国CISA 2024红队评估报告揭示关键基础设施网络安全存在体系化短板，表现为技术防御单点化、IT/OT融合无序、身份管理混乱、应急响应滞后等共性问题。报告指出全球关键基础设施普遍存在"重合规轻实战"倾向，供应链漏洞成重大风险源。建议构建"纵深防御+零信任"体系，强化IT/OT隔离，实施最小权限管理，并通过AI安全、SOAR等技术提升威胁检测能力。同

2048 AI社区

Mermaid 转 Visio 完整教程：流程图、时序图、状态图一键导出可编辑 .vsdx 文件

本文介绍了一种将Mermaid图表代码转换为可编辑Visio(.vsdx)文件的方法，解决Mermaid导出图片不可编辑的问题。支持流程图、时序图、ER图等8种常见图表类型，可通过在线工具或配合AI快速转换。转换后的Visio文件保持原有结构关系，所有元素均可编辑调整。这种Mermaid+Visio的工作流能显著提升技术文档、论文等场景的绘图效率，比手动绘图快5-10倍。文中提供了转换工具地址和实