还在为论文插图熬夜对齐、反复调色吗?

顶会审美的Figure,能否一键生成?

当AI科学家遇上学术制图,一场解放科研生产力的革命正在发生。

PaperBanana一键生成顶刊级科研配图,科研人再也不用熬夜画图了!
由PaperBanana生成的方法论示意图和统计图示例,展现了自动化生成学术插图的潜力。

尽管由语言模型驱动的自主AI科学家发展迅速,但在研究流程中,生成可直接用于出版的插图仍是一个劳动密集型的瓶颈。为减轻这一负担,北京大学谷歌云AI研究院联合提出了PaperBanana——一个用于自动生成适合出版的学术插图的智能体框架。PaperBanana由先进的视觉语言模型和图像生成模型驱动,通过协调多个专业智能体来检索参考文献、规划内容与风格、渲染图像,并借助自我批判进行迭代优化。为严格评估该框架,构建了PaperBanana基准,该基准包含从NeurIPS 2025出版物中精选292个方法论示意图测试案例,涵盖了多样化的研究领域和插图风格。综合实验表明,PaperBanana在忠实度、简洁性、可读性和美学方面均优于领先的基线方法。进一步研究表明,该方法可有效扩展至高质量统计图的生成。总体而言,PaperBanana为自动生成适合出版的插图铺平了道路。

方法概述

如下图所示,PaperBanana框架协调一个由五个专业智能体组成的团队——检索器、规划器、风格师、可视化器和批判器——将原始科学内容转化为适合出版的图表与绘图。
在这里插入图片描述

  • 检索器智能体:识别相关的参考示例,以指导下游智能体。
  • 规划器智能体:作为认知核心,将上下文转化为详细的文本描述。
  • 风格师智能体:通过综合参考文献中的指导原则,确保符合学术审美标准。
  • 可视化器智能体:将文本描述转化为视觉输出或可执行代码。
  • 批判器智能体:对照源内容检查生成的图像或图表,提供改进反馈。

基准构建

缺乏基准测试阻碍了对自动图表生成的严谨评估。为此,通过PaperBananaBench来解决该问题。这是一个从NeurIPS 2025方法论示意图中精选的专用基准,旨在捕捉现代AI论文中复杂的美学风格和多样化的逻辑构成。构建流程通过以下步骤确保高质量:(1) 收集与解析,(2) 筛选,(3) 分类,以及 (4) 人工整理。最终的数据集包含584个有效样本,划分为292个测试案例和292个参考案例。
由PaperBanana根据原始数据生成的图表由PaperBanana根据原始数据生成的图表

实验结果

在PaperBananaBench上对PaperBanana进行了评估,从忠实度、简洁性、可读性和美学四个维度衡量性能。该方法在所有四个评估维度上均持续优于领先的基线方法。
在这里插入图片描述
此外,该方法也能无缝扩展到高质量统计图的生成。下图即为根据原始数据生成的示例。
在这里插入图片描述

两项进阶应用

  1. 提升人工绘制图表的美感:探索利用总结的美学指导原则来提升现有人工绘制图表的美学质量。以下是一个示例:
    在这里插入图片描述
  2. 基于代码与图像生成用于可视化统计图的对比:探索使用图像生成模型进行统计图生成,并与基于代码的方法进行比较。以下结果揭示了明显的对比:图像生成在呈现效果上表现出色,但在内容忠实度上表现不佳。(下图本身由PaperBanana根据原始数据生成)
    在这里插入图片描述

案例研究

图表生成案例研究

给定相同的源上下文和标题,基础的Nano-Banana-Pro通常会生成具有过时色调且内容过于冗长的图表。相比之下,PaperBanana生成的结果在保持对源上下文忠实度的同时,更加简洁美观。
在这里插入图片描述

美学增强

更多利用自动总结的风格指导原则增强人工绘制图表美学的案例。优化后的图表在配色方案、排版、图形元素等方面展现出显著的风格改进。
在这里插入图片描述

统计图可视化

使用代码和图像生成可视化统计图的案例研究。观察到图像生成模型可以生成视觉吸引力更强的图表,但会导致更多忠实度错误,如数字幻觉或元素重复。
在这里插入图片描述

失败案例

主要的失败模式涉及连接错误,例如冗余连接和源-目标节点不匹配。初步分析表明,批判器模型通常无法识别这些连接性问题,这表明这些错误可能源于基础模型固有的感知限制。
在这里插入图片描述
科研绘图的范式,正被彻底改写。

从精准生成到风格增强,AI的“审美”与“逻辑”将走向何方?

或许不久后,

构思归你,绘图归AI。

而今晚,你终于可以关掉PPT,睡个好觉了。

相关资源

  • 项目主页:https://dwzhu-pku.github.io/PaperBanana/
  • 论文地址:https://arxiv.org/abs/2601.23265
  • 代码仓库:https://github.com/dwzhu-pku/PaperBanana
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐