PaperBanana一键生成顶刊级科研配图,科研人再也不用熬夜画图了!
还在为论文插图熬夜对齐、反复调色吗?顶会审美的Figure,能否一键生成?当AI科学家遇上学术制图,一场解放科研生产力的革命正在发生。
还在为论文插图熬夜对齐、反复调色吗?
顶会审美的Figure,能否一键生成?
当AI科学家遇上学术制图,一场解放科研生产力的革命正在发生。

由PaperBanana生成的方法论示意图和统计图示例,展现了自动化生成学术插图的潜力。
尽管由语言模型驱动的自主AI科学家发展迅速,但在研究流程中,生成可直接用于出版的插图仍是一个劳动密集型的瓶颈。为减轻这一负担,北京大学和谷歌云AI研究院联合提出了PaperBanana——一个用于自动生成适合出版的学术插图的智能体框架。PaperBanana由先进的视觉语言模型和图像生成模型驱动,通过协调多个专业智能体来检索参考文献、规划内容与风格、渲染图像,并借助自我批判进行迭代优化。为严格评估该框架,构建了PaperBanana基准,该基准包含从NeurIPS 2025出版物中精选292个方法论示意图测试案例,涵盖了多样化的研究领域和插图风格。综合实验表明,PaperBanana在忠实度、简洁性、可读性和美学方面均优于领先的基线方法。进一步研究表明,该方法可有效扩展至高质量统计图的生成。总体而言,PaperBanana为自动生成适合出版的插图铺平了道路。
方法概述
如下图所示,PaperBanana框架协调一个由五个专业智能体组成的团队——检索器、规划器、风格师、可视化器和批判器——将原始科学内容转化为适合出版的图表与绘图。
- 检索器智能体:识别相关的参考示例,以指导下游智能体。
- 规划器智能体:作为认知核心,将上下文转化为详细的文本描述。
- 风格师智能体:通过综合参考文献中的指导原则,确保符合学术审美标准。
- 可视化器智能体:将文本描述转化为视觉输出或可执行代码。
- 批判器智能体:对照源内容检查生成的图像或图表,提供改进反馈。
基准构建
缺乏基准测试阻碍了对自动图表生成的严谨评估。为此,通过PaperBananaBench来解决该问题。这是一个从NeurIPS 2025方法论示意图中精选的专用基准,旨在捕捉现代AI论文中复杂的美学风格和多样化的逻辑构成。构建流程通过以下步骤确保高质量:(1) 收集与解析,(2) 筛选,(3) 分类,以及 (4) 人工整理。最终的数据集包含584个有效样本,划分为292个测试案例和292个参考案例。
由PaperBanana根据原始数据生成的图表
实验结果
在PaperBananaBench上对PaperBanana进行了评估,从忠实度、简洁性、可读性和美学四个维度衡量性能。该方法在所有四个评估维度上均持续优于领先的基线方法。
此外,该方法也能无缝扩展到高质量统计图的生成。下图即为根据原始数据生成的示例。
两项进阶应用
- 提升人工绘制图表的美感:探索利用总结的美学指导原则来提升现有人工绘制图表的美学质量。以下是一个示例:

- 基于代码与图像生成用于可视化统计图的对比:探索使用图像生成模型进行统计图生成,并与基于代码的方法进行比较。以下结果揭示了明显的对比:图像生成在呈现效果上表现出色,但在内容忠实度上表现不佳。(下图本身由PaperBanana根据原始数据生成)

案例研究
图表生成案例研究
给定相同的源上下文和标题,基础的Nano-Banana-Pro通常会生成具有过时色调且内容过于冗长的图表。相比之下,PaperBanana生成的结果在保持对源上下文忠实度的同时,更加简洁美观。
美学增强
更多利用自动总结的风格指导原则增强人工绘制图表美学的案例。优化后的图表在配色方案、排版、图形元素等方面展现出显著的风格改进。
统计图可视化
使用代码和图像生成可视化统计图的案例研究。观察到图像生成模型可以生成视觉吸引力更强的图表,但会导致更多忠实度错误,如数字幻觉或元素重复。
失败案例
主要的失败模式涉及连接错误,例如冗余连接和源-目标节点不匹配。初步分析表明,批判器模型通常无法识别这些连接性问题,这表明这些错误可能源于基础模型固有的感知限制。
科研绘图的范式,正被彻底改写。
从精准生成到风格增强,AI的“审美”与“逻辑”将走向何方?
或许不久后,
构思归你,绘图归AI。
而今晚,你终于可以关掉PPT,睡个好觉了。
相关资源
- 项目主页:https://dwzhu-pku.github.io/PaperBanana/
- 论文地址:https://arxiv.org/abs/2601.23265
- 代码仓库:https://github.com/dwzhu-pku/PaperBanana
更多推荐

所有评论(0)