PaperBanana一键生成顶刊级科研配图，科研人再也不用熬夜画图了！

还在为论文插图熬夜对齐、反复调色吗？顶会审美的Figure，能否一键生成？当AI科学家遇上学术制图，一场解放科研生产力的革命正在发生。

柳叶方舟

629人浏览 · 2026-02-11 08:00:00

柳叶方舟 · 2026-02-11 08:00:00 发布

还在为论文插图熬夜对齐、反复调色吗？

顶会审美的Figure，能否一键生成？

当AI科学家遇上学术制图，一场解放科研生产力的革命正在发生。

PaperBanana一键生成顶刊级科研配图，科研人再也不用熬夜画图了！
由PaperBanana生成的方法论示意图和统计图示例，展现了自动化生成学术插图的潜力。

尽管由语言模型驱动的自主AI科学家发展迅速，但在研究流程中，生成可直接用于出版的插图仍是一个劳动密集型的瓶颈。为减轻这一负担，北京大学和谷歌云AI研究院联合提出了PaperBanana——一个用于自动生成适合出版的学术插图的智能体框架。PaperBanana由先进的视觉语言模型和图像生成模型驱动，通过协调多个专业智能体来检索参考文献、规划内容与风格、渲染图像，并借助自我批判进行迭代优化。为严格评估该框架，构建了PaperBanana基准，该基准包含从NeurIPS 2025出版物中精选292个方法论示意图测试案例，涵盖了多样化的研究领域和插图风格。综合实验表明，PaperBanana在忠实度、简洁性、可读性和美学方面均优于领先的基线方法。进一步研究表明，该方法可有效扩展至高质量统计图的生成。总体而言，PaperBanana为自动生成适合出版的插图铺平了道路。

方法概述

如下图所示，PaperBanana框架协调一个由五个专业智能体组成的团队——检索器、规划器、风格师、可视化器和批判器——将原始科学内容转化为适合出版的图表与绘图。
在这里插入图片描述

检索器智能体：识别相关的参考示例，以指导下游智能体。
规划器智能体：作为认知核心，将上下文转化为详细的文本描述。
风格师智能体：通过综合参考文献中的指导原则，确保符合学术审美标准。
可视化器智能体：将文本描述转化为视觉输出或可执行代码。
批判器智能体：对照源内容检查生成的图像或图表，提供改进反馈。

基准构建

缺乏基准测试阻碍了对自动图表生成的严谨评估。为此，通过PaperBananaBench来解决该问题。这是一个从NeurIPS 2025方法论示意图中精选的专用基准，旨在捕捉现代AI论文中复杂的美学风格和多样化的逻辑构成。构建流程通过以下步骤确保高质量：(1) 收集与解析，(2) 筛选，(3) 分类，以及 (4) 人工整理。最终的数据集包含584个有效样本，划分为292个测试案例和292个参考案例。
由PaperBanana根据原始数据生成的图表

实验结果

在PaperBananaBench上对PaperBanana进行了评估，从忠实度、简洁性、可读性和美学四个维度衡量性能。该方法在所有四个评估维度上均持续优于领先的基线方法。
在这里插入图片描述
此外，该方法也能无缝扩展到高质量统计图的生成。下图即为根据原始数据生成的示例。

两项进阶应用

提升人工绘制图表的美感：探索利用总结的美学指导原则来提升现有人工绘制图表的美学质量。以下是一个示例：
基于代码与图像生成用于可视化统计图的对比：探索使用图像生成模型进行统计图生成，并与基于代码的方法进行比较。以下结果揭示了明显的对比：图像生成在呈现效果上表现出色，但在内容忠实度上表现不佳。（下图本身由PaperBanana根据原始数据生成）

案例研究

图表生成案例研究

给定相同的源上下文和标题，基础的Nano-Banana-Pro通常会生成具有过时色调且内容过于冗长的图表。相比之下，PaperBanana生成的结果在保持对源上下文忠实度的同时，更加简洁美观。
在这里插入图片描述

美学增强

更多利用自动总结的风格指导原则增强人工绘制图表美学的案例。优化后的图表在配色方案、排版、图形元素等方面展现出显著的风格改进。
在这里插入图片描述

统计图可视化

使用代码和图像生成可视化统计图的案例研究。观察到图像生成模型可以生成视觉吸引力更强的图表，但会导致更多忠实度错误，如数字幻觉或元素重复。
在这里插入图片描述

失败案例

主要的失败模式涉及连接错误，例如冗余连接和源-目标节点不匹配。初步分析表明，批判器模型通常无法识别这些连接性问题，这表明这些错误可能源于基础模型固有的感知限制。
在这里插入图片描述
科研绘图的范式，正被彻底改写。

从精准生成到风格增强，AI的“审美”与“逻辑”将走向何方？

或许不久后，

构思归你，绘图归AI。

而今晚，你终于可以关掉PPT，睡个好觉了。

相关资源

项目主页：https://dwzhu-pku.github.io/PaperBanana/
论文地址：https://arxiv.org/abs/2601.23265
代码仓库：https://github.com/dwzhu-pku/PaperBanana

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

基于Springboot中小学食品配送质量管理及溯源系统wfthai0c（程序、源码、数据库、调试部署方案及开发环境）系统界面展示及获取方式置于文档末尾，可供参考。

2048 AI社区

为什么Modbus RTU是工业串口数据采集的「绝对主流」

本文是一篇纯实战、无AI痕迹、全干货的技术详解，全程从工业项目开发角度出发，没有空洞的理论堆砌，先讲透Modbus RTU的核心基础知识点（新手必懂，避坑必备），再给出工业级完整的C# Modbus RTU数据采集系统代码，对代码进行逐模块、逐方法、逐细节的功能详解，包含串口初始化、Modbus RTU通信、寄存器读写、数据预处理（滤波+异常值剔除）、工业级容错、线程安全设计、UI隔离刷新、数据存

2048 AI社区

从代码到认知：基于ModelEngine的智能客服全链路工程化实践与自动化知识库构建

随着人工智能技术的飞速发展，智能服务在各行业中的应用日益广泛，成为企业降本增效的关键手段。然而，当前智能客服等系统的构建仍面临知识库维护困难、智能体回答质量不高等问题。本文旨在分享一种基于ModelEngine平台的创新方法论，通过代码驱动的方式实现从“原始文档”到“知识图谱”再到“高情商智能体”的全链路自动化。该方法利用NLP技术自动解析非结构化文档，构建动态更新的知识库，并结合意图识别与少样本