PaperBanana:为人工智能科学家自动生成学术插图
本文提出PaperBanana框架,实现学术插图的自动化生成。该框架通过协调检索、规划、风格、可视化和评估五个智能体,将科研内容转化为可发表级的方法图和统计图表。研究构建了PaperBananaBench基准数据集,包含292个测试案例。实验表明,该方法在真实性、简洁性、可读性和美观性四个维度上均显著优于基线模型,综合评分提升17%。PaperBanana为学术插图的自动化生成提供了有效解决方案,
PaperBanana:为人工智能科研人员实现学术插图的自动化生成
作者:朱大伟¹²*、孟睿²、宋耶鲁²、魏希雨¹、李素建¹、托马斯·普菲斯特²、尹振星²
单位:¹北京大学 ²谷歌云人工智能研究院
通讯作者:dwzhu@pku.edu.cn,lisujian@pku.edu.cn,jinsungyoon@google.com
*注:本研究是朱大伟在谷歌云人工智能研究院担任实习研究员期间完成。
项目地址:https://dwzhu-pku.github.io/PaperBanana/
论文:https://arxiv.org/pdf/2601.23265
网站:https://paper-banana.org/zh
摘要
尽管大语言模型驱动的自主人工智能科学家发展迅速,但生成可直接用于发表的学术插图仍是科研工作流中耗时费力的关键瓶颈。为突破这一瓶颈,我们提出了PaperBanana——一个用于自动化生成可发表级学术插图的智能体框架。该框架依托前沿的视觉语言模型(VLM)和图像生成模型,协调多个专业智能体完成参考案例检索、内容与风格规划、图像绘制,并通过自评估实现插图的迭代优化。为严谨验证该框架的性能,我们构建了PaperBananaBench基准数据集,其中包含从2025年神经信息处理系统大会(NeurIPS)论文中筛选的292个方法图测试案例,覆盖多个研究领域和插图风格。大量实验结果表明,在真实性、简洁性、可读性和美观性四个维度上,PaperBanana的表现均持续优于主流基线模型。我们还验证了该方法能有效拓展至高质量统计图表的生成。综上,PaperBanana为学术插图的自动化生成奠定了重要基础,展现出该技术的巨大应用潜力。
关键词:方法图;统计图表
1 引言
自主科学发现是通用人工智能的长期研究目标(加哈拉马尼,2015;兰利,1987、2024;施密德胡伯,2010)。随着大语言模型的快速发展(Anthropic公司,2025;科马尼奇等人,2025;刘等人,2024;OpenAI公司,2025b;杨等人,2025a),自主人工智能科学家已展现出自动化科研生命周期多个环节的潜力,例如文献综述、研究创意生成、实验迭代等(戈特魏斯等人,2025;卢等人,2024;罗等人,2025)。但科学发现的价值,唯有通过有效的学术传播才能充分体现。当前的自主人工智能科学家虽擅长文本分析和代码执行,却难以将研究成果进行视觉化呈现,尤其无法生成符合学术论文严苛标准的插图(包括方法图和统计图表)。
在各类学术插图的生成任务中,方法图的生成是一大难点,该任务既要求插图的内容与研究内容高度契合,又对视觉美观性有较高要求。以往的图表生成研究主要采用基于代码的范式,借助TikZ(贝卢瓦迪、埃格,2024;贝卢瓦迪等人,2025)、Python-PPTX(郑等人,2025)或可缩放矢量图形(SVG)以程序化方式生成图表。这类方法虽能处理结构化内容,但在绘制现代人工智能论文中常见的复杂视觉元素(如专用图标、自定义图形)时,存在表达能力受限的问题。与之相对,近年来的图像生成模型(深度思维公司,2025;OpenAI公司,2025a;研究团队等人,2025;吴等人,2025a)虽具备优秀的指令跟随能力,能生成高质量视觉内容,但要稳定生成符合学术标准的插图仍存在较大挑战(左等人,2025)。专业绘图工具的使用门槛,限制了科研人员自由表达复杂研究思路的能力,迫使他们投入大量人工精力绘制插图,这也成为科研成果视觉化传播的重要瓶颈。
本研究提出PaperBanana智能体框架,旨在解决上述问题,实现高质量学术插图的自动化生成。该框架以研究方法描述和图表标题为输入,协调由前沿视觉语言模型(如Gemini-3-Pro)和图像生成模型(如Nano-Banana-Pro)驱动的专业智能体,完成参考案例检索、内容与风格的详细规划、图像绘制,并通过自评估实现迭代优化。这种由参考案例驱动的协同工作流程,能让系统精准掌握可发表级学术插图所需的逻辑结构和风格规范。除方法图外,该框架还可灵活拓展至统计图表的生成,为科学可视化研究提供了综合解决方案。
为严谨评估该框架,并弥补学术插图自动化生成领域缺乏专用基准数据集的空白,我们构建了PaperBananaBench基准数据集,专门用于评估方法图的生成质量。该数据集包含从2025年NeurIPS论文中筛选整理的292个测试案例和292个参考案例,覆盖不同研究方向和插图风格。在质量评估方面,我们采用“以视觉语言模型为评估器”的方法,从四个维度将模型生成的插图与人工绘制的插图进行对比评分,分别为真实性、简洁性、可读性和美观性,且该评估方法的可靠性已通过与人工评估结果的相关性验证。
基于该基准数据集的大量实验验证了PaperBanana的有效性:在方法图生成的四个评估维度上,该方法的表现均持续优于主流基线模型,其中真实性提升2.8%、简洁性提升37.2%、可读性提升12.9%、美观性提升6.6%,综合总分提升17.0%。我们还验证了该方法可无缝拓展至统计图表的生成(示例见图1)。为展示该框架的能力,本文中所有标注KaTeX parse error: Expected 'EOF', got '#' at position 1: #̲##的插图均由PaperBanana全自动生成。此外,我们还探索了该框架的多种应用场景,包括优化已有人工绘制的插图、利用图像生成模型生成统计图表等。
本研究的核心贡献如下:
- 提出PaperBanana全自动化智能体框架,通过协调多个专业智能体,实现可发表级学术插图的自动化生成;
- 构建PaperBananaBench基准数据集,为学术插图(尤其是方法图)的质量评估提供支撑;
- 大量实验证明,该框架的工作流程显著优于主流基线模型,为学术插图的自动化生成展现了良好前景。
2 任务定义
我们将学术插图的自动化生成任务定义为:学习从源上下文和传播意图到视觉表征的映射关系。设 S S S为包含核心研究信息的源上下文, C C C为指定目标插图范围和核心重点的传播意图,任务目标是生成图像 I I I,使其能真实呈现 S S S的内容并契合传播意图 C C C,形式化定义为:
I = f ( S , C ) (1) I=f(S,C) \tag{1} I=f(S,C)(1)
为进一步优化该映射函数,可在输入中加入 N N N个参考案例构成的集合 E = { E n } n = 1 N \mathcal{E}=\{E_{n}\}_{n=1}^{N} E={En}n=1N。每个参考案例 E n E_{n} En作为真实演示案例,定义为三元组 E n = ( S n , C n , I n ) E_{n}=(S_{n}, C_{n}, I_{n}) En=(Sn,Cn,In),其中 I n I_{n} In是与源上下文 S n S_{n} Sn和传播意图 C n C_{n} Cn对应的参考插图。结合参考案例后,统一的任务形式化定义为:
I = f ( S , C , E ) (2) I=f(S, C, \mathcal{E}) \tag{2} I=f(S,C,E)(2)
当未使用参考案例时(即零样本生成), E \mathcal{E} E默认为空集 ∅ \emptyset ∅。
在各类学术插图中,本研究主要聚焦于方法图的自动化生成。该任务要求将文本描述中的复杂技术概念和逻辑流程,转化为内容高度保真、视觉效果美观的插图。在该任务设定中,源上下文 S S S为研究方法的文本描述(如论文的方法部分),传播意图 C C C为指定插图范围和重点的标题(如“本框架整体架构”)。
3 方法
本节将详细介绍PaperBanana的架构——这是一个由参考案例驱动、用于学术插图自动化生成的智能体框架。如图2所示,PaperBanana协调由五个专业智能体组成的协同体系,即检索智能体、规划智能体、风格智能体、可视化智能体和评估智能体,将原始科研内容转化为可发表级的方法图和统计图表(相关提示词见附录G)。
3.1 检索智能体
给定源上下文 S S S和传播意图 C C C,检索智能体从固定参考集 R \mathcal{R} R中筛选出 N N N个最相关的参考案例 E = { E n } n = 1 N ⊂ R \mathcal{E}=\{E_{n}\}_{n=1}^{N} \subset \mathcal{R} E={En}n=1N⊂R,为后续智能体提供指导。如2节所定义,参考集 R \mathcal{R} R中的每个案例 E i E_{i} Ei均为三元组 ( S i , C i , I i ) (S_{i}, C_{i}, I_{i}) (Si,Ci,Ii)。为充分利用视觉语言模型的推理能力,我们采用生成式检索方法,由视觉语言模型基于候选元数据完成案例筛选,形式化定义为:
E = V L M R e t ( S , C , { ( S i , C i ) } E i ∈ R ) (3) \mathcal{E}=VLM_{Ret}\left(S, C,\left\{\left(S_{i}, C_{i}\right)\right\}_{E_{i} \in \mathcal{R}}\right) \tag{3} E=VLMRet(S,C,{(Si,Ci)}Ei∈R)(3)
具体而言,我们向视觉语言模型下达指令,要求其根据研究领域(如智能体与推理)和图表类型(如流程框图、架构图)对候选案例进行排序,且优先考虑视觉结构的匹配度,而非研究主题的相似度。通过这种显式的推理筛选,选取与当前任务要求最匹配的参考插图 I i I_{i} Ii及其对应的源上下文 ( S i , C i ) (S_{i}, C_{i}) (Si,Ci),检索智能体为后续的结构逻辑设计和视觉风格选择奠定了坚实基础。
3.2 规划智能体
规划智能体是整个系统的核心认知模块,以源上下文 S S S、传播意图 C C C和检索到的参考案例 E \mathcal{E} E为输入。通过对参考案例 E \mathcal{E} E进行上下文学习,规划智能体将 S S S中的非结构化或结构化数据,转化为目标插图的详尽文本描述 P P P,形式化定义为:
P = V L M p l a n ( S , C , { ( S i , C i , I i ) } E i ∈ E ) (4) P=VLM_{plan}\left(S, C,\left\{\left(S_{i}, C_{i}, I_{i}\right)\right\}_{E_{i} \in \mathcal{E}}\right) \tag{4} P=VLMplan(S,C,{(Si,Ci,Ii)}Ei∈E)(4)
3.3 风格智能体
为确保生成结果符合现代学术论文的美学标准,风格智能体承担设计顾问的角色。该模块面临的核心挑战是如何定义一套完整的“学术风格”,而人工定义的风格往往存在疏漏。为解决这一问题,风格智能体遍历整个参考集 R \mathcal{R} R,自动生成包含多个核心维度的美学规范 G \mathcal{G} G,具体包括配色方案、图形与容器样式、线条与箭头样式、布局与构图方式、排版与图标使用规范等(汇总后的美学规范及实现细节见附录F)。基于该美学规范,风格智能体将初始文本描述 P P P优化为符合学术风格的版本 P ∗ P^{*} P∗,形式化定义为:
P ∗ = V L M s t y l e ( P , G ) (5) P^{*}=VLM_{style}(P, \mathcal{G}) \tag{5} P∗=VLMstyle(P,G)(5)
这一过程确保最终生成的插图不仅内容准确,还具备专业的视觉效果。
3.4 可视化智能体
可视化智能体接收经风格优化后的文本描述 P ∗ P^{*} P∗,并与评估智能体协同工作,完成学术插图的绘制和质量的迭代优化。可视化智能体依托图像生成模型,将文本描述转化为视觉内容。在第 t t t次迭代中,给定文本描述 P t P_{t} Pt,可视化智能体的生成过程为:
I t = I m a g e − G e n ( P t ) (6) I_{t}= Image-Gen \left(P_{t}\right) \tag{6} It=Image−Gen(Pt)(6)
其中初始文本描述 P 0 P_{0} P0为经风格优化后的 P ∗ P^{*} P∗。
3.5 评估智能体
评估智能体与可视化智能体形成闭环优化机制,通过对生成的图像 I t I_{t} It进行细致分析,为可视化智能体提供优化后的文本描述 P t + 1 P_{t+1} Pt+1。
在第 t t t次迭代中,评估智能体接收生成的图像 I t I_{t} It后,将其与原始源上下文 ( S , C ) (S, C) (S,C)进行比对,识别内容失准、视觉瑕疵等问题,或挖掘可优化的方向。随后,评估智能体给出针对性的改进建议,并生成修正后的文本描述 P t + 1 P_{t+1} Pt+1以解决上述问题,形式化定义为:
P t + 1 = V L M c r i t i c ( I t , S , C , P t ) (7) P_{t+1}=VLM_{critic }\left(I_{t}, S, C, P_{t}\right) \tag{7} Pt+1=VLMcritic(It,S,C,Pt)(7)
修正后的文本描述将反馈至可视化智能体,由其重新生成插图。可视化智能体与评估智能体的迭代循环共执行 T = 3 T=3 T=3轮,最终输出结果为 I = I T I=I_{T} I=IT。这一迭代优化过程,确保最终生成的插图达到学术传播所需的高标准。
3.6 向统计图表生成的拓展
通过调整可视化智能体和评估智能体的工作逻辑,该框架可拓展至统计图表的生成任务。为保证数值精度,可视化智能体将文本描述 P t P_{t} Pt转化为可执行的Python Matplotlib代码,生成过程为: I t = V L M c o d e ( P t ) I_{t}=VLM_{code }(P_{t}) It=VLMcode(Pt)。评估智能体则对绘制完成的统计图表进行评估,生成修正后的文本描述 P t + 1 P_{t+1} Pt+1,解决图表中的数值误差或视觉瑕疵,生成逻辑与公式7一致。该任务同样采用 T = 3 T=3 T=3轮的迭代优化流程。本研究中,我们优先采用这种基于代码的方法以保证生成精度,同时在第6节探索了直接利用图像生成模型生成统计图表的方案(相关调整后的提示词见附录G.2)。
4 基准数据集构建
学术图表自动化生成领域缺乏专用基准数据集,这阻碍了对相关方法的严谨评估。为解决这一问题,我们构建了PaperBananaBench基准数据集,其案例均来自2025年NeurIPS论文中的方法图,能精准体现现代人工智能论文中方法图的专业美学风格和多样逻辑结构。下文将详细介绍该数据集的构建流程和评估方案,数据集统计信息见图3。
4.1 数据筛选与整理
4.1.1 收集与解析
我们从2025年NeurIPS的5275篇论文中随机抽取2000篇,获取其PDF文件;随后利用MinerU工具包(牛等人,2025)解析这些文档,提取论文方法部分的文本、所有方法图及其标题。
4.1.2 过滤
为保证数据质量,我们对解析后的内容进行多轮过滤:首先,剔除未包含方法图的论文,得到1359个有效候选案例;其次,限定方法图的宽高比 w : h ∈ [ 1.5 , 2.5 ] w:h \in [1.5,2.5] w:h∈[1.5,2.5]——宽高比低于1.5的案例被剔除,因为方法图通常需要更宽的横向布局以呈现逻辑流程,而宽高比超过2.5的案例超出了当前图像生成模型的处理能力,若保留这类异常案例,会在对比评估中暴露人工绘制插图的特征,引入评估偏差。经此步骤,得到610个有效候选案例,每个案例均为三元组 ( S , I , C ) (S, I, C) (S,I,C),其中 S S S为研究方法描述, I I I为方法图, C C C为图表标题。
4.1.3 分类
为便于后续分析不同类型方法图的生成效果,我们根据视觉拓扑结构和内容,将方法图分为四类,分别为智能体与推理、视觉与感知、生成与学习、科学与应用(各类别的定义见附录C)。我们采用Gemini-3-Pro完成分类工作,对于包含混合元素的方法图,将其归为占比主导的类别。
4.1.4 人工整理
最后,我们通过人工整理环节保证数据集的完整性和质量:标注人员需验证并修正提取的研究方法描述和图表标题,确认方法图分类的准确性,同时剔除视觉质量不达标的图表(如设计过于简单、布局杂乱或抽象度过高的图表)。经严格的人工整理,最终得到584个有效样本。我们将这些样本随机等分为两部分:测试集( N = 292 N=292 N=292)用于模型评估,参考集( N = 292 N=292 N=292)用于检索增强的上下文学习。
4.2 评估方案
本研究采用“以视觉语言模型为评估器”的方法,评估方法图和统计图表的生成质量。考虑到视觉设计评估存在固有主观性,我们采用参考案例对比的方式,由评估器将模型生成的图表与人工绘制的图表进行对比,判断哪一者更符合各评估维度的要求。
4.2.1 评估维度
受奎斯佩尔等人(2018)研究的启发,我们从两个视角对方法图进行评估,各维度的详细评分标准见附录H:
- 内容维度(真实性&简洁性):真实性要求插图与源上下文(研究方法描述)和传播意图(图表标题)高度契合;简洁性要求插图聚焦核心信息,无视觉冗余。
- 呈现维度(可读性&美观性):可读性要求插图布局清晰、文字易读、无过多交叉线条等;美观性要求插图符合学术论文的风格规范。
4.2.2 参考案例对比评分
对于每个评估维度,视觉语言模型评估器在给定源上下文和传播意图的前提下,将模型生成的图表与人工参考图表进行对比,判定结果分为“模型更优”“人工更优”“两者相当”三类,分别对应100分、0分、50分。
在将各维度分数整合为综合评分时,我们遵循信息可视化的核心原则——“呈现真实信息”(麦金利,1986;奎斯佩尔等人,2018;塔夫特、格雷夫斯-莫里斯,1983),采用分层综合策略:将真实性和可读性定为主要维度,简洁性和美观性定为次要维度。若主要维度能判定出明确的最优者(即某一方在两个主要维度均更优,或一个维度更优、另一个维度相当),则直接将其定为综合最优者;若主要维度判定结果为平局(如双方各在一个主要维度更优,或两个主要维度均相当),则再根据次要维度按照相同规则判定综合最优者。这种分层策略确保内容的真实性和表达的清晰性,优先于美观性和简洁性。
5 实验
5.1 基线方法与模型
我们将PaperBanana与三种基线方法进行对比:
- 基础版(Vanilla):直接向图像生成模型输入源上下文(研究方法描述和图表标题),驱动模型生成方法图;
- 少样本版(Few-shot):在基础版的基础上,在提示词中加入10个少样本案例,每个案例均为三元组(研究方法描述、图表标题、方法图),让图像生成模型通过上下文学习提升生成效果;
- Paper2Any(刘等人,2025):一款用于生成论文核心观点图表的智能体框架,是与本研究设定最相近的基线方法。
在模型选型上,视觉语言模型默认采用Gemini-3-Pro,图像生成模型则分别采用Nano-Banana-Pro和GPT-Image-1.5进行实验(更多实现细节见附录C)。
5.2 评估设定
方法图生成质量的评估,要求模型具备优秀的视觉感知和理解能力,尤其是在真实性维度,需要模型能准确识别并解读图表中的细微模块和连接关系。因此,我们选用Gemini-3-Pro作为基于视觉语言模型的评估器。为验证该评估器的可靠性,我们从测试集中随机抽取50个案例(25个来自基础版基线模型,25个来自本研究方法),开展双重验证:
5.2.1 模型间一致性验证
首先,验证本研究的评估方案具有鲁棒性且与模型无关。我们对比了本研究评估器(Gemini-3-Pro)与其他两款视觉语言模型(Gemini-3-Flash、GPT-5)的评估结果一致性:Gemini-3-Pro与Gemini-3-Flash在真实性、简洁性、可读性、美观性四个维度及综合评分上的肯德尔等级相关系数分别为0.51、0.60、0.45、0.56、0.55;与GPT-5的相关系数则分别为0.43、0.47、0.44、0.42、0.45。这一结果证实,本研究的评估方案在不同评估模型上具有良好的一致性¹。
5.2.2 与人工评估的对齐性验证
其次,验证基于视觉语言模型的评估器可有效替代人工评估。我们安排两名专业标注人员,采用相同的评分标准,对上述50个案例进行独立的参考案例对比评分,对于存在分歧的案例,通过讨论达成共识。Gemini-3-Pro的评估结果与人工评估结果在四个维度及综合评分上的肯德尔等级相关系数分别为0.43、0.57、0.45、0.41、0.45。较高的相关系数表明,本研究采用的视觉语言模型评估器与人类的评估感知高度契合(更多细节见附录B)。
¹现有研究表明(科恩,2013;霍兰德等人,2013),肯德尔等级相关系数超过0.4即代表评估结果具有较高的一致性。
5.3 主要实验结果
表1汇总了本研究方法与各基线方法在PaperBananaBench基准数据集上的表现,PaperBanana在所有评估指标上均持续优于主流基线模型。我们认为,GPT-Image在基础版和智能体框架设定下表现不佳的原因在于,其指令跟随能力和文本渲染能力均弱于Nano-Banana-Pro,无法满足学术插图的严苛要求。同样,尽管Paper2Any也支持生成论文插图,但其核心目标是呈现论文的核心观点,而非精准还原方法图所需的具体研究流程,这种目标上的不匹配,导致其在本研究的评估设定中表现较差。
与之相对,相较于基础版Nano-Banana-Pro基线模型,PaperBanana实现了全方位的性能提升:真实性提升2.8%、简洁性提升37.2%、可读性提升12.9%、美观性提升6.6%,综合总分提升17.0%。从不同类别的表现来看,智能体与推理类方法图的综合得分最高(69.9%),其次是科学与应用类(58.8%)和生成与学习类(57.0%),视觉与感知类得分最低(52.1%)。我们还对50个案例进行了盲态人工评估,对比PaperBanana与基础版Nano-Banana-Pro的表现(细节见附录B):三位人工评估者的评分结果显示,PaperBanana的胜/平/负率分别为72.7%、20.7%、6.6%。这一结果进一步验证,本研究提出的智能体工作流程,为方法图的自动化生成带来了显著的性能提升(相关案例分析见附录图7)。
尽管取得了上述进展,我们也发现,在真实性维度上,PaperBanana的表现仍不及人工绘制的参考图表。我们在附录图10中开展了失败案例分析,为后续研究挖掘了待解决的问题。
表1 PaperBananaBench基准数据集上的主要实验结果(每列最优结果以粗体标注)
| 方法 | 真实性↑ | 简洁性↑ | 可读性↑ | 美观性↑ | 综合得分↑ |
|---|---|---|---|---|---|
| 基础版设定 | |||||
| GPT-Image-1.5 | 4.5 | 37.5 | 30.0 | 37.0 | 11.5 |
| Nano-Banana-Pro | 43.0 | 43.5 | 38.5 | 65.5 | 43.2 |
| 少样本版Nano-Banana-Pro | 41.6 | 49.6 | 37.6 | 60.5 | 41.8 |
| 智能体框架设定 | |||||
| Paper2Any(基于Nano-Banana-Pro) | 6.5 | 44.0 | 20.5 | 40.0 | 8.5 |
| PaperBanana(本研究方法) | |||||
| 基于GPT-Image-1.5 | 16.0 | 65.0 | 33.0 | 56.0 | 19.0 |
| 基于Nano-Banana-Pro | 45.8 | 80.7 | 51.4 | 72.1 | 60.2 |
| 人工绘制 | 50.0 | 50.0 | 50.0 | 50.0 | 50.0 |
5.4 消融实验
为探究各智能体模块对框架性能的贡献,我们开展了消融实验,结果见表2。
表2 PaperBananaBench基准数据集上的消融实验结果(阴影行为PaperBanana的默认设定,我们通过逐一移除各智能体模块评估其性能贡献;⊖代表随机检索智能体,即随机选取10个案例,而非进行语义检索)
| 模块(检索/规划/风格/可视化/评估) | 迭代轮数 | 真实性↑ | 简洁性↑ | 可读性↑ | 美观性↑ | 综合得分↑ |
|---|---|---|---|---|---|---|
| √/√/√/√/√ | 3 | 45.8 | 80.7 | 51.4 | 72.1 | 60.2 |
| √/√/√/√/√ | 1 | 38.3 | 75.2 | 50.6 | 68.9 | 51.8 |
| √/√/√/√/⊖ | 3 | 30.7 | 79.2 | 47.0 | 72.1 | 45.6 |
| √/√/⊖/√/√ | 3 | 39.2 | 61.7 | 47.9 | 67.4 | 49.2 |
| ⊖/√/√/√/√ | 3 | 37.3 | 62.7 | 51.1 | 65.6 | 48.3 |
| ⊖/√/⊖/√/√ | 3 | 41.9 | 58.6 | 43.1 | 62.9 | 44.2 |
5.4.1 检索智能体的作用
我们将语义检索智能体与随机检索、无检索两种基线方案进行对比(表2第4-6行):无参考案例指导时,模型在简洁性、可读性和美观性维度的表现显著下降,原因是规划智能体默认生成冗长、详尽的文本描述,且因未接触过学术方法图的美学风格,生成的视觉内容效果欠佳。有趣的是,随机检索的表现与语义检索相近,这表明为模型提供通用的结构和风格范式,比精准的内容匹配更为重要。
5.4.2 风格智能体与评估智能体的作用
对比表2第3行和第4行可见,风格智能体使模型的简洁性提升17.5%、美观性提升4.7%,但真实性下降8.5%,原因是视觉效果的优化有时会导致技术细节的缺失。而评估智能体则有效弥补了这一缺陷(表2第1行与第3行对比),大幅恢复了模型在真实性维度的表现。增加迭代轮数后,所有评估指标均进一步提升,确保了插图美学效果与技术准确性的平衡。
5.5 PaperBanana在统计图表生成中的应用
PaperBanana的工作流程为:先生成目标插图的详尽文本描述,再将其可视化转化为图像。与注重美学效果和逻辑连贯性的方法图不同,统计图表对数值精度有严苛要求,因此传统的图像生成模型并不适用于该任务。为解决这一问题,我们验证了通过将可视化方式替换为可执行代码,PaperBanana可无缝拓展至统计图表的生成任务。
5.5.1 测试集构建
遵循第2节的任务定义,我们评估PaperBanana从表格数据和简易视觉描述生成统计图表的能力。由于学术论文中极少公开统计图表的原始数据,我们重新利用ChartMimic数据集(杨等人,2025b)——该数据集最初为图表转代码任务构建,主要包含来自arXiv论文和Matplotlib图库的统计图表,且每个图表均配有人工整理的Python代码。我们借助Gemini-3-Pro从代码中提取底层表格数据,并为每个图表生成简易视觉描述。经严格的过滤和抽样(细节见附录D),我们构建了包含240个测试案例和240个参考案例的数据集,按图表类型分为7类(柱状图、折线图、树形图与饼图、散点图、热力图、雷达图、其他类型),并按复杂度分为简单和困难两个等级。评估过程遵循第4节的方案,仅对提示词进行适配统计图表的调整。
图4对比了PaperBanana与基础版Gemini-3-Pro在该自建测试集上的表现,本研究方法在所有维度均持续优于基线模型,其中真实性提升1.4%、简洁性提升5.0%、可读性提升3.1%、美观性提升4.0%,综合得分提升4.1%。值得注意的是,PaperBanana在简洁性、可读性和美观性维度的表现略优于人工,在真实性维度也具备竞争力,充分验证了其在统计图表生成任务中的有效性。
6 讨论
6.1 优化人工绘制插图的美学效果
基于自动生成的美学规范 G \mathcal{G} G,我们提出一个研究问题:该规范是否可用于提升已有人工绘制插图的美学质量?为探索这一问题,我们设计了一套简化流程:首先由Gemini-3-Pro基于原始插图和美学规范 G \mathcal{G} G,提出至多10条可落地的改进建议;再由Nano-Banana-Pro根据这些建议优化插图。我们采用第4节的参考案例对比评估方案,将优化后的插图与原始人工绘制插图进行对比。在292个测试案例中,优化后的插图在美观性维度的胜/平/负率分别为56.2%、6.8%、37.0%。这一结果表明,本研究自动总结的美学规范,确实能有效提升人工绘制插图的美学质量(示例见图6,更多示例见附录图8)。
6.2 统计图表生成的代码法与图像生成法对比
已有研究和图4的实验结果均表明,基于代码的方法在统计图表生成中表现优异(陈等人,2025;戈斯瓦米等人,2025;杨等人,2024)。考虑到近年来图像生成模型在内容保真度和视觉效果上的显著进步,我们对比了PaperBanana中可视化智能体的两种实现方式——基于代码的方式(Gemini-3-Pro)和基于图像生成的方式(Nano-Banana-Pro),结果见图5。实验发现两种方法存在明显的权衡关系:图像生成法在呈现维度(可读性、美观性)表现更优,但在内容维度(真实性、简洁性)表现欠佳。人工检查发现,图像生成模型虽能精准绘制稀疏数据的图表,但在处理密集或复杂数据时,易出现数值幻觉、元素重复等问题(附录图9)。因此,混合使用两种方法——对稀疏可视化任务采用图像生成法,对密集图表绘制采用代码法,或能实现效果的最优平衡。
7 相关研究
7.1 学术图表的自动化生成
学术图表的自动化生成是一个长期存在的研究难题(罗德里格斯等人,2023)。以往的研究主要采用基于代码的生成方式,借助TikZ(贝卢瓦迪、埃格,2024;贝卢瓦迪等人,2025;许、埃格,2023;张等人,2025)或Python-PPT(庞等人,2025;郑等人,2025)以程序化方式生成图表。这类方法虽能处理结构化内容,但在绘制现代人工智能论文中常见的复杂视觉设计时,存在表达能力受限的问题。
近年来的图像生成模型取得了显著进展,能合成高保真、视觉效果精良的插图(深度思维公司,2025;OpenAI公司,2025a;唐等人,2026;研究团队等人,2025;左等人,2025),为学术图表生成提供了新的思路。与本研究同期的工作AutoFigure(匿名作者,2026)²先将科研内容转化为符号化表示,再利用GPT-Image将其渲染为图像。与之相比,本研究提出的方法通过自适应检索和学术风格迁移实现了更强的泛化能力,且通过在统一流程中支持方法图和统计图表的生成,具备更高的可拓展性。
在评估基准数据集方面,自动生成图表的质量评估研究仍较为匮乏。与PaperBananaBench最相近的是SridBench(常等人,2025),该数据集用于评估从论文方法部分和标题生成图表的能力,覆盖计算机科学和自然科学领域,我们将在该数据集公开后补充相关实验结果。
²目前AutoFigure仍为匿名预印本,待其正式发表后,我们将补充完整引用信息。
7.2 基于代码的数据可视化
尽管学术图表生成的复杂性导致相关研究进展缓慢,但自大语言模型兴起后,统计数据的可视化研究受到了广泛关注。早期研究(迪比亚、德米拉普,2019)采用基于长短期记忆网络(LSTM)的模型,将JSON数据转化为Vega-Lite可视化内容;后续研究则借助ChatGPT等大模型,提出了少样本和零样本的编码方法(迪比亚,2023;加林扎诺夫等人,2025;李等人,2024;田等人,2024)。近年来,智能体框架在基于代码的数据可视化中取得了显著进展(陈等人,2025;戈斯瓦米等人,2025;徐等人,2025;杨等人,2024),其核心依托测试时缩放(斯内尔等人,2024)、自反思(辛等人,2023)等机制。尽管本研究主要聚焦于学术图表的自动化生成,但这类智能体框架可无缝整合至本研究的可视化智能体中,提升其将目标图表的详尽描述转化为高鲁棒性Python代码的能力。与生成任务互补的是,近期有研究探索将图表还原为原始代码(吴等人,2025b;杨等人,2025b),该任务对视觉语言模型的感知和编码能力均提出了较高要求。
8 结论
本研究提出PaperBanana智能体框架,旨在实现可发表级学术插图的自动化生成。该框架通过协调检索、规划、风格、可视化、评估五大专业智能体,将科研内容转化为高保真的方法图和统计图表。为支撑相关研究的严谨评估,我们构建了基于顶级人工智能会议论文的PaperBananaBench基准数据集。大量实验结果表明,PaperBanana在真实性、简洁性、可读性和美观性维度均显著优于现有基线模型,为人工智能科研人员自主实现研究成果的专业视觉化呈现奠定了基础。
9 局限性与未来研究方向
作为该领域的开创性研究,PaperBanana虽取得了良好的实验结果,但不可避免地存在一些局限性。本节将详细分析这些局限性,并提出相应的未来研究方向。
9.1 面向可编辑的学术插图生成
PaperBanana最突出的局限性在于其生成结果为栅格图像。学术研究中更偏好矢量图形,因其具备无限可缩放性和精准的细节保留能力,而栅格图像难以进行生成后的编辑。尽管将输出分辨率提升至4K可在一定程度上保证视觉保真度,但并未从根本上解决生成后修改的问题。为解决这一问题,我们提出三种适用于不同编辑需求的解决方案:
- 对于轻微的视觉调整,可直接借助Nano-Banana-Pro等前沿图像编辑模型,这是最直接的方式;
- 对于更复杂的结构修改,可采用Paper2Any(刘等人,2025)、Edit Banana(北京理工大学数据实验室,2025)等研究提出的重建流程:通过光学字符识别(OCR)提取文本,利用分割一切模型(SAM)³进行图案分割,再通过Python-PPTX等工具将这些元素重新整合至演示幻灯片中。尽管该方法目前在处理复杂背景和复杂视觉元素时仍存在挑战,但我们预计,训练专用的元素提取模型将大幅提升该重建流程的鲁棒性;
- 更前沿的研究方向是开发图形用户界面(GUI)智能体,使其能自主操作Adobe Illustrator等专业矢量设计软件(黄等人,2026;孙等人,2025),直接生成可完全编辑的矢量图形。该方法要求智能体具备优秀的感知、规划和交互能力。
³即Segment Anything Model,是一款通用图像分割模型。
9.2 风格标准化与多样性的权衡
第二个局限性在于风格标准化与多样性之间的权衡:统一的美学规范虽能确保生成结果严格符合学术标准,但不可避免地降低了输出的风格多样性。未来的研究可探索更动态的风格适配机制,在保证专业严谨性的前提下,支持更丰富的艺术表达和个性化审美选择。
9.3 细粒度真实性的提升挑战
尽管PaperBanana在美观性维度表现优异,但与人类专家的绘制结果相比,在真实性维度仍存在差距。附录图10的失败案例分析表明,最常见的错误为细粒度的连接问题,如起止点错位、箭头方向错误等。这些细节往往难以被当前的评估模型检测到,限制了自校正机制的效果。我们认为,要弥补这一差距,核心在于提升基础视觉语言模型的细粒度视觉感知能力。
9.4 评估范式的优化
本研究遵循现有研究惯例,采用基于参考案例的“视觉语言模型为评估器”方案。尽管该方案有效,但我们也认识到其存在固有挑战:
- 在真实性维度,结构正确性的量化评估仍存在困难,检测连接关系和符号标注中的细微错误,需要高精度的细致分析。未来的评估方案可融入基于结构的指标(梁、尤,2025)或基于评分标准的指标(黄等人,2026;李等人,2025),这类指标虽计算复杂度更高,但评估准确性可能大幅提升;
- 在美观性等主观维度,文本提示往往难以让视觉语言模型与人类的偏好完全对齐。我们认为,训练定制化的奖励模型以弥补这一对齐差距,是未来的重要研究方向。
9.5 面向多样化偏好的测试时缩放
目前,该框架对每个查询仅生成一个结果。但考虑到生成模型的固有随机性和审美偏好的主观性,单一结果难以满足不同用户的需求。一个自然的拓展方向是实现测试时缩放,生成一系列不同风格和构图的候选插图,将工作流程从单轮生成转变为“生成-选择”,让人类用户或基于视觉语言模型的偏好模型,选择最符合自身需求的插图。
9.6 向更广泛领域的拓展
除学术插图外,该框架还构建了一套通用的工作范式:通过检索为模型指明生成目标(目标图表类型),通过自动的风格总结教会模型如何生成(风格规范)。这种由参考案例驱动的方法,将结构规划与美学渲染解耦,避免了昂贵的领域专属微调。我们认为,该范式在其他需要严格遵循行业规范的专业领域也具有巨大应用潜力,如用户界面/用户体验(UI/UX)设计、专利撰写、工业示意图绘制等。
致谢
感谢谷歌云人工智能研究院的所有成员在本研究过程中提供的宝贵支持,同时感谢宇航和阿里为研究提供的深入讨论。
研究影响说明
本研究提出PaperBanana框架,实现了学术插图的自动化生成。我们的研究目标是让更多科研人员能够使用高质量的视觉传播工具,尤其惠及缺乏专业设计资源的研究人员。通过减少绘制图表的人工成本,我们希望能加速科研工作流。但我们也认识到生成模型存在的伦理风险,尤其是可能产生“视觉幻觉”或对技术细节进行不真实的呈现。因此,该系统的使用者应避免盲目依赖模型生成结果,需进行严格的人工监督,确保发表插图的科学严谨性。
(参考文献部分略)
附录A 典型案例分析
A.1 验证PaperBanana有效性的案例
图7展示了2个案例,验证PaperBanana在学术插图生成中的能力。在给定相同源上下文和传播意图的前提下,基础版Nano-Banana-Pro生成的图表往往存在配色过时、内容冗余的问题;而PaperBanana生成的图表在保持内容与源上下文高度契合的同时,更简洁、美观。
A.2 人工绘制插图的美学优化案例
图8展示了更多利用自动总结的美学规范优化人工绘制插图美学效果的案例。可见,优化后的插图在配色方案、排版、图形元素等方面均实现了显著的风格提升。
A.3 统计图表生成的代码法与图像生成法对比案例
图9对比了两种方法生成统计图表的结果,可见图像生成模型能生成视觉效果更优的图表,但易出现数值幻觉、元素重复等真实性问题。
A.4 PaperBanana的失败案例
图10展示了3个PaperBanana的失败案例,发现最主要的失败类型为连接错误,如冗余连接、节点起止点匹配错误等。初步分析表明,评估模型往往难以检测到这些连接问题,其根源可能在于基础模型的固有感知局限性。要解决这一问题,可能需要对基础模型进行进一步的性能提升。
附录B 人工评估设定
为保证自动化评估指标的可靠性,并对本研究方法进行严格的基准测试,本研究开展了两项独立的人工评估实验。两项实验均采用第4节定义的四个评估维度,并遵循与视觉语言模型评估器相同的详细评分标准,同时利用Streamlit搭建了专用的标注界面。
B.1 视觉语言模型评估器的有效性验证
该人工评估的目标是验证基于视觉语言模型的评估器(Gemini-3-Pro)与人类评估结果的对齐性。我们从测试集中随机抽取50个案例(25个来自基础版基线模型,25个来自本研究方法),为每位标注人员提供论文方法部分、图表标题、人工绘制的参考图表,以及模型生成的候选图表(基础版或本研究方法生成)。标注人员需对四个评估维度进行对比评分,对于存在分歧的案例,通过讨论达成共识。每个维度的评估结果分为“模型更优”“人工更优”“两者均优”“两者均劣”四类,分别对应100分、0分、50分、50分,并据此计算与视觉语言模型评估器结果的肯德尔等级相关系数,结果见第5节,相关标注界面见图11。
B.2 主要结果的盲态测试
为严格对比PaperBanana与性能较强的基础版Nano-Banana-Pro基线模型,我们对50个案例开展了盲态A/B测试。三位专业标注人员将收到论文方法部分、图表标题、人工参考图表,以及两个匿名的候选图表(候选A、候选B,随机排序)。我们采用与视觉语言模型评估相同的分层判定策略确定最优者:标注人员先评估主要维度(真实性、可读性),若某一候选在主要维度更优(或一个维度更优、一个维度相当),则将其定为综合最优者;若主要维度判定为平局,则再根据次要维度(简洁性、美观性)判定。该设定确保人工评估优先考虑内容的准确性和表达的清晰性,与学术发表的严苛标准保持一致,相关标注界面见图12。
附录C 实现细节
C.1 方法图的分类
为便于开展细致的分析,我们根据视觉拓扑结构和内容将方法图分为四类,各类别的详细定义和关键词见表3。
表3 基于视觉拓扑结构和内容的方法图分类
| 类别 | 研究方向 | 关键词 |
|---|---|---|
| 智能体与推理 | 大语言模型智能体、多智能体系统、推理、规划、工具使用;指令跟随、上下文学习、思维链;代码生成、自主系统 | 智能体、大语言模型、语言模型、推理、规划、提示词 |
| 视觉与感知 | 计算机视觉、三维重建、渲染、目标检测;场景理解、深度估计、姿态估计;视觉表征、特征学习 | 视觉、图像、三维、高斯、神经辐射场、检测、分割、相机 |
| 生成与学习 | 生成模型(扩散模型、生成对抗网络、变分自编码器、自编码器);强化学习、策略学习;优化、训练动态 | 扩散、生成、生成对抗网络、去噪、强化、策略、奖励 |
| 科学与应用 | 人工智能赋能科学研究(生物学、化学、物理学、医学);图神经网络、结构化数据;理论分析、数学证明;领域专属应用 | 蛋白质、分子、生物学、图、节点、定理、理论 |
C.2 补充实验设定
所有实验的生成温度均设为1;为保证对比的公平性,生成图像的宽高比与人工绘制的参考图表保持一致。具体而言,先计算人工参考图表的宽高比,再匹配为图像生成模型支持的最接近比例(如对于Nano-Banana-Pro,四舍五入至3:2、16:9、21:9中的任一比例)。
C.3 本文图表的生成方式
本文中所有标注“[由###生成]”的图表均由PaperBanana全自动生成。实际应用中,考虑到生成模型的固有变异性,我们会生成多个候选图表,再人工选择最优者用于论文呈现。我们建议在PaperBanana的实际应用中,采用这种“生成-选择”的工作流程。
附录D 统计图表生成测试集的构建
本节介绍统计图表生成任务测试集的构建流程,该测试集用于评估模型从原始数据(如表、CSV文件)和高层视觉描述(如“按年份统计的论文发表数量柱状图”)生成统计图表的能力。由于学术论文中极少公开发表图表的原始数据,我们重新利用ChartMimic数据集(杨等人,2025b)——该数据集最初为图表转代码评估任务构建。具体而言,我们采用其中的“直接模拟”子集,该子集包含2400个主要
更多推荐


所有评论(0)