朱大为 1 , 2 ∗ ^{1,2*} 1,2,孟睿 2 ^{2} 2,宋烨 2 ^{2} 2,魏曦宇 1 ^{1} 1,李素建 1 ^{1} 1,托马斯·普菲斯特 2 ^{2} 2,尹镇松 2 ^{2} 2
1 ^{1} 1北京大学, 2 ^{2} 2Google Cloud AI Research
https://dwzhu-pku.github.io/PaperBanana/

摘要

尽管由语言模型驱动的自主AI科学家取得了快速进展,但生成符合出版标准的插图在研究工作流中仍是一个劳动密集型瓶颈。为减轻这一负担,我们提出了PAPERBANANA,一个用于自动化生成符合出版标准的学术插图的智能体框架。PAPERBANANA依托最先进的视觉语言模型(VLM)和图像生成模型,协调专业化智能体完成参考检索、内容与风格规划、图像渲染以及通过自我批判进行迭代优化。为严格评估我们的框架,我们引入了PAPERBANANABENCH,该基准包含292个从NeurIPS 2025出版物中精选的方法论图表测试用例,涵盖多样化的研究领域和插图风格。综合实验表明,PAPERBANANA在忠实度、简洁性、可读性和美学方面持续优于领先基线方法。我们进一步证明该方法可有效扩展至高质量统计图表的生成。总体而言,PAPERBANANA为学术插图的自动化生成铺平了道路。

在这里插入图片描述

1. 引言

自主科学发现是通用人工智能的长期追求目标(Ghahramani, 2015; Langley, 1987, 2024; Schmidhuber, 2010)。随着大型语言模型(LLM)(Anthropic, 2025; Comanici et al., 2025; Liu et al., 2024; OpenAI, 2025b; Yang et al., 2025a)的快速发展,自主AI科学家已在研究生命周期的多个方面展现出自动化潜力,例如文献综述、创意生成和实验迭代(Gottweis et al., 2025; Lu et al., 2024; Luo et al., 2025)。然而,科学发现只有通过有效沟通才能实现其全部价值。尽管当前自主AI科学家在文本分析和代码执行方面表现出色,但在视觉化传达发现方面仍面临挑战,特别是生成符合学术手稿严格标准的插图(图表和统计图)。

在这些插图任务中,方法论图表的生成代表了一个重大挑战,它同时要求内容忠实度和视觉美学。先前的图表生成工作主要采用基于代码的范式,利用TikZ(Belouadi and Eger, 2024; Belouadi et al., 2025)、Python-PPTX(Zheng et al., 2025)或SVG以编程方式合成图表。虽然这些方法对结构化内容有效,但在生成现代AI出版物中日益常见的复杂视觉元素(如专用图标和自定义形状)时可能面临表达能力限制。相反,尽管近期图像生成模型(DeepMind, 2025; OpenAI, 2025a; Team et al., 2025; Wu et al., 2025a)已展现出先进的指令遵循能力和高质量视觉输出,但持续生成符合学术标准的插图仍是一项困难任务(Zuo et al., 2025)。专业插图工具所需的专业知识常常限制研究人员自由表达复杂思想的能力,迫使他们投入大量手动工作来制作图表。这在科学发现的有效视觉沟通中造成了显著瓶颈。

本文中,我们提出了PAPERBANANA,一个旨在通过自动化高质量学术插图制作来弥合这一差距的智能体框架。给定方法论描述和图表标题作为输入,PAPERBANANA协调由最先进的VLM和图像生成模型(例如Gemini-3-Pro和Nano-Banana-Pro)驱动的专业化智能体,完成参考示例检索、内容与风格的详细规划、图像渲染以及通过自我批判进行迭代优化。这种参考驱动的协作工作流使系统能够有效掌握符合出版标准插图所需的逻辑构成和风格规范。除方法论图表外,我们的框架通过扩展至统计图表展现出显著的多功能性,为科学可视化提供全面解决方案。

为严格评估我们的框架并解决自动化学术插图缺乏专用基准的问题,我们引入了PAPERBANANABENCH,一个用于方法论图表生成的综合基准。该基准包含292个测试用例和292个参考用例,均从NeurIPS 2025出版物中精选,涵盖多样化的研究主题和插图风格。为评估生成质量,我们采用VLM作为评判者(VLM-as-a-Judge)的方法,基于四个维度(忠实度、简洁性、可读性和美学)对生成结果与人类插图进行参考式评分,其可靠性通过与人类判断的相关性得到验证。

在我们的基准上进行的综合实验展示了PAPERBANANA的有效性。我们的方法在所有四个评估维度上持续优于领先基线方法——忠实度(+2.8%)、简洁性(+37.2%)、可读性(+12.9%)和美学(+6.6%)——以及图表生成的总体得分(+17.0%)。我们进一步证明该方法也可无缝扩展至统计图表。总体而言,我们的方法为学术插图的自动化生成铺平了道路(示例见图1)。作为其能力的演示,本文中标记为☑的图表完全由PAPERBANANA生成。此外,我们讨论了包括使用我们的框架增强现有人类创建的插图以及使用图像生成模型进行统计图表生成等有趣场景。总结而言,我们的贡献如下:

  • 我们提出了PAPERBANANA,一个完全自动化的智能体框架,协调专业化智能体生成符合出版标准的学术插图。
  • 我们构建了PAPERBANANABENCH以评估学术插图(特别是方法论图表)的质量。
  • 综合实验表明,我们的工作流显著优于领先基线方法,在自动化生成学术插图方面展现出前景。

2. 任务形式化

我们将自动化学术插图生成任务形式化为从源上下文和交际意图到视觉表示的学习映射。令 S S S表示包含基本信息的源上下文, C C C表示指定所需插图范围和焦点的交际意图。目标是生成一幅图像 I I I,该图像忠实地可视化 S S S同时满足交际意图 C C C,形式化为:

I = f ( S , C ) . I=f(S,C). I=f(S,C).

为进一引导映射函数,输入可选择性地由 N N N个参考示例集 E = { E n } n = 1 N \mathcal{E} = \{E_n\}_{n=1}^N E={En}n=1N增强。每个示例 E n E_n En作为真实演示,定义为元组 E n = ( S n , C n , I n ) E_n = (S_n, C_n, I_n) En=(Sn,Cn,In),其中 I n I_n In是对应于上下文 S n S_n Sn和交际意图 C n C_n Cn的参考插图。整合此信息后,统一任务形式化变为:

I = f ( S , C , E ) , I=f(S,C,\mathcal{E}), I=f(S,C,E),

其中当未使用示例时(即零样本生成), E \mathcal{E} E默认为空集 ∅ \emptyset

在各种类型的学术插图中,本文主要关注方法论图表的自动化生成,这需要将文本描述中的复杂技术概念和逻辑流解释为高保真、视觉愉悦的插图。在此设置下,源上下文 S S S是方法的文本描述(例如方法论章节),交际意图 C C C是指定范围和焦点的图表标题(例如"我们的框架概述")。
在这里插入图片描述

3. 方法论

本节介绍PAPERBANANA的架构,一个用于自动化学术插图的参考驱动智能体框架。如图2所示,PAPERBANANA协调由五个专业化智能体——检索器(Retriever)、规划器(Planner)、风格师(Stylist)、可视化器(Visualizer)和批判者(Critic)——组成的协作团队,将原始科学内容转化为符合出版质量的图表和统计图。(附录G提供提示词)

检索器智能体。给定源上下文 S S S和交际意图 C C C,检索器智能体从固定参考集 R \mathcal{R} R中识别 N N N个最相关的示例 E = { E n } n = 1 N ⊂ R \mathcal{E} = \{E_n\}_{n=1}^N \subset \mathcal{R} E={En}n=1NR,以指导下游智能体。如第2节所定义,每个示例 E i ∈ R E_i \in \mathcal{R} EiR是三元组 ( S i , C i , I i ) (S_i, C_i, I_i) (Si,Ci,Ii)。为利用VLM的推理能力,我们采用生成式检索方法,其中VLM对候选元数据执行选择:

E = V L M R e t ( S , C , { ( S i , C i ) } E i ∈ R ) \mathcal{E}=\mathrm{VLM}_{\mathrm{Ret}}\left(S,C,\left\{\left(S_{i},C_{i}\right)\right\}_{E_{i}\in\mathcal{R}}\right) E=VLMRet(S,C,{(Si,Ci)}EiR)

具体而言,VLM被指示通过匹配研究领域(例如智能体与推理)和图表类型(例如流水线、架构)对候选者进行排序,其中视觉结构优先于主题相似性。通过明确推理选择参考插图 I i I_{i} Ii,其对应上下文 ( S i , C i ) (S_{i}, C_{i}) (Si,Ci)最匹配当前需求,检索器为结构逻辑和视觉风格提供了具体基础。

规划器智能体。规划器智能体作为系统的认知核心。它以源上下文 S S S、交际意图 C C C和检索到的示例 E \mathcal{E} E作为输入。通过从 E \mathcal{E} E中的演示执行上下文学习,规划器将 S S S中的非结构化或结构化数据转化为目标插图的全面详细文本描述 P P P

P = V L M p l a n ( S , C , { ( S i , C i , I i ) } E i ∈ E ) . P=\mathrm{VLM}_{\mathrm{plan}}(S,C,\left\{\left(S_{i},C_{i},I_{i}\right)\right\}_{E_{i}\in\mathcal{E}}). P=VLMplan(S,C,{(Si,Ci,Ii)}EiE).

风格师智能体。为确保输出符合现代学术手稿的美学标准,风格师智能体充当设计顾问。主要挑战在于定义全面的"学术风格",因为手动定义往往不完整。为解决此问题,风格师遍历整个参考集 R \mathcal{R} R,自动合成涵盖关键维度的美学指南 G \mathcal{G} G,包括调色板、形状与容器、线条与箭头、布局与构图以及排版与图标(附录F提供总结的指南和实现细节)。借助此指南,风格师将每个初始描述 P P P优化为风格优化版本 P ∗ P^* P

P ∗ = V L M s t y l e ( P , G ) . P^{*}=\mathrm{VLM}_{\mathrm{style}}(P,\mathcal{G}). P=VLMstyle(P,G).

这确保最终插图不仅准确,而且视觉专业。

可视化器智能体。接收风格优化描述 P ∗ P^{*} P后,可视化器智能体与批判者智能体协作渲染学术插图并迭代优化其质量。可视化器智能体利用图像生成模型将文本描述转化为视觉输出。在每次迭代 t t t中,给定描述 P t P_{t} Pt,可视化器生成:

I t = Image-Gen ( P t ) , I_{t}=\text{Image-Gen}(P_{t}), It=Image-Gen(Pt),

其中初始描述 P 0 P_{0} P0设置为 P ∗ P^{*} P

批判者智能体。批判者智能体通过仔细检查生成图像 I t I_t It并为可视化器提供优化描述 P t + 1 P_{t+1} Pt+1,与可视化器形成闭环优化机制。在迭代 t t t接收生成图像 I t I_t It后,批判者根据原始源上下文 ( S , C ) (S, C) (S,C)检查图像,识别事实错位、视觉瑕疵或改进区域。然后它提供针对性反馈并生成解决已识别问题的优化描述 P t + 1 P_{t+1} Pt+1

P t + 1 = V L M c r i t i c ( I t , S , C , P t ) . P_{t+1}=\mathrm{VLM}_{\mathrm{critic}}(I_{t},S,C,P_{t}). Pt+1=VLMcritic(It,S,C,Pt).

此修订描述随后反馈给可视化器进行重新生成。可视化器-批判者循环迭代 T = 3 T = 3 T=3轮,最终输出为 I = I T I = I_T I=IT。此迭代优化过程确保最终插图满足学术传播所需的高标准。

扩展至统计图表。该框架通过调整可视化器和批判者智能体扩展至统计图表。为实现数值精度,可视化器将描述 P t P_t Pt转化为可执行Python Matplotlib代码: I t = VLM code ( P t ) I_t = \text{VLM}_{\text{code}}(P_t) It=VLMcode(Pt)。批判者评估渲染图表并生成解决不准确或缺陷的优化描述 P t + 1 P_{t+1} Pt+1 P t + 1 = VLM critic ( I t , S , C , P t ) P_{t+1} = \text{VLM}_{\text{critic}}(I_t, S, C, P_t) Pt+1=VLMcritic(It,S,C,Pt)。相同的 T = 3 T = 3 T=3轮迭代优化过程适用。虽然我们优先采用此基于代码的方法以确保准确性,但我们在第6节也探索了直接图像生成。调整后的提示词见附录G.2。

4. 基准构建

缺乏基准阻碍了自动化图表生成的严格评估。我们通过PAPERBANANABENCH解决此问题,这是一个从NeurIPS 2025方法论图表中精选的专用基准,捕捉了现代AI论文的复杂美学和多样化逻辑构成。我们详细说明构建流程和评估协议如下;数据集统计信息见图3。
在这里插入图片描述

4.1. 数据整理

收集与解析。我们首先从NeurIPS 2025的5,275篇出版物中随机抽样2,000篇论文并检索其PDF文件。随后,我们利用MinerU工具包(Niu et al., 2025)解析这些文档,提取方法论章节的文本以及论文中的所有图表及其标题。

过滤。然后我们应用过滤阶段以确保数据质量。首先,我们丢弃不含方法论图表的论文,得到1,359个有效候选。其次,我们将宽高比 ( w : h ) (w:h) (w:h)限制在[1.5, 2.5]范围内。低于1.5的比率被排除,因为方法论图表通常需要更宽的横向布局以展示逻辑流,而超过2.5的比率不受当前图像生成模型支持。包含此类异常值会在并排评估中引入偏差,通过揭示候选者的人类来源。此步骤得到610个有效候选,每个候选为元组 ( S , I , C ) (S,I,C) (S,I,C),其中 S S S是方法论描述, I I I是方法论图表, C C C是标题。

分类。为便于未来分析不同类型图表的生成,我们进一步将图表分为四类,基于视觉拓扑和内容:智能体与推理(Agent & Reasoning)、视觉与感知(Vision & Perception)、生成与学习(Generative & Learning)以及科学与应用(Science & Applications)(附录C提供定义)。Gemini-3-Pro用于执行分类,将具有混合元素的样本分配给其主要类别。

人工整理。最后,我们进行人工整理阶段以保证数据集的完整性和质量。标注者负责验证和纠正提取的方法论描述和标题,验证图表分类的正确性,并过滤视觉质量不足的图表(例如过于简单、杂乱或抽象的设计)。经过此严格流程,剩余584个有效样本。我们将其随机划分为两个相等子集:用于评估的测试集 ( N = 292 ) (N = 292) (N=292)和用于促进检索增强上下文学习的参考集 ( N = 292 ) (N = 292) (N=292)

4.2. 评估协议

我们利用VLM作为评判者评估方法论图表和统计图表的质量。鉴于视觉设计评估的固有主观性,我们采用参考比较方法,其中评判者将模型生成的图表与人类绘制的图表进行比较,以确定哪个更好地满足每个评估标准。

评估维度。受Quispel et al. (2018)启发,我们从两个视角评估图表:
内容(忠实度与简洁性):忠实度确保与源上下文(方法论描述)和交际意图(标题)的一致性,而简洁性要求聚焦核心信息,避免视觉杂乱。
呈现(可读性与美学):可读性要求布局清晰、文本易读、无过度交叉线条等。美学评估对学术手稿风格规范的遵循程度。

参考评分。对于每个维度,VLM评判者在给定上下文和标题的情况下,将模型生成的图表与人类参考进行比较。它基于相对质量确定"模型胜"、“人类胜"或"平局”,然后分别映射为100、0和50分。为将分数聚合为总体指标,我们遵循信息可视化必须首先"展示真相"的设计原则(Mackinlay, 1986; Quispel et al., 2018; Tufte and Graves-Morris, 1983)。我们采用分层聚合策略,将忠实度和可读性指定为主要维度,简洁性和美学为次要维度。如果主要维度产生决定性胜者(即赢得两者,或赢得一个并平局另一个),则确定总体胜者。在平局情况下(例如各赢一个,或两者均平局),我们对次要维度应用相同规则。此分层方法确保内容忠实度和清晰度优先于美学和简洁性。

5. 实验

5.1. 基线方法与模型

我们将PAPERBANANA与三种基线设置进行比较:(1) Vanilla,直接提示图像生成模型基于输入上下文(方法论描述和标题)生成图表;(2) Few-shot,在vanilla基线基础上通过在提示中增强10个少样本示例进行构建,每个示例由三元组(方法论描述、标题、图表)组成,以实现图像生成模型的上下文学习;(3) Paper2Any (Liu et al., 2025),一个生成图表以呈现论文高层思想的智能体框架,与我们的设置最为接近。对于VLM主干,我们默认使用Gemini-3-Pro,而对于图像生成模型,我们实验了Nano-Banana-Pro和GPT-Image-1.5。(更多实现细节见附录C。)

5.2. 评估设置

评估生成图表的质量需要强大的视觉感知和理解能力,特别是对于忠实度维度,它要求准确识别和解释细微模块和连接。因此,我们采用Gemini-3-Pro作为基于VLM的评判者。为验证其可靠性,我们随机抽样50个案例(25个来自vanilla,25个来自我们的方法)并进行两阶段验证过程:

模型间一致性(一致性)。首先,我们验证评估协议的稳健性和模型无关性。我们评估我们的评判者(Gemini-3-Pro)与其他不同VLM(Gemini-3-Flash和GPT-5)之间的一致性。Gemini-3-Pro与Gemini-3-Flash在四个维度(忠实度、简洁性、可读性、美学)及其聚合上的Kendall tau相关性分别为0.51、0.60、0.45、0.56和0.55;与GPT-5的相关性分别为0.43、0.47、0.44、0.42和0.45。这证实了我们的协议在不同评判者模型间的一致性。

人类对齐(有效性)。其次,我们验证我们的VLM评判者是人类评估的有效代理。我们要求两名人类标注者使用相同评分标准独立对相同的50个样本进行参考式评分,随后通过讨论对冲突案例达成共识。Gemini-3-Pro与人类标注之间的Kendall tau相关性分别为0.43、0.57、0.45、0.41和0.45。这些强相关性表明我们的基于VLM的评判者与人类感知良好对齐。(更多细节见附录B。)

5.3. 主要结果

表1总结了我们的方法和基线方法在PAPERBANANABENCH上的性能。PAPERBANANA在所有指标上持续优于领先基线。我们将GPT-Image在vanilla和智能体设置中表现不佳归因于其较弱的指令遵循和文本渲染能力,与Nano-Banana-Pro相比,无法满足学术插图的严格要求。

类似地,虽然Paper2Any也支持生成论文图表,但它优先呈现高层思想而非方法论图表所需的具体方法流程的忠实描绘。此目标不匹配导致其在我们的评估设置中表现不佳。

相比之下,PAPERBANANA在Vanilla Nano-Banana-Pro基线上实现了全面改进:忠实度(+2.8%)、简洁性(+37.2%)、可读性(+12.9%)和美学(+6.6%),总体得分提升+17.0%。关于跨类别性能,智能体与推理达到最高总体得分(69.9%),其次是科学与应用(58.8%)和生成与学习(57.0%),而视觉与感知得分最低(52.1%)。我们还在50个案例的子集上进行了盲人类评估,将PAPERBANANA与vanilla Nano-Banana-Pro进行比较(细节见附录B)。3名人类评判者的平均胜/平/负率为72.7%/20.7%/6.6%。这进一步验证了我们的智能体工作流在自动化方法论图表生成方面展现出有前景的改进。(案例研究见附录图7)

尽管取得进展,我们注意到PAPERBANANA在忠实度方面仍低于人类参考。我们在附录图10中包含了一些失败分析,以提供对挑战的洞察。

5.4. 消融研究

为理解每个智能体组件的贡献,我们进行了消融研究,结果见表2。

检索器智能体的影响。我们将语义检索器与随机和无检索器基线进行比较(表2中行④–⑥)。没有参考示例作为指导时,无检索器设置在简洁性、可读性和美学方面显著表现不佳,因为规划器默认采用冗长、详尽的描述。此外,缺乏学术图表美学的接触,此设置产生视觉上较不精致的输出。有趣的是,随机检索器实现了与语义方法相当的性能,表明提供一般结构和风格模式比精确内容匹配更为关键。
在这里插入图片描述

风格师和批判者智能体的影响。比较行③和④显示,风格师提升了简洁性(+17.5%)和美学(+4.7%),但降低了忠实度(-8.5%),因为视觉优化有时会省略技术细节。然而,批判者智能体(行①与③比较)有效弥合了这一差距,大幅恢复了忠实度。额外迭代进一步增强所有指标,确保美学与技术准确性的平衡。

5.5. PAPERBANANA用于统计图表生成

PAPERBANANA首先合成目标插图的详细描述,然后将其可视化为图像。与优先考虑美学和逻辑连贯性的方法论图表不同,统计图表要求严格的数值精度,使标准图像生成模型不适用。为解决此问题,我们证明通过采用可执行代码进行可视化,PAPERBANANA可无缝扩展至统计图表生成。

测试集整理。遵循第2节中的任务形式化,我们评估PAPERBANANA从表格数据和简要视觉描述生成统计图表的能力。由于学术手稿中统计图表的原始数据很少可用,我们重新利用ChartMimic(Yang et al., 2025b),一个最初为图表到代码生成构建的数据集。该数据集主要包含来自arXiv论文和Matplotlib图库的统计图表,配对有人类策划的Python代码。利用Gemini-3-Pro,我们从代码中提取底层表格数据并为每个图表合成简要描述。经过严格过滤和抽样(见附录D),我们整理了240个测试用例和240个参考示例,按七种图表类别(条形图、折线图、树状与饼图、散点图、热力图、雷达图和杂项)和两种复杂度级别(简单和困难)进行分层。对于评估,我们遵循第4节中详述的协议,提示词专门针对统计图表定制。

图4将PAPERBANANA与vanilla Gemini-3-Pro在我们整理的测试集上进行比较。我们的方法在所有维度上持续优于基线,在忠实度、简洁性、可读性和美学方面分别获得+1.4%、+5.0%、+3.1%和+4.0%的提升,总体改进+4.1%。值得注意的是,PAPERBANANA在简洁性、可读性和美学方面略微超越人类性能,同时在忠实度方面保持竞争力,展示了其在统计图表方面的有效性。

6. 讨论

6.1. 增强人类绘制图表的美学

给定总结的美学指南 G \mathcal{G} G,一个有趣的问题是:这些指南能否用于提升现有人类绘制图表的美学质量?为探索此问题,我们实现了一个简化流程,其中Gemini-3-Pro首先基于原始图表和 G \mathcal{G} G制定最多10条可操作建议,然后由Nano-Banana-Pro执行以优化图像。我们使用参考式协议评估结果,将优化输出与原始人类绘制图表进行比较。在292个测试用例中,优化图表在美学方面对原始图表的胜/平/负比率为56.2%/6.8%/37.0%,表明总结的美学指南确实可以用于提升现有人类创作图表的美学质量。图6提供了一个说明性示例。更多示例见附录图8。

6.2. 用于统计图表可视化的编码与图像生成

对于统计图表,基于代码的方法已证明显著有效性,如图4和先前研究(Chen et al., 2025; Goswami et al., 2025; Yang et al., 2024)所示。鉴于近期图像生成模型的先进保真度和视觉吸引力,我们在PAPERBANANA中比较了可视化器智能体的基于代码(Gemini-3-Pro)和基于图像生成(Nano-Banana-Pro)的方法,如图5所示。结果揭示了明显权衡:图像生成在呈现方面(可读性和美学)表现优异,但在内容忠实度方面(忠实度和简洁性)表现不佳。手动检查显示,虽然图像模型能忠实渲染稀疏图表,但在处理密集或复杂数据时表现挣扎,表现出数值幻觉或元素重复(附录图9)。因此,对稀疏可视化混合使用图像生成、对密集图表使用代码可能提供最佳平衡。

7. 相关工作

7.1. 自动化学术图表生成

自动化学术图表生成仍是一个长期挑战(Rodriguez et al., 2023)。先前工作主要采用基于代码的生成,使用TikZ(Belouadi and Eger, 2024; Belouadi et al., 2025; Hsu and Eger, 2023; Zhang et al., 2025)或Python-PPT(Pang et al., 2025; Zheng et al., 2025)进行程序化合成。虽然这些方法对结构化内容有效,但在生成现代AI出版物中普遍存在的复杂视觉设计时面临表达能力限制。

近期图像生成模型在合成高保真、视觉精致的图表方面取得了显著进展(Deepmind, 2025; OpenAI, 2025a; Tang et al., 2026; Team et al., 2025; Zuo et al., 2025),提供了有前景的替代方案。与我们工作同期,AutoFigure(Anonymous, 2026)将科学内容转化为符号表示,然后使用GPT-Image将其渲染为图像。相比之下,我们的方法通过自适应检索和学术风格迁移实现更广泛的泛化能力,并通过在统一管道中同时支持方法论图表和统计图表展现出更大可扩展性。

对于评估基准,自动图表生成的质量评估探索较少。与PAPERBANANABENCH最密切相关的是SridBench(Chang et al., 2025),它评估从方法章节和标题生成图表的自动化能力,涵盖计算机科学和自然科学领域。我们将在其公开可用时报告结果。

7.2. 基于编码的数据可视化

尽管学术图表生成的固有复杂性阻碍了开创性研究,但自语言模型兴起以来,统计数据可视化已获得广泛关注。早期工作(Dibia and Demiralp, 2019)采用基于LSTM的模型将JSON数据转换为Vega-Lite可视化,随后是少样本和零样本编码方法(Dibia, 2023; Galimzyanov et al., 2025; Li et al., 2024; Tian et al., 2024),利用ChatGPT(OpenAI, 2022)等大规模主干。近期,智能体框架在基于编码的数据可视化方面展现出显著进展(Chen et al., 2025; Goswami et al., 2025; Seo et al., 2025; Yang et al., 2024),利用测试时缩放(Snell et al., 2024)和自我反思(Shinn et al., 2023)等基本机制。虽然本文更专注于学术图表和统计图的自动化生成,但这些智能体框架可无缝集成到我们的可视化器智能体中,以增强其将所需图表的详细描述转化为稳健Python代码的能力。作为生成的补充,近期工作也探索了将图表反向转换为其原始代码(Wu et al., 2025b; Yang et al., 2025b),挑战VLM的感知和编码能力。

8. 结论

本文介绍了PAPERBANANA,一个旨在自动化生成符合出版标准学术插图的智能体框架。通过协调专业化智能体——检索器、规划器、风格师、可视化器和批判者——我们的方法将科学内容转化为高保真方法论图表和统计图表。为促进严格评估,我们提出了PAPERBANANABENCH,一个从顶级AI会议精选的综合基准。广泛实验证明,PAPERBANANA在忠实度、简洁性、可读性和美学方面显著优于现有基线,为AI科学家自主以专业级可视化传达其发现铺平了道路。

9. 局限性与未来方向

作为开创性工作,尽管PAPERBANANA取得有前景的结果,但它不可避免地面临某些局限性。本节将详细讨论这些局限性,并概述我们设想的相应未来方向。

迈向可编辑学术插图。PAPERBANANA最显著的局限性在于其输出的栅格性质。与学术环境中首选的矢量图形(因其无限可缩放性和精确细节保留)不同,栅格图像本质上难以编辑。虽然以4K分辨率生成输出作为确保高视觉保真度的可行解决方案,但它并未从根本上解决生成后修改的挑战。为解决此问题,我们设想三种针对不同编辑需求级别的潜在解决方案。对于轻微视觉调整,利用Nano-Banana-Pro等最先进的图像编辑模型是最直接的方法。对于更具结构性的修改,可采用Paper2Any(Liu et al., 2025)和Edit Banana(BIT-DataLab, 2025)示例的重建管道:采用OCR进行文本提取和SAM3进行模式分割,然后在演示幻灯片上重新组装这些元素(例如通过Python-PPTX)。虽然目前在处理复杂背景和精细视觉元素时面临挑战,但我们预计训练专用元素提取模型将显著增强此重建的稳健性。最后,更高级的方向涉及开发能够自主操作专业矢量设计软件(Huang et al., 2026; Sun et al., 2025)(如Adobe Illustrator)的GUI智能体。这将实现完全可编辑矢量图形的直接生成,尽管它需要智能体具备卓越的感知、规划和交互能力。

风格标准化与多样性之间的权衡。第二个局限性在于风格标准化与多样性之间的权衡。虽然我们的统一风格指南确保严格遵守学术标准,但它不可避免地减少了输出的风格多样性。未来工作可探索更动态的风格适应机制,在保持专业严谨性的同时允许更广泛的藝術表达和个性化美学选择。

细粒度忠实度的挑战。虽然PAPERBANANA在美学方面表现出色,但与人类专家相比,忠实度方面仍存在性能差距。如我们的失败分析所示(附录图10),最常见的错误涉及细粒度连接性,例如错位的起点/终点或不正确的箭头方向。这些细微差别往往逃过当前批判模型的检测,限制了自我纠正的有效性。我们认为,缩小此差距主要取决于推进基础VLM的细粒度视觉感知能力。

推进评估范式。遵循现有实践,我们的评估采用基于参考的VLM作为评判者设置。尽管其有效性,我们承认此评估范式仍面临固有挑战。首先,关于忠实度,量化结构正确性仍然具有挑战性,因为检测连接和符号中的细微错误需要高精度审查。未来协议可受益于纳入细粒度、基于结构(Liang and You, 2025)或基于评分标准(Huang et al., 2026; Li et al., 2025)的指标,尽管它们计算复杂度更高,但可能提供更高准确性。其次,对于美学等主观维度,我们观察到文本提示往往不足以完全使VLM与人类偏好对齐。我们设想,训练定制奖励模型以弥合此对齐差距是未来研究的关键方向。

测试时缩放以满足多样化偏好。目前,我们的框架为每个查询生成单一输出。然而,鉴于生成模型的固有随机性和美学偏好的主观性,单一结果可能无法普遍满足多样化用户品味。自然扩展是通过生成具有不同风格和构图的候选谱系实现测试时缩放。此范式将重点从单次生成转向生成-选择工作流,使人类用户或基于VLM的偏好模型能够选择最符合其特定需求的插图。

扩展至更广泛领域。除学术插图外,我们的框架建立了一个可泛化范式:利用检索指导模型生成什么(目标图表类型),并采用自动风格总结教授其如何生成(风格规范)。通过有效解耦结构规划与美学渲染,此参考驱动方法绕过了昂贵的领域特定微调需求。我们相信此范式在其他需要严格遵守社区标准的专业领域具有显著前景,例如UI/UX设计、专利起草和工业示意图。

致谢

我们感谢Google Cloud AI Research所有成员在项目期间提供的宝贵支持。我们也感谢宇航和阿里进行的富有见地的讨论。

影响声明

本文介绍了PAPERBANANA,一个旨在自动化生成学术插图的框架。我们的目标是使高质量视觉沟通工具民主化,特别使可能缺乏专业设计资源的研究人员受益。通过减少图表创建所需的手动工作,我们旨在加速科学工作流。然而,我们承认生成模型相关的伦理风险,特别是"视觉幻觉"或技术细节的不忠实表示的潜在风险。用户必须拒绝盲目依赖此类系统,并保持严格的人类监督,以确保已发布插图的科学完整性。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐