PaperBanana：AI科研人员画图终于不用头疼了

下午刷到这篇PaperBanana的论文，讲真，这个方向确实戳中了AI科研圈的痛点。写论文最头疼的是什么？不是跑实验，不是调参数，而是画那些方法示意图和统计图表。每次到这个环节，PPT、Visio、Python matplotlib轮番上阵，改来改去，最后还是觉得不够professional。这次北大和谷歌的团队直接放大招，搞了个框架，专门解决学术插图自动化生成的问题。看完之后，第一反应是：这玩意

致Great

1062人浏览 · 2026-02-06 17:43:07

致Great · 2026-02-06 17:43:07 发布

下午刷到这篇PaperBanana的论文，讲真，这个方向确实戳中了AI科研圈的痛点。写论文最头疼的是什么？不是跑实验，不是调参数，而是画那些方法示意图和统计图表。每次到这个环节，PPT、Visio、Python matplotlib轮番上阵，改来改去，最后还是觉得不够professional。

这次北大和谷歌的团队直接放大招，搞了个PaperBanana框架，专门解决学术插图自动化生成的问题。看完之后，第一反应是：这玩意要是早出来，当年毕业论文能省多少时间啊。

作者阵容：朱大伟（北大&谷歌）、孟睿（谷歌）、Yale Song（谷歌）、魏熙雨（北大）、李素建（北大）、Tomas Pfister（谷歌）、尹镇成（谷歌）

论文传送门:https://arxiv.org/abs/2601.23265

GitHub代码]:https://github.com/dwzhu-pku/PaperBanana

Twitter讨论:https://x.com/dwzhu128/status/2018405593976103010

先看效果，直接上图

PaperBanana生成示例

上面这些方法论示意图和统计图，全是PaperBanana自动生成的，质量已经达到发表级别了

为啥需要这个东西

现在AI科学家的自动化已经卷到飞起，写代码、跑实验、分析数据都有工具辅助，但画图这一块还是纯人工在硬刚。一张methodology diagram，从构思到最终定稿，少说也得折腾半天。改审稿意见的时候，图要重画，又是一轮折磨。

PaperBanana就是来解决这个问题的。团队把最新的视觉语言模型(VLM)和图像生成模型整合到一起，弄了个多智能体协同的框架，能自动完成从检索参考、规划内容、设计风格到生成图像、迭代优化的全流程。

更硬核的是，团队还专门构建了PaperBananaBench评测基准，从NeurIPS 2025论文里精选了292个方法示意图作为测试集，覆盖各种研究方向和插图风格。这下评估有标准了，不是自说自话。

实测结果也很能打，在准确性、简洁性、可读性、美观度四个维度上，全面吊打现有baseline。而且这套方法不只能画示意图，统计图表也能搞定。

系统架构：五个智能体分工协作

PaperBanana的核心是5个专业智能体的协同工作，每个agent各司其职。下面这张系统架构图，本身就是PaperBanana生成的（这波自举操作可以的）。

整个pipeline是这样的：

Retriever Agent（检索智能体）：先去找相关的参考案例，给后面的智能体提供灵感和指导。这个很关键，有了参考才知道这个领域的图长啥样。

Planner Agent（规划智能体）：充当大脑角色，把论文内容和图表caption转化成详细的文字描述。这一步决定了图要画什么、怎么组织。

Stylist Agent（风格智能体）：从参考案例里提炼美学规范，保证生成的图符合学术审美。配色、字体、布局这些细节都要考虑到。

Visualizer Agent（可视化智能体）：把文字描述真正转换成图像或者可执行代码。methodology diagram用图像生成，统计图表用代码生成，各取所长。

Critic Agent（评审智能体）：生成完了不算完，还要跟原始内容对照检查，找问题给反馈，然后迭代优化。这个self-critique机制挺重要的，能明显提升质量。

PaperBananaBench：专门的评测基准

之前这个领域最大的问题是没有标准的benchmark，大家各说各话。团队这次从NeurIPS 2025的论文里筛选了584个高质量样本，一半做测试集，一半做参考集。

构建流程也很严谨：收集解析→过滤筛选→分类整理→人工审核，四道关卡下来，保证数据质量。

这张统计图也是PaperBanana生成的。测试集292个样本，平均源文本3020个词，图表caption平均70个词

从统计数据看，这个benchmark还是很有挑战性的。源文本平均3000多词，信息量大；图表类型多样，从简单的流程图到复杂的架构图都有。

实测效果：全方位碾压baseline

团队在PaperBananaBench上做了完整评估，从四个维度打分：faithfulness（准确性）、conciseness（简洁性）、readability（可读性）、aesthetics（美观度）。

PaperBanana实验结果

从榜单来看，PaperBanana在所有指标上都是第一梯队，相比vanilla baseline提升明显。特别是aesthetics这一项，毕竟有专门的Stylist Agent在把关。

统计图表生成这块也测了，效果同样能打。下面这张对比图本身就是PaperBanana根据原始数据生成的。

统计图对比

两个有意思的扩展应用

应用1：给人工画的图做美学升级

团队发现，PaperBanana提炼出来的美学guidelines不只能用来生成新图，还能用来改善现有的人工绘制图表。相当于有了一个"AI审美顾问"。

看这个case，原图功能是够了，但配色和排版比较朴素。用PaperBanana的style guidelines优化之后，整体视觉效果上了好几个档次。

应用2：代码生成 vs 图像生成，统计图该怎么做？

统计图表到底是用代码画（matplotlib/seaborn），还是直接让图像生成模型画？团队做了个对比实验。

代码生成vs图像生成

这张对比图也是PaperBanana生成的

结论挺明确：图像生成模型做出来的图更好看，但容易出现数值幻觉或者元素重复；代码生成的准确性更高，但视觉效果一般。各有权衡，看具体需求。

实战案例：直观感受差距

Methodology Diagram生成

给定相同的论文内容和caption，看看不同方法的生成效果。

vanilla版本的Nano-Banana-Pro生成的图，配色老气，内容冗长，一看就是"AI味"很重。PaperBanana生成的图简洁清爽，配色现代，关键是准确表达了原文意思，这才是publication-ready的水平。

美学提升的更多案例

看这几组对比，原图都是能用的，但用style guidelines润色之后，配色、字体、图形元素都有明显改善，整体质感提升了。

统计图表：代码 vs 图像生成

这个case很典型。图像生成的版本视觉效果确实更好，但仔细看会发现数值有偏差；代码生成的版本数据准确，但视觉上平淡一些。

也有翻车的时候

团队也很诚实，把failure cases放出来了。主要问题集中在连接错误上，比如节点之间的连线画错、连多了或者连少了。

初步分析发现，Critic Agent往往识别不出这类连接问题，说明这可能是底层模型感知能力的局限。这个问题确实棘手，因为连接关系是图表逻辑的核心，出错影响很大。

个人看法

看了论文效果，PaperBanana整体还是很能打的，成功率已经挺高了。对于科研人员来说，就算不能100%自动化，能帮忙生成初稿也能省不少时间。

特别喜欢它的multi-agent架构设计，每个agent职责清晰，可以单独优化。Critic Agent的self-critique机制也很实用，让生成质量有保障。

不过也要看到，这个方向还有提升空间。比如复杂的连接关系识别，还有一些领域特定的图表样式（比如生物信息学的pathway图），可能需要further fine-tuning。

另外，benchmark虽然是从NeurIPS论文里选的，但AI领域的插图风格相对统一，其他学科（比如物理、化学）的图表风格差异更大，泛化性还得继续验证。

总的来说，这个工作方向很实用，解决了真实痛点。代码已经开源了，感兴趣的可以去GitHub试试。说不定下次写论文，画图这个环节真就不用那么头疼了。

不过还没有完全开放，大家可以关注下：This is the repository for PaperBanana. Our code and dataset will be released in ~2 weeks.

PS：论文里那些图，很多都是PaperBanana自己生成的，这波self-hosting操作确实有意思。就像用自己训练的模型写自己的论文，AI做AI research的感觉越来越强了。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

OpenClaw开源项目汇总：Installer一键部署、Moltworker云端方案、钉钉飞书微信接入全指南

2048 AI社区

AI编程的革命：程序员的生存策略

随着人工智能技术的飞速发展，AI编程正逐渐成为编程领域的一股重要力量。它不仅改变了传统的编程方式，也对程序员的职业发展带来了前所未有的挑战和机遇。本文的目的在于全面探讨AI编程革命的内涵，分析其对程序员的影响，并为程序员提供切实可行的生存策略。范围涵盖了AI编程的核心概念、算法原理、实际应用场景以及程序员所需的转型方向和技能提升建议等方面。本文将按照以下结构展开：首先介绍AI编程的核心概念与联系，

2048 AI社区

拆解OpenHands框架：AIAgent启动全解析

这些提示词中融入了特定领域的知识准则与操作规范，例如，与Git相关的Microagent，其提示词会包含Git操作的核心技巧与最佳实践，能够引导模型更精确地处理与Git相关的任务，成为主代理应对细分场景的“得力助手”。run_controller 作为 OpenHands 后端单个会话的核心入口协程，核心职责是依据预设配置启动运行时环境、智能体及对应控制器，搭建起从接收用户指令到多步骤执行任务，再