你是还在手动翻Google Scholar,还是已经习惯了用GPT-4o帮你读论文?

做过科研的人都知道,学术检索绝对是痛点中的痛点。现有的搜索引擎(如Google Scholar)只能做关键词匹配,无法理解复杂的逻辑;而通用的LLM(如ChatGPT)虽然能读,但受限于幻觉和上下文窗口,很难进行大规模、深度的引文追踪。

最近,字节跳动研究院)联合北京大学,丢出了一个王炸级Agent——PaSa (Paper Search Agent)

它不仅仅是一个搜索工具,更是一个模仿人类研究员行为的智能体。它能自主调用搜索工具、阅读全文、根据引文顺藤摸瓜,甚至还能“自我反思”决策路径。

更硬核的是,PaSa通过强化学习解决了Agent在长链路任务中容易“迷路”的问题,在真实场景下,不仅吊打Google Scholar,甚至超越了Google + GPT-4o的组合。

今天,我们就来深度拆解PaSa背后的技术原理,看看它是如何利用RL让7B模型跑出SOTA效果的!

1. 核心资源速览

2. PaSa 到底强在哪?

传统的搜索是“一锤子买卖”,你给词,它给结果。
而 PaSa 是“以过程为导向”的智能体。它模拟了人类做调研的三个核心动作:

  1. Search(搜):自主生成关键词,调用API。

  2. Read & Select(读与选):像教授一样快速扫读Abstract,判断是否相关。

  3. Expand(扩):这是PaSa的杀手锏。它会阅读论文的Related Work章节,根据引文网络去挖掘更多Google搜不到的“长尾”论文。

为了实现这个复杂的流程,PaSa设计了双Agent架构:

  • Crawler(爬虫):负责干活。决定搜什么、读哪篇、去哪里扩展引文。

  • Selector(筛选者):负责把关。作为Reward Model,精准判断Crawler找到的论文是否符合用户需求。

PaSa的架构。该系统由两个LLM代理组成,即Crawler和Selector。Crawler处理用户查询,并可以访问论文队列中的论文。它可以自动调用搜索工具、扩展引文或停止当前论文的处理。Crawler收集的所有论文都会被添加到论文队列中。Selector读取论文队列中的每篇论文,以确定它是否符合用户查询中指定的标准。

3. 核心技术解密:强化学习如何让Agent变聪明?

PaSa最大的亮点,在于它不是简单地Prompt一下GPT-4,而是使用了强化学习(RL) 来训练Crawler。

为什么要用RL?因为学术搜索面临两个巨大的挑战:

  1. 稀疏奖励(Sparse Reward):Agent可能忙活了半天(搜索、阅读、跳转),最后才找到一篇真正有用的论文。中间的步骤很难获得即时反馈。

  2. 长轨迹(Long Trajectories):一个完整的调研过程可能涉及数百个动作,Context长度不仅撑爆显存,也会让LLM迷失方向。

PaSa 祭出了Session-Level PPO 加上 混合奖励机制,成功解决了这些问题。

3.1. 独特的奖励函数设计 

PaSa 不仅看结果,还看过程和成本。其奖励函数 

 设计得非常精妙:

看不懂公式?没关系,我们来翻译一下:

  • 命中奖励 I(q,pi):如果你找到了一篇全新的、完全匹配用户Query的论文,奖励+1。这是硬指标。

  • Selector 辅助奖励 α⋅Selector:由于真实的目标论文(Ground Truth)很稀疏,PaSa引入了训练好的Selector模型打分。只要Selector觉得这篇论文靠谱,就给Crawler一个“小红花”(辅助奖励)。这大大缓解了奖励稀疏的问题。

  • 动作成本惩罚 c(at):天下没有免费的午餐。每一次搜索、每一次展开阅读都是有成本的。为了防止Agent为了刷分而无限乱搜,PaSa给每个动作加了负向惩罚。

总结: 这个Reward函数教会了Agent——“要找得准(Match),要找得像(Selector),还要找得快(Cost)”。

3.12. Session-Level PPO (会话级近端策略优化)

为了解决“长轨迹”问题,PaSa没有把整个搜索过程扔给PPO,而是切分成了多个 Session(会话)

  • 传统RL:从开始搜索到最终结束,可能几百步,梯度传播困难。

  • PaSa策略

    • 将搜索拆解为短片段:Context + Action -> Stop。

    • Agent在每个Session中决定是继续Search、Expand还是Stop。

    • 这使得7B模型也能在有限的上下文窗口内,高效地学习到长期的规划能力。

3.13. 模仿学习与正则化 (SFT + RL)

PaSa并没有直接从零开始RL,而是先通过 SFT(监督微调) 学习人类专家的搜索行为(Imitation Learning)。在RL阶段,为了防止模型练“偏”了(Reward Hacking),还加上了SFT策略的KL散度作为正则项。

4. 数据集:为了训练它,字节造了3.5万条数据

高质量的数据是Agent成功的基石。字节团队构建了两个关键数据集

特性 AutoScholarQuery (合成) RealScholarQuery (真实)
来源 AI顶会论文 Related Work + GPT-4 真实研究员的大脑
风格 规整、学术化、教科书式 复杂、口语化、包含具体约束条件
难度 ⭐️⭐️⭐️ (容易通过关键词命中) ⭐️⭐️⭐️⭐️⭐️ (需要理解逻辑和排除法)
作用 练基本功:让Agent学会“搜-读-找引用”的基本动作 实战考核:检验Agent是否真的懂科研,能不能解决只有专家才懂的长尾问题

PaSa 的强悍之处在于:它仅仅是在“教科书”(AutoScholarQuery)上训练出来的,但在面对“刁钻考题”(RealScholarQuery)时,依然表现出色,说明强化学习让它掌握了通用的搜索策略,而不仅仅是记住了数据。

4.1 AutoScholarQuery (合成训练集)

核心逻辑:GPT-4 扮演出题老师。它看着答案(已有的论文引文),反推题目(用户可能会怎么问)。

举例说明 

假设我们有一篇关于 大模型微调(LLM Fine-tuning) 的顶会论文,它的 Related Work(相关工作) 章节里写了这么一段话:

原文片段
"...In recent years, parameter-efficient fine-tuning (PEFT) has gained attention. Hu et al. (2021) proposed LoRA [1], which freezes the pre-trained model weights and injects trainable rank decomposition matrices. Similarly, Houlsby et al. (2019) introduced Adapter layers [2] to reduce the number of trainable parameters..."

注:这里引用了 [1] LoRA 和 [2] Adapter 两篇论文。

构建过程
PaSa 的开发者把这段话扔给 GPT-4,下达指令:“请根据这段话中引用的论文 [1] 和 [2],生成一个用户可能会搜索的查询(Query)。”

GPT-4 生成结果

  • 生成的 Query:"What are the representative methods for parameter-efficient fine-tuning (PEFT) that utilize low-rank adaptation or adapter layers?" (有哪些利用低秩适应或适配器层的参数高效微调代表性方法?)

  • 标准答案

    1. LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021)

    2. Parameter-Efficient Transfer Learning for NLP (Houlsby et al., 2019)

为什么这样做?

  • 优点:能够极低成本生成海量数据(3.5万条)。因为顶会论文的 Related Work 本质上就是人类专家整理好的“问题-答案”对,质量极高。

  • 局限:问题通常比较规整,像教科书,不像真人说话。

4.2 RealScholarQuery (真实测试集)

核心逻辑:真实的人类研究员不仅逻辑复杂,还喜欢用模糊词、限定词,甚至跨领域提问。这是检验 Agent 是否“死记硬背”的试金石。

场景:一个正在研究自动驾驶的研究员,他在寻找非常细分的技术方案,不仅仅是搜关键词。

真实人类 Query

"I am looking for papers that address the straggling worker problem in distributed deep learning training, specifically using redundancy-based methods like coded computation, rather than just gradient accumulation."
(我在找解决分布式深度学习训练中“落后节点问题”的论文,特别关注使用像编码计算这种“基于冗余的方法”,而不是仅仅使用梯度累积。)

分析这个 Query 的难度

  1. 多重限制

    • 领域:分布式深度学习

    • 问题:Straggling worker (掉队节点/落后节点)

    • 方法:Redundancy-based (基于冗余)

    • 具体技术:Coded computation (编码计算)

    • 排除项:NOT gradient accumulation (不要梯度累积)

  2. Google 的痛点:如果你直接搜这些词,Google 可能会把“梯度累积”的论文也推给你,因为它只看到了关键词匹配,不懂“rather than”(而不是)这个逻辑。

  3. PaSa 的挑战:Agent 必须先搜“straggling worker”,读论文Abstract,发现是讲“梯度累积”的就扔掉(Selector的作用),发现是讲“编码计算”的才保留,并顺着引文去找更多基于冗余的方法(Crawler Expand的作用)。

标准答案 
由提出这个问题的人类专家,人工筛选出的几篇真正符合要求的论文(例如 Gradient Coding, Coded Distributed Computing 等)。

5.结果:吊打 GPT-4o?

实验数据说明一切。在 RealScholarQuery 真实基准测试上,PaSa-7B 的表现令人咋舌:

  • 对比 Google Scholar:PaSa 在召回率(Recall@50)上提升了 39.90%

  • 对比 GPT-4o Agent:PaSa(仅7B参数)比通过Prompt工程搭建的 PaSa-GPT-4o 召回率还高出 30.36%

  • 成本优势:PaSa 基于 Qwen2.5-7B 微调,推理成本远低于调用 GPT-4o API。

PaSa在各项指标上均大幅领先传统搜索和通用LLM

6. 为什么这很重要?

PaSa 的成功不仅仅是一个工具的胜利,它向我们展示了 LLM Agent 的未来趋势

  1. RL is All You Need for Agents:单纯的Prompt工程(Prompt Engineering)是有上限的。通过构建合理的Reward Function,让Agent在环境中自我进化,是突破能力瓶颈的关键。

  2. 小模型 + 强逻辑 > 大模型 + 弱逻辑:7B模型经过特定任务的RL训练,可以在特定领域(如学术搜索)击败通用的GPT-4o。

  3. 引文网络挖掘(Expand)是核心:真正的学术调研不是关键词匹配,而是知识图谱的游走。PaSa 证明了让Agent学会“顺藤摸瓜”的巨大价值。

7. 想自己试一试?

PaSa 已经完全开源!你可以直接去 Demo 站体验,或者拉取代码在本地部署。

  • GitHub: git clone https://github.com/bytedance/pasa

  • HuggingFace: 模型权重已发布。

对于开发者来说,PaSa 的 crawler.py 和 reward.py 是学习 Agent RL 极佳的教科书级范例。

别再让调研占满你的周末了,让 PaSa 帮你打工吧!

喜欢这类硬核技术解读吗?欢迎点赞、关注,获取更多前沿AI技术干货!

参考资料

2分钟完成论文调研!ByteDance Research推出论文检索智能体PaSa,远超主流检索工具

字节PaSa如何利用强化学习提升文献检索效果!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐