[ICLR 2026] 一文读懂 AutoGEO:生成式搜索引擎优化(GEO)的自动化解决方案
分享一篇 ICLR 2026 论文《AutoGEO: What Generative Search Engines Like and How to Optimize Web Content Cooperatively》,代码、数据集、模型参数都已开源,请放心食用~
- 论文主页:https://zhongshsh.github.io/AutoGEO/
- 论文链接:https://arxiv.org/pdf/2510.11438
- 论文代码:https://github.com/cxcscmu/AutoGEO
- 直接试用:https://huggingface.co/spaces/cx-cmu/AutoGEO_Mini
试用 Demo 只有 CPU 加持,推理略慢。不过模型只有 1.7B,可以自行下载本地运行。

接下来正式进入论文内容 👉👉
一、为什么需要 GEO?—— 从传统 SEO 到生成式搜索的变革
如果你做过网站运营,一定熟悉 SEO(Search Engine Optimization, 搜索引擎优化)—— 通过优化关键词、页面结构等,让网站在百度、谷歌的搜索结果中排名靠前。但现在,ChatGPT、Google AI Overview 这类生成式搜索引擎(Generative Engine, GE) 正在改变游戏规则!
生成式搜索引擎不返回网页列表,而是直接整合检索到的文档内容,生成连贯的自然语言回答。这意味着:你的网页内容能不能被 GE “看中”并引用、引用的位置是否靠前,成了新的流量关键——这就是GEO(Generative Engine Optimization,生成式引擎优化) 的核心需求。
但现有的 GEO 方法有个大问题:要么靠人工设计规则(比如堆关键词、加引用),要么用对抗性手段(比如注入干扰指令),既没有系统理解 GE 的真实偏好,还可能导致生成的回答质量下降(比如内容矛盾、缺乏逻辑性)。
有没有一种方法,能自动摸清 GE 的“脾气”,还能高效优化内容、不破坏回答质量?答案就是今天要讲的论文《AutoGEO:自动学习生成式引擎偏好并协同优化网页内容》。
二、AutoGEO 核心思路:先懂 GE,再做优化
AutoGEO 的逻辑特别直观,就像给 GE 做“用户画像”,再针对性优化内容,分为两步:
- 自动挖掘 GE 的偏好规则:搞清楚 GE 到底喜欢什么样的文档(比如是否需要结构清晰、是否要深度解释);
- 基于规则构建 GEO 模型:用这些规则改写文档,既提升曝光率,又不影响 GE 生成回答的质量(协同优化)。
2.1 第一步:让 AI 自己“读”出 GE 的偏好
GE 不会告诉你它喜欢什么,但它的引用行为会“说话”——比如 A 文档被大量引用,B 文档却被忽略,两者的差异就是线索。AutoGEO 用 4 个核心步骤挖出这些线索,形成可执行的规则:
- 对比分析:对每个查询,找出 GE 引用最多和最少的两篇文档(差异最大的一对);
- 解释差异:让大模型(比如 Gemini )分析“为什么GE 更喜欢 A 文档”(比如 A 结构清晰、覆盖知识点更全);
- 提炼规则:把这些解释浓缩成简洁的规则(比如“文档应包含清晰的标题和列表”);
- 筛选合并:去掉无效规则,合并重复规则,形成最终的偏好规则集。
举个例子:AutoGEO 发现,Researchy 类查询(学术研究类)的 GE 喜欢“深度解释因果关系”,而电商类查询的 GE 更偏好“步骤化指南和产品参数”——这些 domain-specific 规则,是人工设计很难覆盖的。
2.2 第二步:两种 GEO 策略,满足不同需求
有了规则,AutoGEO 提供了两种落地方式,兼顾“即插即用”和“成本高效”:
(1)AutoGEO API _\text{API} API:不用训练,直接用
把挖掘到的规则嵌入到提示词里,调用大模型 API(比如 Gemini-2.5-Pro)就能改写文档。比如提示词会明确要求:“按照以下规则改写文档,提升在 GE 中的曝光率:1. 开头先给出核心结论;2. 用标题和列表优化结构;3. 覆盖所有关键知识点…”
优点:零训练成本,效果拉满(比最强基线提升 50.99%);
缺点:API 调用成本较高,而且速率受限制。
(2)AutoGEO Mini _\text{Mini} Mini:轻量模型,本地就能跑
如果想降低成本,AutoGEO 用强化学习训练了一个轻量模型(基于 Qwen3-1.7B):
- 先用 AutoGEO API _\text{API} API生成高质量改写样本,给轻量模型做“老师”(冷启动);
- 用三个维度做奖励信号:曝光率提升(Outcome Reward)、规则遵守度(Rule Reward)、语义一致性(Semantic Reward);
- 用 GRPO 算法优化模型,确保改写后内容不跑偏、GE 喜欢、成本低。
优点:成本仅为 AutoGEO API _\text{API} API 的0.0071倍,支持 CPU 离线推理;
缺点:效果略低于 API 版(但仍比所有现有的基线方法好,平均提升 20.99%)。
三、关键实验结果:不止提升曝光,还不拖垮 GE 质量
论文用三个数据集(GEO-Bench、Researchy-GEO、E-commerce)和三个主流大模型(Gemini、GPT-4o-mini、Claude)做了测试,核心结论很实在:
- 曝光率显著提升:AutoGEO API _\text{API} API 在三个数据集上的综合曝光率(Overall)平均提升 35.99%,就算是原本曝光率很低的文档,也能大幅改善;
- 不破坏回答质量:和对抗性方法不同,AutoGEO 改写后,GE 生成的回答在准确性、清晰度、逻辑性上基本不变,甚至略有提升;
- 跨 GE、跨领域通用:不管是 Gemini 还是 GPT,不管是学术查询还是电商查询,AutoGEO 都能稳定发挥——因为它学的是每个GE、每个领域的专属规则。
四、谁该用 AutoGEO?怎么用?
- 网站运营者:想让自己的内容在 ChatGPT、Google AI Overview 等 GE 中被更多引用;
- 内容创作者:需要批量优化文章,同时保证内容质量;
- 开发者:可以集成 AutoGEO Mini _\text{Mini} Mini 到本地系统,低成本实现 GEO 自动化。
- 研究者:在搜索引擎范式被颠覆的当下,人们越来越依赖于 GE 来获取信息,这是一个时代的趋势。那么如何提出更先进的 GEO 算法来应对搜索引擎范式的变化?不妨从 AutoGEO 开始探索这个无限可能的领域。
使用流程超简单:
- 收集目标 GE 的查询和文档引用数据;
- 用 AutoGEO 挖掘该 GE 的偏好规则;
- 选择 AutoGEO API _\text{API} API(快速落地)或 AutoGEO Mini _\text{Mini} Mini(低成本量产)改写文档;
- 持续监控 GE 引用情况,更新规则,迭代优化。
用这篇文章开源的模型参数和规则也是很不错的选择!
论文代码已经开源(论文主页,代码),感兴趣的可以直接上手测试!未来随着生成式搜索越来越普及,GEO会成为内容运营的必备技能,而 AutoGEO 提供了一个开箱即用的解决方案。
🤡本篇内容由 AutoGEO 润色完成 🤡
更多推荐

所有评论(0)