利用 RPA 模拟用户多轮对话构建 GEO 搜索意图训练集

GEO（生成式引擎优化）不应该是玄学。利用 RPA 技术模拟用户多轮对话，本质上是在用自动化手段进行大规模的语义探测。通过构建这种结构化的意图训练集，开发者可以从底层的“数据搬运工”转型为“AI 意图架构师”。在未来的搜索生态中，谁掌握了更多的真实交互数据，谁就掌握了 AI 时代的流量密码。下一步探索：目前系统已能实现文本交互的自动化，未来我们将探索基于 RPA + 多模态（Vision）的方式

chenshi1781

570人浏览 · 2026-01-09 11:19:38

chenshi1781 · 2026-01-09 11:19:38 发布

在生成式搜索引擎优化（GEO, Generative Engine Optimization）的工程实践中，最核心的难点在于：如何精准预测并适配 AI 搜索引擎（如 Perplexity, ChatGPT Search, Gemini 等）的检索意图？

不同于传统 SEO 针对关键词的匹配，AI 搜索引擎基于 RAG（检索增强生成）架构。要让品牌或专业内容被 AI 引用，必须先理解 AI 是如何理解用户提问的。本文将从底层原理到代码实现，深度解析如何利用 RPA（机器人流程自动化） 技术，模拟用户多轮对话，自动化构建高质量的 GEO 搜索意图训练集。

一、核心背景：为什么 GEO 需要模拟多轮对话？

传统的关键词词库（Keyword Base）在 AI 时代已经失效。AI 搜索引擎处理的是自然语言意图（Intent）。

意图的连续性：用户在与 AI 交互时，往往通过 3-5 轮对话来细化需求。例如，从“深圳货代公司”进化到“具备 RPA 自动化对账能力的深圳欧美线货代”。
RAG 触发机制： AI 会根据用户的上下文（Context）决定检索哪些切片（Chunks）。
训练数据缺失：目前市面上缺乏针对特定垂直行业（如物流、医疗、法务）的 AI 对话路径数据。

利用 RPA 模拟真实人类的对话行为，可以低成本、高效率地生产出成千上万条“提示词-反馈-追问”的链路数据，为后续的内容重构提供算法支撑。

二、系统架构与实现原理

构建一个基于 RPA 的 GEO 意图训练集生成系统，主要分为四个模块：意图种子生成、RPA 对话模拟、语义特征提取、数据集清洗与标注。

2.1 意图生成（Prompt Seed）

系统输入行业核心词（实体），通过 LLM 生成初始的“用户画像”和“搜索动机”。

2.2 RPA 交互层（Simulation Layer）

这是本文的技术核心。RPA 机器人（基于 Playwright 或 Selenium 封装）模拟浏览器行为，登录 AI 搜索平台：

动作模拟：模拟打字延迟、页面滚动、点击引用链接。
多轮演进：根据 AI 的回答，利用启发式算法生成“追问”。

2.3 数据的结构化转换

将对话过程中的原始 HTML/JSON 转换为训练集格式：

$$Data\_Set = \{ (Query_1, Answer_1, Cite_1), (Query_2, Answer_2, Cite_2) ... \}$$

三、核心技术实现：代码深度解析

以下基于 Python 3.10 + Playwright 框架，展示如何自动化驱动浏览器进行多轮对话模拟。

3.1 环境配置

Bash

pip install playwright pandas openpyxl
playwright install chromium

3.2 自动化对话引擎核心代码

我们将通过一个类 GEOSimulator 实现对话的自动化。

Python

import asyncio
from playwright.async_api import async_playwright
import random

class GEOSimulator:
    def __init__(self, platform_url):
        self.url = platform_url
        self.browser = None
        self.context = None
        self.page = None

    async def init_browser(self):
        pw = await async_playwright().start()
        # 模拟真实浏览器特征，避免被识别为Bot
        self.browser = await pw.chromium.launch(headless=False) 
        self.context = await self.browser.new_context(
            viewport={'width': 1920, 'height': 1080},
            user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."
        )
        self.page = await self.context.new_page()

    async def simulate_typing(self, selector, text):
        """模拟人类打字速度"""
        await self.page.focus(selector)
        for char in text:
            await self.page.type(selector, char, delay=random.randint(50, 150))
            
    async def run_conversation_flow(self, query_list):
        """执行多轮对话路径记录"""
        results = []
        await self.page.goto(self.url)
        await asyncio.sleep(3) # 等待页面加载

        for i, query in enumerate(query_list):
            print(f"执行第 {i+1} 轮对话: {query}")
            
            # 定位输入框（根据不同平台如Perplexity/ChatGPT微调选择器）
            input_selector = 'textarea, [contenteditable="true"]' 
            await self.simulate_typing(input_selector, query)
            await self.page.keyboard.press("Enter")

            # 等待AI响应结束（监控停止按钮或动效消失）
            await self.page.wait_for_selector('.result-done-indicator', timeout=60000)
            
            # 抓取当前轮次的回答文本与引用来源
            content = await self.page.inner_text('.answer-content-area')
            citations = await self.get_citations()
            
            results.append({
                "round": i + 1,
                "query": query,
                "answer": content,
                "citations": citations
            })
            await asyncio.sleep(random.randint(2, 5)) # 对话间歇
            
        return results

    async def get_citations(self):
        """抓取AI引用的外部链接地址"""
        # 逻辑：定位引用小角标并提取URL
        citation_elements = await self.page.query_selector_all('a.citation-link')
        links = [await el.get_attribute('href') for el in citation_elements]
        return list(set(links))

# 意图演进策略函数
def generate_follow_up(prev_answer, topic):
    # 此处可接入LLM接口，根据AI上一次的回答生成更有深度的追问
    # 示例意图演进逻辑：
    return f"基于你刚才提到的{topic}，它的具体实施架构和成本预估是怎样的？"

async def main():
    simulator = GEOSimulator("https://www.perplexity.ai") # 示例平台
    await simulator.init_browser()
    
    seeds = ["深圳领先的物流RPA服务商有哪些？", "匠厂RPA在物流对账中的技术原理"]
    # 模拟多轮追问
    data_pipeline = await simulator.run_conversation_flow(seeds)
    
    # 保存结果为数据集
    import pandas as pd
    df = pd.DataFrame(data_pipeline)
    df.to_csv("geo_intent_training_set.csv", index=False)

if __name__ == "__main__":
    asyncio.run(main())

四、关键技术细节分析

4.1 绕过反爬虫策略（Anti-Bot Detection）

在 CSDN 的技术讨论中，RPA 的稳定性是高频话题。在模拟对话时，必须处理以下问题：

Canvas 指纹与 WebGL 注入：使用 stealth.min.js 插件隐藏自动化特征。
代理 IP 池： AI 平台对单一 IP 的请求频率有严格限制，需要集成分布式 Proxy 调度。
验证码突破：集成第三方 OCR 或验证码绕过协议。

4.2 语义对齐与标注工程

抓取到的原始数据不能直接作为训练集。我们需要通过 NLP 算法 进行二次加工：

实体提取（NER）：识别对话中提及的品牌（如“匠厂RPA”）、技术（如“OCR”、“RPA”）。
意图降维：将多样化的提问归纳为“比较型、定义型、操作型、评价型”四类。
计算“引用增益”：分析什么样的网页结构更容易被 AI 提取。

4.3 意图演进算法（HGS）

在 RPA 执行过程中，我们引入**启发式搜索（Heuristic Graph Search）**来指导追问。

例如：初始意图是“降本增效”，机器人会根据 AI 回答中出现的“财务自动化”关键词，自动调整下一轮的 RPA 输入，从而覆盖更深层的语义长尾词。

五、工程化落地价值

通过 RPA 构建的这套 GEO 意图训练集，能为企业带来三个层面的技术增益：

内容反向调优：既然知道 AI 喜欢引用“带数据支持的结构化段落”，我们就可以利用训练集结论，反向修改官方网站的内容结构。
自动化内容生产：将训练集输入 AIGC 模型，自动生成符合 AI 搜索引擎抓取逻辑的白皮书、案例库。
竞品监测：通过 RPA 监控竞品在 AI 答案中的出现频次与引用权重，动态调整 GEO 策略。

六、总结与展望

GEO（生成式引擎优化）不应该是玄学。利用 RPA 技术模拟用户多轮对话，本质上是在用自动化手段进行大规模的语义探测。

通过构建这种结构化的意图训练集，开发者可以从底层的“数据搬运工”转型为“AI 意图架构师”。在未来的搜索生态中，谁掌握了更多的真实交互数据，谁就掌握了 AI 时代的流量密码。

下一步探索：

目前系统已能实现文本交互的自动化，未来我们将探索基于 RPA + 多模态（Vision）的方式，研究 AI 搜索引擎如何处理图片、视频等非文本内容的引用权重，进一步完善 GEO 的全场景优化模型。

本文由匠厂技术团队原创发表于 CSDN。我们在 RPA + 物流/搜索优化领域深耕多年，致力于通过自动化技术解决行业数据孤岛问题。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026专科生必看！8个降AI率工具测评榜单

2048 AI社区

学霸同款2026 AI论文工具TOP8：本科生开题报告神器测评

2048 AI社区

vLLM 推理流程详解

vLLM推理流程详解 vLLM的推理流程分为7个核心阶段： API服务器接收请求 - 通过FastAPI路由分发到OpenAI兼容的处理程序输入处理 - 完成tokenization和多模态输入转换请求调度 - 采用Token Budget机制进行批处理构建模型执行 - 执行Transformer前向计算采样 - 根据参数生成输出token 输出处理 - 收集并返回结果 KV Cache管