CrewAI智能体开发：Spider 抓取工具

SpiderTool 旨在利用 Spider 提取并读取指定网站的内容。

王国平

376人浏览 · 2026-01-01 09:16:53

王国平 · 2026-01-01 09:16:53 发布

描述

Spider 是最快的开源爬虫和抓取工具，可返回 LLM 可用的数据。它将任何网站转换为纯 HTML、Markdown、元数据或文本，同时通过 AI 支持自定义操作进行爬取。

安装要使用 SpiderTool，您需要下载 Spider SDK 和 crewai[tools] SDK。

pip install spider-client 'crewai[tools]'

示例此示例展示了如何使用 SpiderTool 来使您的代理能够抓取和爬取网站。从 Spider API 返回的数据已经是 LLM 可用的，因此无需进行任何清理。

from crewai_tools import SpiderTool

def main():
    spider_tool = SpiderTool()

    searcher = Agent(
        role="Web Research Expert",
        goal="Find related information from specific URL's",
        backstory="An expert web researcher that uses the web extremely well",
        tools=[spider_tool],
        verbose=True,
    )

    return_metadata = Task(
        description="Scrape https://spider.cloud with a limit of 1 and enable metadata",
        expected_output="Metadata and 10 word summary of spider.cloud",
        agent=searcher
    )

    crew = Crew(
        agents=[searcher],
        tasks=[
            return_metadata,
        ],
        verbose=2
    )

    crew.kickoff()

if __name__ == "__main__":
    main()

参数

参数	类型	描述
api_key	`字符串`	指定 Spider API 密钥。如果未指定，它将在环境变量中查找 `SPIDER_API_KEY`。
参数	`对象`	请求的可选参数。默认为 `{"return_format": "markdown"}` 以优化 LLM 内容。
请求	`字符串`	要执行的请求类型（`http`、`chrome`、`smart`）。`smart` 默认为 HTTP，如果需要则切换到 JavaScript 渲染。
限制	`int`	每个网站爬取的最大页面数。设置为 `0` 或省略表示无限制。
深度	`int`	最大爬取深度。设置为 `0` 表示无限制。
cache	`bool`	启用 HTTP 缓存以加快重复运行速度。默认为 `true`。
预算	`对象`	设置爬取页面的基于路径的限制，例如 `{"*":1}` 表示仅根页面。
区域设置	`字符串`	请求的区域设置，例如 `en-US`。
Cookies	`字符串`	请求的 HTTP cookie。
隐身	`bool`	为 Chrome 请求启用隐身模式以避免检测。默认为 `true`。
Headers	`对象`	所有请求的 HTTP 标头（键值对映射）。
元数据	`bool`	存储页面和内容的元数据，有助于 AI 互操作性。默认为 `false`。
视口	`对象`	设置 Chrome 视口尺寸。默认为 `800x600`。
编码	`字符串`	指定编码类型，例如 `UTF-8`、`SHIFT_JIS`。
子域名	`bool`	在爬取中包含子域名。默认为 `false`。
用户代理	`字符串`	自定义 HTTP 用户代理。默认为随机代理。
存储数据	`bool`	启用请求的数据存储。设置时会覆盖 `storageless`。默认为 `false`。
GPT 配置	`对象`	允许 AI 生成爬取操作，通过数组为 `"prompt"` 提供可选的链式步骤。
指纹	`bool`	为 Chrome 启用高级指纹识别。
无存储	`bool`	阻止所有数据存储，包括 AI 嵌入。默认为 `false`。
可读性	`bool`	通过 Mozilla 的可读性预处理内容以供阅读。改进 LLM 的内容。
返回格式	`字符串`	返回数据的格式：`markdown`、`raw`、`text`、`html2text`。使用 `raw` 获取默认页面格式。
代理已启用	`bool`	启用高性能代理以避免网络级阻塞。
查询选择器	`字符串`	用于从标记中提取内容的 CSS 查询选择器。
完整资源	`bool`	下载与网站链接的所有资源。
请求超时	`int`	请求的超时时间（秒）（5-60）。默认为 `30`。
后台运行	`bool`	在后台运行请求，适用于数据存储和触发仪表板爬取。如果设置了 `storageless` 则无效。

《DeepSeek高效数据分析：从数据清洗到行业案例》聚焦DeepSeek在数据分析领域的高效应用，是系统讲解其从数据处理到可视化全流程的实用指南。作者结合多年职场实战经验，不仅深入拆解DeepSeek数据分析的核心功能——涵盖数据采集、清洗、预处理、探索分析、建模（回归、聚类、时间序列等）及模型评估，更通过金融量化数据分析、电商平台数据分析等真实行业案例，搭配报告撰写技巧，提供独到见解与落地建议。助力职场人在激烈竞争中凭借先进技能突破瓶颈，实现职业进阶，开启发展新篇。