CrewAI智能体开发:Spider 抓取工具
SpiderTool 旨在利用 Spider 提取并读取指定网站的内容。
·
描述
Spider 是最快的开源爬虫和抓取工具,可返回 LLM 可用的数据。它将任何网站转换为纯 HTML、Markdown、元数据或文本,同时通过 AI 支持自定义操作进行爬取。
安装要使用 SpiderTool,您需要下载 Spider SDK 和 crewai[tools] SDK。
pip install spider-client 'crewai[tools]'
示例此示例展示了如何使用 SpiderTool 来使您的代理能够抓取和爬取网站。从 Spider API 返回的数据已经是 LLM 可用的,因此无需进行任何清理。
from crewai_tools import SpiderTool
def main():
spider_tool = SpiderTool()
searcher = Agent(
role="Web Research Expert",
goal="Find related information from specific URL's",
backstory="An expert web researcher that uses the web extremely well",
tools=[spider_tool],
verbose=True,
)
return_metadata = Task(
description="Scrape https://spider.cloud with a limit of 1 and enable metadata",
expected_output="Metadata and 10 word summary of spider.cloud",
agent=searcher
)
crew = Crew(
agents=[searcher],
tasks=[
return_metadata,
],
verbose=2
)
crew.kickoff()
if __name__ == "__main__":
main()
参数
| 参数 | 类型 | 描述 |
|---|---|---|
| api_key | 字符串 |
指定 Spider API 密钥。如果未指定,它将在环境变量中查找 SPIDER_API_KEY。 |
| 参数 | 对象 |
请求的可选参数。默认为 {"return_format": "markdown"} 以优化 LLM 内容。 |
| 请求 | 字符串 |
要执行的请求类型(http、chrome、smart)。smart 默认为 HTTP,如果需要则切换到 JavaScript 渲染。 |
| 限制 | int |
每个网站爬取的最大页面数。设置为 0 或省略表示无限制。 |
| 深度 | int |
最大爬取深度。设置为 0 表示无限制。 |
| cache | bool |
启用 HTTP 缓存以加快重复运行速度。默认为 true。 |
| 预算 | 对象 |
设置爬取页面的基于路径的限制,例如 {"*":1} 表示仅根页面。 |
| 区域设置 | 字符串 |
请求的区域设置,例如 en-US。 |
| Cookies | 字符串 |
请求的 HTTP cookie。 |
| 隐身 | bool |
为 Chrome 请求启用隐身模式以避免检测。默认为 true。 |
| Headers | 对象 |
所有请求的 HTTP 标头(键值对映射)。 |
| 元数据 | bool |
存储页面和内容的元数据,有助于 AI 互操作性。默认为 false。 |
| 视口 | 对象 |
设置 Chrome 视口尺寸。默认为 800x600。 |
| 编码 | 字符串 |
指定编码类型,例如 UTF-8、SHIFT_JIS。 |
| 子域名 | bool |
在爬取中包含子域名。默认为 false。 |
| 用户代理 | 字符串 |
自定义 HTTP 用户代理。默认为随机代理。 |
| 存储数据 | bool |
启用请求的数据存储。设置时会覆盖 storageless。默认为 false。 |
| GPT 配置 | 对象 |
允许 AI 生成爬取操作,通过数组为 "prompt" 提供可选的链式步骤。 |
| 指纹 | bool |
为 Chrome 启用高级指纹识别。 |
| 无存储 | bool |
阻止所有数据存储,包括 AI 嵌入。默认为 false。 |
| 可读性 | bool |
通过 Mozilla 的可读性预处理内容以供阅读。改进 LLM 的内容。 |
| 返回格式 | 字符串 |
返回数据的格式:markdown、raw、text、html2text。使用 raw 获取默认页面格式。 |
| 代理已启用 | bool |
启用高性能代理以避免网络级阻塞。 |
| 查询选择器 | 字符串 |
用于从标记中提取内容的 CSS 查询选择器。 |
| 完整资源 | bool |
下载与网站链接的所有资源。 |
| 请求超时 | int |
请求的超时时间(秒)(5-60)。默认为 30。 |
| 后台运行 | bool |
在后台运行请求,适用于数据存储和触发仪表板爬取。如果设置了 storageless 则无效。 |
《DeepSeek高效数据分析:从数据清洗到行业案例》聚焦DeepSeek在数据分析领域的高效应用,是系统讲解其从数据处理到可视化全流程的实用指南。作者结合多年职场实战经验,不仅深入拆解DeepSeek数据分析的核心功能——涵盖数据采集、清洗、预处理、探索分析、建模(回归、聚类、时间序列等)及模型评估,更通过金融量化数据分析、电商平台数据分析等真实行业案例,搭配报告撰写技巧,提供独到见解与落地建议。助力职场人在激烈竞争中凭借先进技能突破瓶颈,实现职业进阶,开启发展新篇。

更多推荐



所有评论(0)