CrewAI智能体开发:Oxylabs 抓取工具
Oxylabs Scrapers 允许轻松访问来自相应来源的信息。
·
Oxylabs Scrapers 允许轻松访问来自相应来源的信息。请参阅下面可用的来源列表:
亚马逊产品亚马逊搜索谷歌搜索通用
安装通过此处创建 Oxylabs 账户获取凭证。
pip install 'crewai[tools]' oxylabs
查看Oxylabs 文档以获取更多关于 API 参数的信息。
OxylabsAmazonProductScraperTool
示例
from crewai_tools import OxylabsAmazonProductScraperTool
# make sure OXYLABS_USERNAME and OXYLABS_PASSWORD variables are set
tool = OxylabsAmazonProductScraperTool()
result = tool.run(query="AAAAABBBBCC")
print(result)
参数
query- 10位 ASIN 代码。domain- 亚马逊的域名本地化。geo_location- “配送至”的位置。user_agent_type- 设备类型和浏览器。render- 当设置为html时启用 JavaScript 渲染。callback_url- 您的回调端点 URL。context- 针对特殊需求的额外高级设置和控制。parse- 当设置为 true 时返回解析后的数据。parsing_instructions- 定义您自己的解析和数据转换逻辑,该逻辑将在 HTML 抓取结果上执行。
高级示例
from crewai_tools import OxylabsAmazonProductScraperTool
# make sure OXYLABS_USERNAME and OXYLABS_PASSWORD variables are set
tool = OxylabsAmazonProductScraperTool(
config={
"domain": "com",
"parse": True,
"context": [
{
"key": "autoselect_variant",
"value": True
}
]
}
)
result = tool.run(query="AAAAABBBBCC")
print(result)
OxylabsAmazonSearchScraperTool
示例
from crewai_tools import OxylabsAmazonSearchScraperTool
# make sure OXYLABS_USERNAME and OXYLABS_PASSWORD variables are set
tool = OxylabsAmazonSearchScraperTool()
result = tool.run(query="headsets")
print(result)
参数
query- 亚马逊搜索词。domain- Bestbuy 的域名本地化。start_page- 起始页码。pages- 要检索的页数。geo_location- “配送至”的位置。user_agent_type- 设备类型和浏览器。render- 当设置为html时启用 JavaScript 渲染。callback_url- 您的回调端点 URL。context- 针对特殊需求的额外高级设置和控制。parse- 当设置为 true 时返回解析后的数据。parsing_instructions- 定义您自己的解析和数据转换逻辑,该逻辑将在 HTML 抓取结果上执行。
高级示例
from crewai_tools import OxylabsAmazonSearchScraperTool
# make sure OXYLABS_USERNAME and OXYLABS_PASSWORD variables are set
tool = OxylabsAmazonSearchScraperTool(
config={
"domain": 'nl',
"start_page": 2,
"pages": 2,
"parse": True,
"context": [
{'key': 'category_id', 'value': 16391693031}
],
}
)
result = tool.run(query='nirvana tshirt')
print(result)
OxylabsGoogleSearchScraperTool
示例
from crewai_tools import OxylabsGoogleSearchScraperTool
# make sure OXYLABS_USERNAME and OXYLABS_PASSWORD variables are set
tool = OxylabsGoogleSearchScraperTool()
result = tool.run(query="iPhone 16")
print(result)
参数
query- 搜索关键词。domain- 谷歌的域名本地化。start_page- 起始页码。pages- 要检索的页数。limit- 每页要检索的结果数量。locale-Accept-Language头部值,用于更改您的谷歌搜索页面网页界面语言。geo_location- 结果应适配的地理位置。正确使用此参数对于获取正确数据至关重要。user_agent_type- 设备类型和浏览器。render- 当设置为html时启用 JavaScript 渲染。callback_url- 您的回调端点 URL。context- 针对特殊需求的额外高级设置和控制。parse- 当设置为 true 时返回解析后的数据。parsing_instructions- 定义您自己的解析和数据转换逻辑,该逻辑将在 HTML 抓取结果上执行。
高级示例
from crewai_tools import OxylabsGoogleSearchScraperTool
# make sure OXYLABS_USERNAME and OXYLABS_PASSWORD variables are set
tool = OxylabsGoogleSearchScraperTool(
config={
"parse": True,
"geo_location": "Paris, France",
"user_agent_type": "tablet",
}
)
result = tool.run(query="iPhone 16")
print(result)
OxylabsUniversalScraperTool
示例
from crewai_tools import OxylabsUniversalScraperTool
# make sure OXYLABS_USERNAME and OXYLABS_PASSWORD variables are set
tool = OxylabsUniversalScraperTool()
result = tool.run(url="https://ip.oxylabs.io")
print(result)
参数
url- 要抓取的网站 URL。user_agent_type- 设备类型和浏览器。geo_location- 设置代理的地理位置以检索数据。render- 当设置为html时启用 JavaScript 渲染。callback_url- 您的回调端点 URL。context- 针对特殊需求的额外高级设置和控制。parse- 当设置为true时返回解析后的数据,只要提交的 URL 页面类型存在专用解析器。parsing_instructions- 定义您自己的解析和数据转换逻辑,该逻辑将在 HTML 抓取结果上执行。
高级示例
from crewai_tools import OxylabsUniversalScraperTool
# make sure OXYLABS_USERNAME and OXYLABS_PASSWORD variables are set
tool = OxylabsUniversalScraperTool(
config={
"render": "html",
"user_agent_type": "mobile",
"context": [
{"key": "force_headers", "value": True},
{"key": "force_cookies", "value": True},
{
"key": "headers",
"value": {
"Custom-Header-Name": "custom header content",
},
},
{
"key": "cookies",
"value": [
{"key": "NID", "value": "1234567890"},
{"key": "1P JAR", "value": "0987654321"},
],
},
{"key": "http_method", "value": "get"},
{"key": "follow_redirects", "value": True},
{"key": "successful_status_codes", "value": [808, 909]},
],
}
)
result = tool.run(url="https://ip.oxylabs.io")
print(result)
《DeepSeek高效数据分析:从数据清洗到行业案例》聚焦DeepSeek在数据分析领域的高效应用,是系统讲解其从数据处理到可视化全流程的实用指南。作者结合多年职场实战经验,不仅深入拆解DeepSeek数据分析的核心功能——涵盖数据采集、清洗、预处理、探索分析、建模(回归、聚类、时间序列等)及模型评估,更通过金融量化数据分析、电商平台数据分析等真实行业案例,搭配报告撰写技巧,提供独到见解与落地建议。助力职场人在激烈竞争中凭借先进技能突破瓶颈,实现职业进阶,开启发展新篇。

更多推荐


所有评论(0)