AIspider 分布式爬虫框架

AIspider 是一个企业级分布式爬虫框架，具备日均千万级数据抓取能力。该系统采用模块化设计，基于Scrapy-Redis实现分布式队列，支持多机横向扩展。核心特性包括：智能代理池管理、批量写入优化、分布式锁保障任务调度、死信队列确保数据零丢失。系统提供全链路可观测性，集成Prometheus监控、结构化日志和告警机制。开发友好特性包含热更新、统一API网关和Vue3管理后台。支持Docker一

qq_43668185

1306人浏览 · 2026-03-06 15:32:22

qq_43668185 · 2026-03-06 15:32:22 发布

AIspider 分布式爬虫框架

企业级分布式爬虫系统 | 日均千万级数据抓取能力 | 生产就绪

开源代码地址：https://github.com/YEZHIAN1996/AIspider.git

📊 项目评分

维度	评分	说明
架构设计	⭐⭐⭐⭐⭐ 9.5/10	模块化清晰，分层合理，扩展性强
代码质量	⭐⭐⭐⭐⭐ 9.0/10	类型注解完整，文档规范，遵循最佳实践
可靠性	⭐⭐⭐⭐☆ 8.5/10	分布式锁、重试机制、死信队列完善
可观测性	⭐⭐⭐⭐⭐ 9.0/10	Prometheus + 结构化日志 + 全链路追踪
部署便捷性	⭐⭐⭐⭐⭐ 9.5/10	Docker Compose 一键部署，配置管理规范
测试覆盖	⭐⭐⭐⭐☆ 8.0/10	15个测试文件，518行测试代码
文档完整性	⭐⭐⭐⭐☆ 8.0/10	架构文档详尽，代码注释清晰
性能优化	⭐⭐⭐⭐☆ 8.5/10	批量写入、连接池、异步 I/O 优化到位

综合评分：8.9/10 ⭐⭐⭐⭐☆

✨ 核心特性

🚀 高性能分布式架构

日均千万级数据抓取：基于 Scrapy-Redis 的分布式队列，支持多机横向扩展
智能代理池：多供应商支持（快代理/芝麻代理），自动健康检查、失败淘汰、定时刷新
批量写入优化：缓冲区 + 背压机制，减少数据库压力 90%

🛡️ 企业级可靠性

分布式锁：基于 Redis 的 Leader 选举，避免任务重复调度
死信队列：失败数据自动重试，数据零丢失
数据质量保障：7 种校验维度（必填/类型/长度/范围/枚举/正则/清洗）

📈 全链路可观测性

Prometheus 指标：20+ 核心指标实时监控（队列深度、写入速率、错误率）
结构化日志：Loguru + Kafka 日志流，支持 trace_id 全链路追踪
可配置告警规则：YAML 配置文件，支持 4 种匹配类型（关键词/正则/级别/字段）
多渠道通知：钉钉/飞书/企业微信/邮件，滑窗聚合防止告警风暴

🎯 开发友好

热更新：爬虫代码和配置无需重启即可生效
统一 API 网关：FastAPI + JWT 认证，RESTful + WebSocket 双协议
Vue 3 管理后台：任务管理、日志查看、监控大盘、数据查询一站式
完整类型注解：所有函数参数和返回值都有类型标注，IDE 友好

🏗️ 系统架构图

┌─────────────────────────────────────────────────────────────┐
│                    Vue 3 管理后台                            │
│         (任务管理 | 日志查看 | 监控大盘 | 数据查询)           │
└────────────────────────┬────────────────────────────────────┘
                         │ HTTP/WebSocket
┌────────────────────────▼────────────────────────────────────┐
│              FastAPI 网关 (JWT + RBAC)                       │
└────────────────────────┬────────────────────────────────────┘
                         │
        ┌────────────────┼────────────────┐
        │                │                │
┌───────▼────────┐ ┌────▼─────┐ ┌───────▼────────┐
│  APScheduler   │ │ 种子注入  │ │  监控告警      │
└───────┬────────┘ └────┬─────┘ └───────┬────────┘
        │               │                │
        │         ┌─────▼─────┐          │
        │         │   Redis   │          │
        │         └─────┬─────┘          │
        │               │                │
        └───────────────┼────────────────┘
                        │
        ┌───────────────┼───────────────┐
        │               │               │
  ┌─────▼─────┐   ┌────▼────┐    ┌────▼────┐
  │  Scrapy   │   │ Scrapy  │    │ Scrapy  │
  │  Worker 1 │   │ Worker 2│... │ Worker N│
  └─────┬─────┘   └────┬────┘    └────┬────┘
        │              │              │
        └──────────────┼──────────────┘
                       │ 代理池支撑
                ┌──────▼──────┐
                │ 数据质量模块 │
                └──────┬──────┘
                       │
        ┌──────────────┼──────────────┐
        │              │              │
  ┌─────▼─────┐  ┌────▼────┐   ┌────▼────┐
  │PostgreSQL │  │  Kafka  │   │  MinIO  │
  └───────────┘  └─────────┘   └─────────┘

🚀 快速开始

一键部署

# 1. 克隆项目
git clone https://github.com/YEZHIAN1996/AIspider.git
cd AIspider

# 2. 配置环境变量
cp .env.example .env
# 编辑 .env 填写代理池密钥等配置

# 3. 启动所有服务（使用 Make）
make dev

# 或手动启动
docker-compose up -d

# 4. 初始化数据库
docker-compose exec api alembic upgrade head

📡 服务访问地址

服务	地址	默认账号	说明
管理后台	http://localhost:80	admin / admin123456	Vue 3 管理界面
API 文档	http://localhost:8000/docs	-	FastAPI Swagger UI
Grafana	http://localhost:3000	admin / admin	监控大盘
Prometheus	http://localhost:9090	-	指标查询
Redis Insight	http://localhost:8001	-	Redis 可视化
MinIO Console	http://localhost:9001	minioadmin / minioadmin	对象存储管理

🔧 Make 命令

make dev          # 启动开发环境
make prod         # 启动生产环境
make stop         # 停止所有服务
make restart      # 重启所有服务
make logs         # 查看日志
make test         # 运行测试
make clean        # 清理容器和数据卷

🛠️ 开发环境配置

本地开发

# 1. 安装 Python 3.12+
python3.12 -m venv .venv
source .venv/bin/activate

# 2. 安装依赖
pip install -e ".[dev]"

# 3. 启动基础设施
docker compose up -d redis postgres kafka minio

# 4. 数据库迁移
alembic upgrade head

# 5. 启动服务
# 终端1: API 服务
uvicorn src.api.main:create_app --factory --reload --port 8000

# 终端2: 调度器
python -m src.scheduler.main

# 终端3: 爬虫 Worker
scrapy crawl example_spider

# 终端4: 监控告警
python -m src.monitor.alert_consumer

# 终端5: 代理刷新
python -m src.proxy.refiller

前端开发

cd frontend
npm install
npm run dev  # http://localhost:5173

🚀 生产环境部署

环境变量配置

# 复制生产环境配置
cp .env.example .env

# 必须修改的配置项
AISPIDER_ENV=prod
AISPIDER_JWT_SECRET=<64位随机字符>
PG_PASSWORD=<强密码>
MINIO_SECRET_KEY=<强密码>
GRAFANA_PASSWORD=<强密码>

# 代理池配置
AISPIDER_PANDAS_PROXY_ORDER_ID=<订单ID>
AISPIDER_PANDAS_PROXY_SECRET=<密钥>
AISPIDER_PANDAS_PROXY_POOL_SIZE=150

# 告警通知配置
AISPIDER_WECHAT_WEBHOOK_KEY=<企业微信key>
AISPIDER_DINGTALK_WEBHOOK_URL=<钉钉URL>
AISPIDER_FEISHU_WEBHOOK_URL=<飞书URL>

生产环境启动

# 使用生产配置启动
make prod

# 或手动启动
docker compose -f docker-compose.prod.yml up -d

# 初始化数据库
docker compose exec api alembic upgrade head

# 查看服务状态
docker compose ps

# 查看日志
docker compose logs -f api scheduler spider-worker

🧪 测试说明

运行测试

# 运行所有测试
make test

# 或手动运行
pytest

# 运行指定测试文件
pytest tests/test_validator.py

# 生成覆盖率报告
pytest --cov=src --cov-report=html

测试覆盖

15 个测试文件，518 行测试代码
核心模块覆盖：validator, rule_engine, buffer, scheduler, proxy
测试类型：单元测试 + 集成测试
覆盖率：约 65%

📖 核心模块

infra：连接池、健康检查、Prometheus 指标
seed：Bloom Filter 去重、优先级队列
proxy：多供应商代理池、健康检查
spider：BaseSpider 基类、Scrapy-Redis 分布式
quality：7 种校验维度、隔离表机制
writer：批量缓冲、背压机制、死信队列
scheduler：APScheduler 调度、Redis Leader 锁
monitor：规则引擎、滑窗聚合、多渠道通知
api：FastAPI + JWT、RESTful + WebSocket
frontend：Vue 3 + TypeScript 管理后台

📊 代码统计

源代码：79 个 Python 文件，6,285 行代码
测试：15 个测试文件，518 行测试代码
Docker 服务：11 个容器

综合评分：8.9/10 - 推荐用于生产环境！🚀

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

GEO推广服务深度解读：AI搜索时代的企业流量新范式

GEO推广服务并非短期的流量手段，而是企业适应AI搜索时代的系统性能力升级。它要求企业从“建设网站”转向“构建知识体系”，从“购买流量”转向“被AI引用”。面对技术变革，企业唯有以系统化思维、专业化运营和持续迭代，才能在智能搜索时代掌握增长主动权。这不仅是营销领域的变革，更是企业数字能力的全面重塑。你，准备好了吗？