Python爬虫实战：搭建企业级漏洞数据采集系统，实现CVE数据的增量爬取、智能分类、威胁评估、实时预警与可视化分析，支持多数据源融合（NVD、CVE Details），最终输出结构化威胁情报报告！

我长期专注 Python 爬虫工程化实战，主理专栏 👉 《Python爬虫实战》：从采集策略到反爬对抗，从数据清洗到分布式调度，持续输出可复用的方法论与可落地案例。内容主打一个“能跑、能用、能扩展”，让数据价值真正做到——抓得到、洗得净、用得上。

喵手

493人浏览 · 2026-02-02 08:46:40

喵手 · 2026-02-02 08:46:40 发布

㊙️本期内容已收录至专栏《Python爬虫实战》，持续完善知识体系与项目实战，建议先订阅收藏，后续查阅更方便～持续更新中！
㊗️爬虫难度指数：⭐⭐
🚫声明：本数据&代码仅供学习交流，严禁用于商业用途、倒卖数据或违反目标站点的服务条款等，一切后果皆由使用者本人承担。公开榜单数据一般允许访问，但请务必遵守“君子协议”，技术无罪，责任在人。

全文目录：

🌟 开篇语

哈喽，各位小伙伴们你们好呀～我是【喵手】。
运营社区： C站 / 掘金 / 腾讯云 / 阿里云 / 华为云 / 51CTO
欢迎大家常来逛逛，一起学习，一起进步～🌟

我长期专注 Python 爬虫工程化实战，主理专栏《Python爬虫实战》：从采集策略到反爬对抗，从数据清洗到分布式调度，持续输出可复用的方法论与可落地案例。内容主打一个“能跑、能用、能扩展”，让数据价值真正做到——抓得到、洗得净、用得上。

📌 专栏食用指南（建议收藏）

✅ 入门基础：环境搭建 / 请求与解析 / 数据落库
✅ 进阶提升：登录鉴权 / 动态渲染 / 反爬对抗
✅ 工程实战：异步并发 / 分布式调度 / 监控与容错
✅ 项目落地：数据治理 / 可视化分析 / 场景化应用

📣 专栏推广时间：如果你想系统学爬虫，而不是碎片化东拼西凑，欢迎订阅/关注专栏👉《Python爬虫实战》👈

💕订阅后更新会优先推送，按目录学习更高效💯～

1️⃣ 摘要

一句话概括：使用 Scrapy框架 + NVD REST API + Redis分布式队列构建企业级漏洞情报采集系统，实现CVE数据的增量爬取、智能分类、威胁评估、实时预警与可视化分析，支持多数据源融合（NVD、CVE Details、Exploit-DB），最终输出结构化威胁情报报告，用于企业安全运营与红蓝对抗演练。

读完你能获得掌握Scrapy框架的高级特性（中间件、Pipeline、分布式爬取）

学会NVD REST API的正确使用方法（避免限流、数据完整性）
理解分布式爬虫架构设计（Scrapy-Redis、任务调度）
获得一套生产级漏洞情报系统（支持10万+CVE数据）
掌握基于机器学习的漏洞威胁评估方法
实现漏洞数据的实时监控与自动化预警

2️⃣ 背景与需求

为什么需要企业级漏洞情报系统？

在前一篇文章中，我们实现了基于requests + BeautifulSoup的简单爬虫，适合小规模、一次性的数据采集。但在真实的企业安全运营场景中，我们面临更复杂的需求：

痛点1：数据量巨大

NVD数据库包含20万+CVE记录（且持续增长）
单线程爬取需要数十小时
API限流导致采集效率低下

痛点2：数据源分散

不同平台对同一CVE的描述可能不同
需要融合NVD、CNNVD、CVE Details等多源数据
缺乏统一的数据标准

痛点3：实时性要求

0day漏洞披露后需立即检测影响范围
每天新增CVE需要增量更新
高危漏洞需要实时预警

痛点4：智能化需求

人工判断漏洞优先级效率低
需要AI自动评估威胁等级
需要关联分析（哪些CVE会被组合利用）

本文的解决方案

我们将构建一个三层架构的漏洞情报系统：

┌─────────────────────────────────────────────────┐
│          【数据采集层】                          │
│  Scrapy爬虫 + NVD API + 多数据源适配器          │
│  - 分布式爬取（Scrapy-Redis）                   │
│  - 增量更新（检测点续爬）                        │
│  - 智能限流（动态调整速率）                      │
└─────────────────┬───────────────────────────────┘
                  │
                  ▼
┌─────────────────────────────────────────────────┐
│          【数据处理层】                          │
│  数据清洗 + 去重 + 标准化 + 智能分析             │
│  - NLP提取关键信息（受影响产品、攻击向量）       │
│  - 机器学习评估威胁等级                          │
│  - 关联分析（CVE链、攻击路径）                   │
└─────────────────┬───────────────────────────────┘
                  │
                  ▼
┌─────────────────────────────────────────────────┐
│          【数据应用层】                          │
│  数据库存储 + API服务 + 可视化大屏 + 预警系统    │
│  - MongoDB存储（支持复杂查询）                   │
│  - RESTful API（对接其他系统）                   │
│  - Grafana可视化（趋势分析）                     │
│  - 钉钉/邮件预警（高危通知）                     │
└─────────────────────────────────────────────────┘

技术选型对比

需求	requests方案	Scrapy方案	混合方案（本文）
学习成本	⭐ 低	⭐⭐⭐ 高	⭐⭐ 中
爬取速度	⭐⭐ 慢（单线程）	⭐⭐⭐⭐⭐ 快（异步）	⭐⭐⭐⭐ 很快
代码量	少（200行）	多（1000行+）	中（500行）
可扩展性	⭐⭐ 差	⭐⭐⭐⭐⭐ 优秀	⭐⭐⭐⭐ 好
分布式支持	❌ 不支持	✅ Scrapy-Redis	✅ 支持
适用场景	小规模、一次性	大规模、持续运营	企业级应用

3️⃣ 合规与注意事项

NVD API使用规范

官方API文档：https://nvd.nist.gov/developers/vulnerabilities

API限流政策（2024年最新）：

用户类型	频率限制	申请方式
未注册	5次/30秒（极慢）	无需注册
注册API Key	50次/30秒	官网申请（免费）
企业用户	可协商	联系NVD团队

如何申请API Key：

# 1. 访问官网
https://nvd.nist.gov/developers/request-an-api-key

# 2. 填写信息
- Email（必须）
- Organization（可选）
- Use Case（说明用途，如"Security Research"）

# 3. 收到邮件
- API Key：xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
- 有效期：永久（除非滥用）

API使用要求：

# 正确的请求方式
headers = {
    'apiKey': 'your-api-key-here',
    'User-Agent': 'YourApp/1.0 (Security Research)'
}

# 错误示范（会被拒绝）
headers = {
    'User-Agent': 'python-requests/2.31.0'  # 暴露爬虫身份
}

法律与道德边界

✅ 允许的行为：

使用官方API获取公开数据
学术研究与安全分析
企业内部安全运营
开源工具开发（需声明数据来源）

❌ 禁止的行为：

转售漏洞数据牟利
用于实施网络攻击
高频刷接口（超过限流标准）
移除数据来源标识

引用规范（示例）：

数据来源：National Vulnerability Database (NVD)
API版本：NVD REST API v2.0
访问日期：2024-01-30
许可协议：U.S. Government Work (Public Domain)

4️⃣ 技术选型与整体架构

Scrapy框架核心优势

1. 异步IO架构

# requests：同步阻塞（慢）
for url in urls:
    response = requests.get(url)  # 等待响应
    parse(response)

# Scrapy：异步非阻塞（快）
# 自动管理并发请求（默认16个）

2. 中间件系统

# 下载中间件：处理请求/响应
class RateLimitMiddleware:
    """智能限流中间件"""
    def process_request(self, request, spider):
        # 动态调整请求速度
        pass

# 爬虫中间件：处理Item
class DuplicatesPipeline:
    """去重Pipeline"""
    def process_item(self, item, spider):
        # 检测重复CVE
        pass

3. 内置功能

✅ 自动重试（网络失败）
✅ 深度优先/广度优先
✅ Cookie自动管理
✅ 日志系统
✅ 统计信息

系统架构设计

┌──────────────────────────────────────────────────────┐
│                   【调度中心】                        │
│            Scrapy Engine + Redis队列                 │
│  - 任务分发                                          │
│  - 进度追踪                                          │
│  - 负载均衡                                          │
└───────────┬──────────────────────────────────────────┘
            │
            ├─────────┬─────────┬─────────┐
            ▼         ▼         ▼         ▼
      ┌─────────┐┌─────────┐┌─────────┐
      │ Spider1 ││ Spider2 ││ Spider3 │  【爬虫集群】
      │ NVD API ││ CVE     ││ Exploit │
      │         ││ Details ││ DB      │
      └────┬────┘└────┬────┘└────┬────┘
           │          │          │
           └──────────┴──────────┘
                     │
                     ▼
            ┌─────────────────┐
            │  【数据Pipeline】 │
            │  - 数据清洗      │
            │  - 去重验证      │
            │  - 格式转换      │
            │  - 智能分析      │
            └────────┬─────────┘
                     │
         ┌───────────┼───────────┐
         ▼           ▼           ▼
    ┌────────┐  ┌────────┐  ┌────────┐
    │MongoDB │  │  Redis │  │  ES    │  【存储层】
    │ 主存储 │  │  缓存  │  │ 全文搜索│
    └────────┘  └────────┘  └────────┘
         │           │           │
         └───────────┴───────────┘
                     │
                     ▼
            ┌─────────────────┐
            │  【应用层】      │
            │  - RESTful API  │
            │  - Web Dashboard│
            │  - 预警系统      │
            └─────────────────┘

项目完整结构

nvd_intelligence_system/
│
├── scrapy.cfg                 # Scrapy配置文件
│
├── nvd_spider/                # Scrapy项目目录
│   ├── __init__.py
│   │
│   ├── spiders/               # 爬虫目录
│   │   ├── __init__.py
│   │   ├── nvd_api_spider.py      # NVD API爬虫
│   │   ├── cve_details_spider.py  # CVE Details爬虫
│   │   └── exploit_db_spider.py   # Exploit-DB爬虫
│   │
│   ├── items.py               # 数据模型定义
│   ├── pipelines.py           # 数据处理Pipeline
│   ├── middlewares.py         # 中间件
│   └── settings.py            # 配置文件
│
├── analysis/                  # 智能分析模块
│   ├── __init__.py
│   ├── threat_scorer.py       # 威胁评分
│   ├── nlp_extractor.py       # NLP信息提取
│   └── correlation.py         # 关联分析
│
├── storage/                   # 存储层
│   ├── __init__.py
│   ├── mongodb_client.py      # MongoDB操作
│   ├── redis_client.py        # Redis操作
│   └── elasticsearch_client.py # ES操作
│
├── api/                       # API服务
│   ├── __init__.py
│   ├── app.py                 # Flask应用
│   └── routes.py              # 路由定义
│
├── dashboard/                 # 可视化大屏
│   ├── static/
│   ├── templates/
│   └── app.py
│
├── alert/                     # 预警系统
│   ├── __init__.py
│   ├── rules.py               # 预警规则
│   └── notifiers.py           # 通知方式
│
├── config/                    # 配置文件
│   ├── __init__.py
│   ├── settings.yaml          # 全局配置
│   └── database.yaml          # 数据库配置
│
├── logs/                      # 日志目录
├── data/                      # 数据输出
├── tests/                     # 单元测试
│
├── requirements.txt           # 依赖清单
├── docker-compose.yml         # Docker编排
├── Dockerfile                 # Docker镜像
└── README.md                  # 使用文档

5️⃣ 环境准备与依赖安装

系统要求

开发环境：

Python：3.9+（推荐3.10）
操作系统：Linux/macOS（生产环境）或 Windows（开发测试）
内存：至少4GB（推荐8GB+）
磁盘：至少10GB空闲空间

生产环境：

数据库：MongoDB 5.0+、Redis 6.0+、Elasticsearch 8.0+
消息队列：RabbitMQ（可选，用于分布式）
监控：Grafana + Prometheus

核心依赖安装

# 1. 创建虚拟环境
python -m venv venv
source venv/bin/activate  # Linux/macOS
# venv\Scripts\activate   # Windows

# 2. 安装核心依赖
pip install scrapy==2.11.0
pip install scrapy-redis==0.7.3        # 分布式支持
pip install pymongo==4.6.0             .0.1               # Redis
pip install elasticsearch==8.11.0      # Elasticsearch

# 3. 数据处理依赖
pip install pandas==2.2.0
pip install numpy==1.26.3

# 4. NLP与机器学习
pip install scikit-learn==1.4.0
pip install nltk==3.8.1
pip install spacy==3.7.2

# 5. API与Web
pip install flask==3.0.0
pip install flask-restful==0.3.10
pip install flask-cors==4.0.0

# 6. 可视化
pip install plotly==5.18.0
pip install matplotlib==3.8.2

# 7. 工具库
pip install python
pip install pyyaml==6.0.1             # YAML配置
pip install tqdm==4.66.1              # 进度条
pip install loguru==0.7.2             # 日志

Docker一键部署（推荐）

# docker-compose.yml

version: '3.8'

services:
  # MongoDB数据库
  mongodb:
    image: mongo:7.0
    container_name: nvd_mongodb
    ports:
      - "27017:27017"
    environment:
      MONGO_INITDB_ROOT_USERNAME: admin
      MONGO_INITDB_ROOT_PASSWORD: password123
    volumes:
      - ./data/mongodb:/data/db
    restart: unless-stopped

  # Redis缓存
  redis:
    image: redis:7.2-alpine
    container_name: nvd_redis
    ports:
      - "6379:6379"
    command: redis-server --appendonly yes
    volumes:
      - ./data/redis:/data
    restart: unless-stopped

  # Elasticsearch全文搜索
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:8.11.0
    container_name: nvd_elasticsearch
    environment:
      - discovery.type=single-node
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
      - xpack.security.enabled=false
    ports:
      - "9200:9200"
    volumes:
      - ./data/elasticsearch:/usr/share/elasticsearch/data
    restart: unless-stopped

  # Scrapy爬虫
  spider:
    build: .
    container_name: nvd_spider
    depends_on:
      - mongodb
      - redis
    environment:
      - MONGODB_URI=mongodb://admin:password123@mongodb:27017
      - REDIS_URL=redis://redis:6379
    volumes:
      - ./:/app
      - ./logs:/app/logs
    command: scrapy crawl nvd_api
    restart: unless-stopped

  # API服务
  api:
    build: .
    container_name: nvd_api
    depends_on:
      - mongodb
      - redis
    ports:
      - "5000:5000"
    environment:
      - MONGODB_URI=mongodb://admin:password123@mongodb:27017
      - REDIS_URL=redis://redis:6379
    volumes:
      - ./:/app
    command: python api/app.py
    restart: unless-stopped

# 启动命令
# docker-compose up -d

由于继续完成核心代码实现部分…

6️⃣ 核心实现：Scrapy爬虫

数据模型定义

# nvd_spider/items.py

import scrapy
from scrapy import Field
from datetime import datetime

class CVEItem(scrapy.Item):
    """CVE数据模型"""
    
    # ===== 基本信息 =====
    cve_id = Field()                    # CVE编号（唯一键）
    description = Field()               # 漏洞描述
    
    # ===== 时间信息 =====
    published_date = Field()            # 发布日期
    last_modified_date = Field()        # 最后修改日期
    
    # ===== CVSS评分（v3.x） =====
    cvss_v3_version = Field()           # CVSS版本（3.0/3.1）
    cvss_v3_score = Field()             # 基础评分（0.0-10.0）
    cvss_v3_severity = Field()          # 严重性（CRITICAL/HIGH/MEDIUM/LOW）
    cvss_v3_vector = Field()            # 向量字符串
    cvss_v3_exploitability = Field()    # 可利用性分数
    cvss_v3_impact = Field()            # 影响分数
    
    # ===== CVSS评分（v2.0，旧版） =====
    cvss_v2_score = Field()
    cvss_v2_severity = Field()
    cvss_v2_vector = Field()
    
    # ===== 弱点分类 =====
    cwe_ids = Field()                   # CWE列表（如["CWE-79", "CWE-89"]）
    
    # ===== 受影响配置 =====
    configurations = Field()            # CPE配置列表
    affected_vendors = Field()          # 受影响厂商
    affected_products = Field()         # 受影响产品
    
    # ===== 参考链接 =====
    references = Field()                # 参考URL列表
    reference_count = Field()           # 参考链接数量
    
    # ===== 元数据 =====
    source = Field()                    # 数据来源（NVD/CVE Details等）
    crawl_time = Field()                # 爬取时间
    
    # ===== 扩展字段（自定义） =====
    threat_score = Field()              # 威胁评分（AI计算）
    exploit_available = Field()         # 是否有公开EXP
    patch_available = Field()           # 是否有补丁

NVD API爬虫实现

# nvd_spider/spiders/nvd_api_spider.py

import scrapy
import json
from datetime import datetime, timedelta
from urllib.parse import urlencode
from nvd_spider.items import CVEItem
import time

class NVDAPISpider(scrapy.Spider):
    """
    NVD REST API爬虫
    
    功能：
    - 使用官方API获取CVE数据
    - 支持增量更新（按日期范围）
    - 自动处理分页
    - 智能限流（遵守API配额）
    """
    
    name = 'nvd_api'
    allowed_domains = ['services.nvd.nist.gov']
    
    # API配置
    API_BASE_URL = 'https://services.nvd.nist.gov/rest/json/cves/2.0'
    API_KEY = 'YOUR_API_KEY_HERE'  # 替换为你的API Key
    
    # 爬取配置
    custom_settings = {
        'CONCURRENT_REQUESTS': 2,          # 并发请求数（API限制）
        'DOWNLOAD_DELAY': 0.6,             # 请求间隔（50次/30秒 ≈ 0.6秒/次）
        'RETRY_TIMES': 3,                   # 重试次数
        'RETRY_HTTP_CODES': [500, 502, 503, 504, 429],
        
        # Pipeline配置
        'ITEM_PIPELINES': {
            'nvd_spider.pipelines.DuplicatesPipeline': 100,
            'nvd_spider.pipelines.DataCleanPipeline': 200,
            'nvd_spider.pipelines.MongoDBPipeline': 300,
        },
        
        # 日志配置
        'LOG_LEVEL': 'INFO',
        'LOG_FILE': 'logs/nvd_api_spider.log',
    }
    
    def __init__(self, start_date=None, end_date=None, *args, **kwargs):
        """
        初始化爬虫
        
        参数：
            start_date: 开始日期（YYYY-MM-DD）
            end_date: 结束日期（YYYY-MM-DD）
        """
        super().__init__(*args, **kwargs)
        
        # 设置日期范围
        if end_date:
            self.end_date = datetime.strptime(end_date, '%Y-%m-%d')
        else:
            self.end_date = datetime.now()
        
        if start_date:
            self.start_date = datetime.strptime(start_date, '%Y-%m-%d')
        else:
            # 默认最近30天
            self.start_date = self.end_date - timedelta(days=30)
        
        self.logger.info(f"爬取日期范围：{self.start_date.date()} - {self.end_date.date()}")
        
        # 统计信息
        self.stats = {
            'total_requests': 0,
            'total_cves': 0,
            'failed_requests': 0
        }
    
    def start_requests(self):
        """生成初始请求"""
        # 构造API请求URL
        params = {
            'pubStartDate': self.start_date.strftime('%Y-%m-%dT00:00:00.000'),
            'pubEndDate': self.end_date.strftime('%Y-%m-%dT23:59:59.999'),
            'resultsPerPage': 2000,  # 每页最多2000条
            'startIndex': 0
        }
        
        url = f"{self.API_BASE_URL}?{urlencode(params)}"
        
        # 添加API Key到headers
        headers = {
            'apiKey': self.API_KEY,
            'User-Agent': 'NVD-Intelligence-System/1.0 (Security Research)'
        }
        
        yield scrapy.Request(
            url=url,
            headers=headers,
            callback=self.parse,
            errback=self.handle_error,
            meta={'start_index': 0}
        )
    
    def parse(self, response):
        """
        解析API响应
        
        API返回JSON格式：
        {
          "resultsPerPage": 2000,
          "startIndex": 0,
          "totalResults": 15234,
          "format": "NVD_CVE",
          "version": "2.0",
          "timestamp": "2024-01-30T10:00:00.000",
          "vulnerabilities": [...]
        }
        """
        try:
            data = json.loads(response.text)
        except json.JSONDecodeError:
            self.logger.error(f"JSON解析失败：{response.url}")
            self.stats['failed_requests'] += 1
            return
        
        # 提取总数和当前索引
        total_results = data.get('totalResults', 0)
        start_index = response.meta['start_index']
        results_per_page = data.get('resultsPerPage', 2000)
        
        self.logger.info(f"总CVE数：{total_results}，当前索引：{start_index}")
        
        # 解析每个CVE
        vulnerabilities = data.get('vulnerabilities', [])
        for vuln_data in vulnerabilities:
            cve_item = self.parse_cve(vuln_data)
            if cve_item:
                yield cve_item
                self.stats['total_cves'] += 1
        
        # 判断是否有下一页
        next_index = start_index + results_per_page
        if next_index < total_results:
            # 构造下一页请求
            params = {
                'pubStartDate': self.start_date.strftime('%Y-%m-%dT00:00:00.000'),
                'pubEndDate': self.end_date.strftime('%Y-%m-%dT23:59:59.999'),
                'resultsPerPage': results_per_page,
                'startIndex': next_index
            }
            
            url = f"{self.API_BASE_URL}?{urlencode(params)}"
            
            headers = {
                'apiKey': self.API_KEY,
                'User-Agent': 'NVD-Intelligence-System/1.0'
            }
            
            yield scrapy.Request(
                url=url,
                headers=headers,
                callback=self.parse,
                errback=self.handle_error,
                meta={'start_index': next_index}
            )
        else:
            self.logger.info("✅ 所有页面爬取完成")
    
    def parse_cve(self, vuln_data: dict) -> CVEItem:
        """
        解析单个CVE数据
        
        参数：
            vuln_data: API返回的单个漏洞数据
        
        返回：
            CVEItem对象
        """
        cve = vuln_data.get('cve', {})
        
        # 创建Item
        item = CVEItem()
        
        # ===== 1. 基本信息 =====
        item['cve_id'] = cve.get('id', '')
        item['source'] = 'NVD'
        item['crawl_time'] = datetime.now().isoformat()
        
        # ===== 2. 描述信息 =====
        descriptions = cve.get('descriptions', [])
        # 优先取英文描述
        for desc in descriptions:
            if desc.get('lang') == 'en':
                item['description'] = desc.get('value', '')
                break
        
        # ===== 3. 时间信息 =====
        item['published_date'] = cve.get('published', '')
        item['last_modified_date'] = cve.get('lastModified', '')
        
        # ===== 4. CVSS v3评分 =====
        metrics = cve.get('metrics', {})
        
        # CVSS v3.1（优先）或 v3.0
        cvss_v31 = metrics.get('cvssMetricV31', [])
        cvss_v30 = metrics.get('cvssMetricV30', [])
        cvss_v3_data = cvss_v31[0] if cvss_v31 else (cvss_v30[0] if cvss_v30 else None)
        
        if cvss_v3_data:
            cvss_data = cvss_v3_data.get('cvssData', {})
            item['cvss_v3_version'] = cvss_data.get('version', '')
            item['cvss_v3_score'] = cvss_data.get('baseScore', 0.0)
            item['cvss_v3_severity'] = cvss_data.get('baseSeverity', 'NONE')
            item['cvss_v3_vector'] = cvss_data.get('vectorString', '')
            item['cvss_v3_exploitability'] = cvss_v3_data.get('exploitabilityScore', 0.0)
            item['cvss_v3_impact'] = cvss_v3_data.get('impactScore', 0.0)
        
        # ===== 5. CVSS v2评分 =====
        cvss_v2 = metrics.get('cvssMetricV2', [])
        if cvss_v2:
            cvss_v2_data = cvss_v2[0].get('cvssData', {})
            item['cvss_v2_score'] = cvss_v2_data.get('baseScore', 0.0)
            item['cvss_v2_severity'] = cvss_v2[0].get('baseSeverity', 'NONE')
            item['cvss_v2_vector'] = cvss_v2_data.get('vectorString', '')
        
        # ===== 6. CWE弱点分类 =====
        weaknesses = cve.get('weaknesses', [])
        cwe_ids = []
        for weakness in weaknesses:
            for desc in weakness.get('description', []):
                value = desc.get('value', '')
                if value.startswith('CWE-'):
                    cwe_ids.append(value)
        item['cwe_ids'] = list(set(cwe_ids))  # 去重
        
        # ===== 7. 受影响配置 =====
        configurations = cve.get('configurations', [])
        item['configurations'] = self._parse_configurations(configurations)
        
        # ===== 8. 参考链接 =====
        references = cve.get('references', [])
        item['references'] = [ref.get('url', '') for ref in references]
        item['reference_count'] = len(references)
        
        return item
    
    def _parse_configurations(self, configurations: list) -> dict:
        """
        解析受影响配置（CPE）
        
        返回：
            {
              'vendors': ['apache', 'microsoft'],
              'products': ['struts', 'windows']
            }
        """
        vendors = set()
        products = set()
        
        for config in configurations:
            nodes = config.get('nodes', [])
            for node in nodes:
                cpe_matches = node.get('cpeMatch', [])
                for cpe in cpe_matches:
                    criteria = cpe.get('criteria', '')
                    # CPE格式：cpe:2.3:a:apache:struts:2.5.0:*:*:*:*:*:*:*
                    parts = criteria.split(':')
                    if len(parts) >= 5:
                        vendors.add(parts[3])  # 厂商
                        products.add(parts[4])  # 产品
        
        return {
            'vendors': list(vendors),
            'products': list(products)
        }
    
    def handle_error(self, failure):
        """处理请求失败"""
        self.logger.error(f"请求失败：{failure.request.url}")
        self.stats['failed_requests'] += 1
    
    def closed(self, reason):
        """爬虫关闭时的回调"""
        self.logger.info("=" * 70)
        self.logger.info("爬虫统计信息：")
        self.logger.info(f"  总CVE数：{self.stats['total_cves']}")
        self.logger.info(f"  失败请求：{self.stats['failed_requests']}")
        self.logger.info("=" * 70)

数据处理Pipeline

# nvd_spider/pipelines.py

from itemadapter import ItemAdapter
from pymongo import MongoClient
import redis
import hashlib
from datetime import datetime

class DuplicatesPipeline:
    """去重Pipeline（基于Redis）"""
    
    def __init__(self):
        self.redis_client = redis.Redis(
            host='localhost',
            port=6379,
            db=0,
            decode_responses=True
        )
        self.key_prefix = 'nvd:cve:'
    
    def process_item(self, item, spider):
        """检查CVE是否已存在"""
        cve_id = item.get('cve_id')
        
        # 生成唯一键
        key = f"{self.key_prefix}{cve_id}"
        
        # 检查Redis中是否存在
        if self.redis_client.exists(key):
            spider.logger.debug(f"重复CVE已跳过：{cve_id}")
            raise DropItem(f"Duplicate CVE: {cve_id}")
        
        # 标记为已处理（设置7天过期）
        self.redis_client.setex(key, 7 * 24 * 3600, '1')
        
        return item

class DataCleanPipeline:
    """数据清洗Pipeline"""
    
    def process_item(self, item, spider):
        """清洗数据"""
        adapter = ItemAdapter(item)
        
        # 1. 清理描述文本
        if adapter.get('description'):
            desc = adapter['description']
            # 移除多余空白
            desc = ' '.join(desc.split())
            # 移除特殊字符
            desc = desc.replace('\n', ' ').replace('\r', '')
            adapter['description'] = desc
        
        # 2. 标准化日期格式
        for date_field in ['published_date', 'last_modified_date']:
            if adapter.get(date_field):
                # 将ISO格式转为datetime对象
                try:
                    dt = datetime.fromisoformat(adapter[date_field].replace('Z', '+00:00'))
                    adapter[date_field] = dt
                except:
                    pass
        
        # 3. 确保列表字段不为None
        list_fields = ['cwe_ids', 'references', 'affected_vendors', 'affected_products']
        for field in list_fields:
            if adapter.get(field) is None:
                adapter[field] = []
        
        # 4. CVSS评分范围验证
        if adapter.get('cvss_v3_score'):
            score = float(adapter['cvss_v3_score'])
            if not (0 <= score <= 10):
                spider.logger.warning(f"异常CVSS评分：{score} ({item['cve_id']})")
                adapter['cvss_v3_score'] = 0.0
        
        return item

class MongoDBPipeline:
    """MongoDB存储Pipeline"""
    
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
        self.client = None
        self.db = None
    
    @classmethod
    def from_crawler(cls, crawler):
        """从settings读取配置"""
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI', 'mongodb://localhost:27017'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'nvd_intelligence')
        )
    
    def open_spider(self, spider):
        """爬虫开启时连接数据库"""
        self.client = MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
        
        # 创建索引
        self.db.cves.create_index('cve_id', unique=True)
        self.db.cves.create_index('published_date')
        self.db.cves.create_index('cvss_v3_severity')
        
        spider.logger.info("✅ MongoDB连接成功")
    
    def close_spider(self, spider):
        """爬虫关闭时断开连接"""
        self.client.close()
    
    def process_item(self, item, spider):
        """存储到MongoDB"""
        try:
            # 转为字典
            item_dict = ItemAdapter(item).asdict()
            
            # 使用upsert（存在则更新，不存在则插入）
            self.db.cves.update_one(
                {'cve_id': item_dict['cve_id']},
                {'$set': item_dict},
                upsert=True
            )
            
            spider.logger.debug(f"✅ 已存储：{item_dict['cve_id']}")
            
        except Exception as e:
            spider.logger.error(f"❌ 存储失败：{item['cve_id']} - {str(e)}")
        
        return item

7️⃣ 核心实现：智能分析模块

NLP信息提取器

# analysis/nlp_extractor.py

import re
from typing import Dict, List, Set
import spacy
from collections import Counter

class CVENLPExtractor:
    """
    基于NLP的CVE信息提取器
    
    功能：
    - 提取攻击向量（RCE、SQLi、XSS等）
    - 识别受影响组件
    - 提取关键技术关键词
    - 情感分析（描述的严重程度）
    """
    
    def __init__(self):
        """初始化NLP模型"""
        # 加载spaCy英文模型
        try:
            self.nlp = spacy.load("en_core_web_sm")
        except:
            print("⚠️  spaCy模型未安装，运行：python -m spacy download en_core_web_sm")
            self.nlp = None
        
        # 攻击类型关键词库
        self.attack_patterns = {
            'RCE': [
                'remote code execution', 'arbitrary code', 'command injection',
                'code injection', 'execute arbitrary', 'shell command'
            ],
            'SQLi': [
                'sql injection', 'database injection', 'malicious sql',
                'sql query', 'sqli'
            ],
            'XSS': [
                'cross-site scripting', 'xss', 'script injection',
                'malicious script', 'javascript injection'
            ],
            'CSRF': [
                'cross-site request forgery', 'csrf', 'forged request'
            ],
            'DoS': [
                'denial of service', 'dos', 'crash', 'resource exhaustion',
                'hang', 'infinite loop'
            ],
            'Path Traversal': [
                'directory traversal', 'path traversal', '../',
                'file inclusion', 'arbitrary file'
            ],
            'Authentication Bypass': [
                'authentication bypass', 'auth bypass', 'login bypass',
                'unauthorized access', 'privilege escalation'
            ],
            'Information Disclosure': [
                'information disclosure', 'sensitive information',
                'data leakage', 'memory leak', 'information leak'
            ]
        }
        
        # 严重性关键词（用于描述分析）
        self.severity_keywords = {
            'critical': ['critical', 'severe', 'dangerous', 'catastrophic'],
            'high': ['high', 'serious', 'significant', 'major'],
            'medium': ['moderate', 'medium'],
            'low': ['minor', 'low', 'negligible']
        }
    
    def extract_attack_types(self, description: str) -> List[str]:
        """
        提取攻击类型
        
        参数：
            description: CVE描述文本
        
        返回：
            攻击类型列表（如['RCE', 'SQLi']）
        """
        if not description:
            return []
        
        desc_lower = description.lower()
        detected_types = []
        
        for attack_type, patterns in self.attack_patterns.items():
            for pattern in patterns:
                if pattern in desc_lower:
                    detected_types.append(attack_type)
                    break  # 找到一个匹配即可
        
        return detected_types
    
    def extract_affected_components(self, description: str) -> Dict[str, List[str]]:
        """
        提取受影响的技术组件
        
        返回：
            {
              'products': ['Apache Struts', 'WordPress'],
              'versions': ['2.5.0', '5.8'],
              'technologies': ['PHP', 'Java']
            }
        """
        if not self.nlp or not description:
            return {'products': [], 'versions': [], 'technologies': []}
        
        doc = self.nlp(description)
        
        products = []
        versions = []
        technologies = set()
        
        # 1. 提取产品名（通过命名实体识别）
        for ent in doc.ents:
            if ent.label_ in ['PRODUCT', 'ORG']:
                products.append(ent.text)
        
        # 2. 提取版本号（正则匹配）
        # 匹配格式：1.2.3, v2.0, 3.x, before 4.5
        version_patterns = [
            r'\b\d+\.\d+(?:\.\d+)?(?:\.\d+)?\b',  # 1.2.3.4
            r'\bv?\d+\.x\b',                        # 3.x, v2.x
            r'before\s+\d+\.\d+',                   # before 4.5
            r'through\s+\d+\.\d+',                  # through 3.2
        ]
        
        for pattern in version_patterns:
            matches = re.findall(pattern, description, re.I)
            versions.extend(matches)
        
        # 3. 提取技术栈（关键词匹配）
        tech_keywords = {
            'Java', 'Python', 'PHP', 'Node.js', 'Ruby', 'Go', 'C++', 'C#',
            'JavaScript', 'TypeScript', 'React', 'Vue', 'Angular',
            'Spring', 'Django', 'Flask', 'Express', 'Laravel',
            'MySQL', 'PostgreSQL', 'MongoDB', 'Redis', 'Oracle',
            'Apache', 'Nginx', 'IIS', 'Tomcat',
            'Windows', 'Linux', 'macOS', 'Android', 'iOS'
        }
        
        for tech in tech_keywords:
            if tech.lower() in description.lower():
                technologies.add(tech)
        
        return {
            'products': list(set(products))[:10],  # 限制数量
            'versions': list(set(versions))[:10],
            'technologies': list(technologies)
        }
    
    def analyze_severity_from_text(self, description: str) -> str:
        """
        从描述文本分析严重性（辅助CVSS评分）
        
        返回：
            'CRITICAL' | 'HIGH' | 'MEDIUM' | 'LOW'
        """
        if not description:
            return 'UNKNOWN'
        
        desc_lower = description.lower()
        
        # 统计各级别关键词出现次数
        severity_scores = {
            'CRITICAL': 0,
            'HIGH': 0,
            'MEDIUM': 0,
            'LOW': 0
        }
        
        for severity, keywords in self.severity_keywords.items():
            for keyword in keywords:
                count = desc_lower.count(keyword)
                severity_scores[severity.upper()] += count
        
        # 额外加分（攻击类型）
        attack_types = self.extract_attack_types(description)
        if 'RCE' in attack_types:
            severity_scores['CRITICAL'] += 3
        elif 'SQLi' in attack_types or 'Authentication Bypass' in attack_types:
            severity_scores['HIGH'] += 2
        elif 'XSS' in attack_types:
            severity_scores['MEDIUM'] += 1
        
        # 返回得分最高的级别
        max_severity = max(severity_scores, key=severity_scores.get)
        
        # 如果所有得分都为0，返回UNKNOWN
        if severity_scores[max_severity] == 0:
            return 'UNKNOWN'
        
        return max_severity
    
    def extract_keywords(self, description: str, top_n: int = 10) -> List[str]:
        """
        提取关键词（用于搜索和分类）
        
        参数：
            description: 描述文本
            top_n: 返回前N个关键词
        
        返回：
            关键词列表
        """
        if not self.nlp or not description:
            return []
        
        doc = self.nlp(description)
        
        # 提取名词和动词
        keywords = []
        for token in doc:
            # 过滤条件：
            # - 词性为名词(NOUN)或动词(VERB)
            # - 不是停用词
            # - 长度>2
            if (token.pos_ in ['NOUN', 'VERB'] and 
                not token.is_stop and 
                len(token.text) > 2):
                keywords.append(token.lemma_.lower())
        
        # 统计词频
        keyword_counts = Counter(keywords)
        
        # 返回前N个高频词
        return [word for word, count in keyword_counts.most_common(top_n)]

# 使用示例
if __name__ == '__main__':
    extractor = CVENLPExtractor()
    
    # 测试描述
    desc = """
    Apache Struts 2.5.0 through 2.5.25 allows remote code execution 
    via OGNL injection when the Content-Type header is malformed. 
    This is a critical vulnerability that could allow attackers to 
    execute arbitrary code on the server.
    """
    
    print("攻击类型:", extractor.extract_attack_types(desc))
    print("受影响组件:", extractor.extract_affected_components(desc))
    print("严重性分析:", extractor.analyze_severity_from_text(desc))
    print("关键词:", extractor.extract_keywords(desc))

机器学习威胁评分器

# analysis/threat_scorer.py

import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import joblib
import os

class ThreatScorer:
    """
    基于机器学习的威胁评分器
    
    功能：
    - 综合CVSS、CWE、攻击类型等特征
    - 预测漏洞的真实威胁等级
    - 输出0-100的威胁分数
    """
    
    def __init__(self, model_path: str = 'models/threat_scorer.pkl'):
        """初始化评分器"""
        self.model_path = model_path
        self.model = None
        self.label_encoder = LabelEncoder()
        
        # 特征权重（可调整）
        self.feature_weights = {
            'cvss_score': 0.35,          # CVSS评分（基础）
            'exploit_available': 0.25,    # 是否有公开EXP
            'attack_complexity': 0.15,    # 攻击复杂度
            'affected_products': 0.10,    # 受影响产品数量
            'public_interest': 0.10,      # 公众关注度（参考链接数）
            'disclosure_date': 0.05       # 披露时间（越新越危险）
        }
        
        # 加载模型（如果存在）
        if os.path.exists(model_path):
            self.load_model()
    
    def extract_features(self, cve_data: dict) -> np.ndarray:
        """
        从CVE数据提取特征向量
        
        参数：
            cve_data: CVE字典数据
        
        返回：
            特征向量（numpy数组）
        """
        features = []
        
        # 1. CVSS v3评分（归一化到0-1）
        cvss_score = float(cve_data.get('cvss_v3_score', 0.0))
        features.append(cvss_score / 10.0)
        
        # 2. 是否有公开利用代码（1或0）
        exploit = 1.0 if cve_data.get('exploit_available', False) else 0.0
        features.append(exploit)
        
        # 3. 攻击复杂度（从CVSS向量提取）
        vector = cve_data.get('cvss_v3_vector', '')
        attack_complexity = self._parse_attack_complexity(vector)
        features.append(attack_complexity)
        
        # 4. 受影响产品数量（对数归一化）
        affected_count = len(cve_data.get('affected_products', []))
        features.append(np.log1p(affected_count) / 5.0)  # log1p(x) = log(1+x)
        
        # 5. 公众关注度（参考链接数）
        ref_count = int(cve_data.get('reference_count', 0))
        features.append(min(ref_count / 20.0, 1.0))  # 20个以上视为高关注
        
        # 6. 披露时间（越新越高分）
        days_since_publish = self._calc_days_since_publish(
            cve_data.get('published_date', '')
        )
        # 30天内=1.0，90天后=0.0
        time_score = max(1.0 - days_since_publish / 90.0, 0.0)
        features.append(time_score)
        
        # 7. CWE类型（高危CWE加分）
        cwe_score = self._calc_cwe_score(cve_data.get('cwe_ids', []))
        features.append(cwe_score)
        
        # 8. 攻击类型（RCE最高分）
        attack_types = cve_data.get('attack_types', [])
        attack_score = self._calc_attack_type_score(attack_types)
        features.append(attack_score)
        
        return np.array(features)
    
    def _parse_attack_complexity(self, vector_string: str) -> float:
        """
        解析CVSS向量中的攻击复杂度
        
        CVSS:3.1/AV:N/AC:L/... 
        AC:L（低）= 1.0
        AC:H（高）= 0.3
        """
        if 'AC:L' in vector_string:
            return 1.0  # 低复杂度=高威胁
        elif 'AC:H' in vector_string:
            return 0.3  # 高复杂度=低威胁
        else:
            return 0.5  # 默认中等
    
    def _calc_days_since_publish(self, publish_date) -> int:
        """计算距离发布日期的天数"""
        from datetime import datetime
        
        try:
            if isinstance(publish_date, str):
                pub_dt = datetime.fromisoformat(publish_date.replace('Z', '+00:00'))
            else:
                pub_dt = publish_date
            
            days = (datetime.now() - pub_dt).days
            return max(days, 0)
        except:
            return 365  # 解析失败默认1年前
    
    def _calc_cwe_score(self, cwe_ids: list) -> float:
        """
        计算CWE危险分数
        
        高危CWE（权重1.0）：
        - CWE-78: OS命令注入
        - CWE-89: SQL注入
        - CWE-79: XSS
        - CWE-502: 反序列化
        """
        high_risk_cwes = {
            'CWE-78': 1.0,   # OS命令注入
            'CWE-89': 0.9,   # SQL注入
            'CWE-79': 0.7,   # XSS
            'CWE-502': 1.0,  # 反序列化
            'CWE-434': 0.9,  # 文件上传
            'CWE-287': 0.8,  # 认证绕过
        }
        
        max_score = 0.0
        for cwe_id in cwe_ids:
            score = high_risk_cwes.get(cwe_id, 0.3)  # 默认0.3
            max_score = max(max_score, score)
        
        return max_score
    
    def _calc_attack_type_score(self, attack_types: list) -> float:
        """计算攻击类型分数"""
        type_scores = {
            'RCE': 1.0,
            'SQLi': 0.8,
            'Authentication Bypass': 0.9,
            'XSS': 0.5,
            'CSRF': 0.4,
            'DoS': 0.3
        }
        
        max_score = 0.0
        for attack_type in attack_types:
            score = type_scores.get(attack_type, 0.2)
            max_score = max(max_score, score)
        
        return max_score
    
    def calculate_threat_score(self, cve_data: dict) -> float:
        """
        计算最终威胁分数（0-100）
        
        参数：
            cve_data: CVE字典数据
        
        返回：
            威胁分数（0-100）
        """
        # 提取特征
        features = self.extract_features(cve_data)
        
        # 加权求和
        weighted_score = 0.0
        feature_names = [
            'cvss_score', 'exploit_available', 'attack_complexity',
            'affected_products', 'public_interest', 'disclosure_date',
            'cwe_score', 'attack_type_score'
        ]
        
        for i, (name, weight) in enumerate(self.feature_weights.items()):
            if i < len(features):
                weighted_score += features[i] * weight
        
        # 转换为0-100分
        threat_score = weighted_score * 100
        
        # 限制范围
        threat_score = max(0, min(100, threat_score))
        
        return round(threat_score, 2)
    
    def get_threat_level(self, threat_score: float) -> str:
        """
        根据分数返回威胁等级
        
        返回：
            'CRITICAL' | 'HIGH' | 'MEDIUM' | 'LOW'
        """
        if threat_score >= 80:
            return 'CRITICAL'
        elif threat_score >= 60:
            return 'HIGH'
        elif threat_score >= 40:
            return 'MEDIUM'
        else:
            return 'LOW'
    
    def train_model(self, training_data: list):
        """
        训练机器学习模型（可选）
        
        参数：
            training_data: 训练数据列表
                [
                  {'cve_data': {...}, 'actual_threat': 'HIGH'},
                  ...
                ]
        """
        # 提取特征和标签
        X = []
        y = []
        
        for item in training_data:
            features = self.extract_features(item['cve_data'])
            X.append(features)
            y.append(item['actual_threat'])
        
        X = np.array(X)
        y = self.label_encoder.fit_transform(y)
        
        # 训练随机森林
        self.model = RandomForestClassifier(
            n_estimators=100,
            max_depth=10,
            random_state=42
        )
        self.model.fit(X, y)
        
        # 保存模型
        self.save_model()
    
    def save_model(self):
        """保存模型到文件"""
        os.makedirs(os.path.dirname(self.model_path), exist_ok=True)
        joblib.dump({
            'model': self.model,
            'encoder': self.label_encoder
        }, self.model_path)
    
    def load_model(self):
        """从文件加载模型"""
        data = joblib.load(self.model_path)
        self.model = data['model']
        self.label_encoder = data['encoder']

# 使用示例
if __name__ == '__main__':
    scorer = ThreatScorer()
    
    # 测试CVE数据
    cve_data = {
        'cve_id': 'CVE-2024-1234',
        'cvss_v3_score': 9.8,
        'cvss_v3_vector': 'CVSS:3.1/AV:N/AC:L/PR:N/UI:N/S:U/C:H/I:H/A:H',
        'exploit_available': True,
        'affected_products': ['Apache Struts', 'Spring Framework'],
        'reference_count': 15,
        'published_date': '2024-01-15',
        'cwe_ids': ['CWE-502'],
        'attack_types': ['RCE']
    }
    
    score = scorer.calculate_threat_score(cve_data)
    level = scorer.get_threat_level(score)
    
    print(f"威胁分数：{score}/100")
    print(f"威胁等级：{level}")

8️⃣ 数据存储与查询

MongoDB操作封装

# storage/mongodb_client.py

from pymongo import MongoClient, ASCENDING, DESCENDING
from datetime import datetime
from typing import List, Dict, Optional
import logging

class NVDMongoClient:
    """MongoDB客户端封装"""
    
    def __init__(self, uri: str = 'mongodb://localhost:27017', db_name: str = 'nvd_intelligence'):
        """初始化MongoDB连接"""
        self.client = MongoClient(uri)
        self.db = self.client[db_name]
        
        # 集合
        self.cves = self.db.cves
        self.analytics = self.db.analytics
        self.alerts = self.db.alerts
        
        # 创建索引
        self._create_indexes()
        
        self.logger = logging.getLogger(__name__)
    
    def _create_indexes(self):
        """创建索引（提升查询性能）"""
        # CVE集合索引
        self.cves.create_index('cve_id', unique=True)
        self.cves.create_index('published_date')
        self.cves.create_index('cvss_v3_score')
        self.cves.create_index('cvss_v3_severity')
        self.cves.create_index([('description', 'text')])  # 全文搜索
        
        # 复合索引（常用查询组合）
        self.cves.create_index([
            ('cvss_v3_severity', ASCENDING),
            ('published_date', DESCENDING)
        ])
    
    def insert_cve(self, cve_data: dict) -> bool:
        """插入或更新CVE"""
        try:
            self.cves.update_one(
                {'cve_id': cve_data['cve_id']},
                {'$set': cve_data},
                upsert=True
            )
            return True
        except Exception as e:
            self.logger.error(f"插入失败：{str(e)}")
            return False
    
    def query_by_severity(self, severity: str, limit: int = 100) -> List[Dict]:
        """按严重性查询"""
        return list(self.cves.find(
            {'cvss_v3_severity': severity}
        ).sort('cvss_v3_score', DESCENDING).limit(limit))
    
    def query_by_date_range(self, start_date: str, end_date: str) -> List[Dict]:
        """按日期范围查询"""
        return list(self.cves.find({
            'published_date': {
                '$gte': start_date,
                '$lte': end_date
            }
        }).sort('published_date', DESCENDING))
    
    def full_text_search(self, keyword: str, limit: int = 50) -> List[Dict]:
        """全文搜索"""
        return list(self.cves.find(
            {'$text': {'$search': keyword}}
        ).limit(limit))
    
    def get_statistics(self) -> Dict:
        """获取统计信息"""
        total = self.cves.count_documents({})
        
        severity_stats = list(self.cves.aggregate([
            {'$group': {
                '_id': '$cvss_v3_severity',
                'count': {'$sum': 1},
                'avg_score': {'$avg': '$cvss_v3_score'}
            }}
        ]))
        
        return {
            'total_cves': total,
            'severity_distribution': severity_stats,
            'last_update': datetime.now().isoformat()
        }

9️⃣ API服务与可视化

Flask REST API

# api/app.py

from flask import Flask, jsonify, request
from flask_cors import CORS
from storage.mongodb_client import NVDMongoClient

app = Flask(__name__)
CORS(app)

db = NVDMongoClient()

@app.route('/api/cves', methods=['GET'])
def get_cves():
    """获取CVE列表"""
    severity = request.args.get('severity')
    limit = int(request.args.get('limit', 100))
    
    if severity:
        cves = db.query_by_severity(severity, limit)
    else:
        cves = db.query_latest(limit)
    
    return jsonify({'cves': cves, 'count': len(cves)})

@app.route('/api/search', methods=['GET'])
def search():
    """搜索CVE"""
    keyword = request.args.get('q', '')
    results = db.full_text_search(keyword)
    return jsonify({'results': results})

@app.route('/api/stats', methods=['GET'])
def get_stats():
    """获取统计数据"""
    stats = db.get_statistics()
    return jsonify(stats)

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000, debug=True)

🔟 常见问题与排错

API限流问题

# 错误：429 Too Many Requests
# 解决：检查API Key配置，降低并发数
CONCURRENT_REQUESTS = 1
DOWNLOAD_DELAY = 1.2  # 增加延时

1️⃣1️⃣ 进阶优化

Scrapy-Redis分布式

# settings.py

# 启用Scrapy-Redis
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_URL = 'redis://localhost:6379'