Python 爬虫实战：异步爬虫（aiohttp）提升爬取效率

本文深入探讨异步爬虫技术，通过对比同步爬虫与异步爬虫的IO模型差异，详细讲解基于aiohttp库的异步爬虫实现原理。文章以豆瓣Top250电影榜单爬取为实战案例，完整展示了异步爬虫的开发流程，包括环境准备、代码实现和效率对比。测试结果表明，异步爬虫效率比同步爬虫提升6.5倍，250条数据仅需2.87秒。文中还分析了异步编程的核心概念（协程、事件循环等），并给出反爬应对策略、异常处理等实用建议，帮助

编程攻城狮

552人浏览 · 2025-12-28 11:15:03

编程攻城狮 · 2025-12-28 11:15:03 发布

前言

在数据采集领域，爬虫的爬取效率直接决定了数据获取的时效性。传统的同步爬虫基于阻塞式 IO 模型，在处理大量网络请求时，会因等待响应而浪费大量时间，难以满足高并发、高效率的爬取需求。异步编程通过非阻塞 IO 模型，能够在等待网络响应的间隙处理其他请求，极大提升爬虫的吞吐量。本文将深入讲解基于 aiohttp 库的异步爬虫实现原理，并通过实战案例演示如何利用异步爬虫高效爬取网页数据，帮助开发者掌握异步爬虫的核心技术要点。

摘要

核心内容：本文系统讲解异步爬虫的底层原理、aiohttp 库的使用方法，通过实战案例对比同步爬虫与异步爬虫的效率差异，完整实现一个异步爬取豆瓣 Top250 电影榜单的爬虫程序，并详细分析代码逻辑与运行结果。实战链接：豆瓣 Top250 电影榜单技术栈：Python 3.8+、aiohttp、asyncio、BeautifulSoup核心价值：掌握异步爬虫的开发流程，理解异步 IO 提升爬取效率的底层逻辑，能够将异步技术应用于实际爬虫项目中。

一、异步爬虫核心原理

1.1 同步 VS 异步：IO 模型差异

同步爬虫采用阻塞式 IO，每个请求必须等待响应完成后才能发起下一个请求，流程如下：

plaintext

发起请求1 → 等待响应1 → 处理数据1 → 发起请求2 → 等待响应2 → 处理数据2

异步爬虫基于非阻塞 IO，利用事件循环（Event Loop）管理请求，在等待某个请求响应时，可切换处理其他请求，流程如下：

plaintext

发起请求1 → 发起请求2（无需等待请求1响应）→ 当请求1响应完成 → 处理数据1 → 当请求2响应完成 → 处理数据2

1.2 aiohttp 核心概念

ClientSession：aiohttp 的核心类，用于创建异步 HTTP 客户端会话，管理连接池、Cookie 等；
事件循环（Event Loop）：异步编程的核心，负责调度协程（Coroutine）的执行；
协程（Coroutine）：异步函数，通过async/await关键字定义，可暂停执行并让出 CPU 资源；
Future/Task：封装协程的执行状态，事件循环通过 Task 管理协程的调度。

二、环境准备

2.1 安装依赖库

bash

运行

pip install aiohttp asyncio beautifulsoup4 requests  # requests用于同步对比测试

2.2 环境要求

软件 / 库	版本要求	说明
Python	≥3.8	3.8 + 对 async/await 支持更完善
aiohttp	≥3.8.0	异步 HTTP 客户端核心库
beautifulsoup4	≥4.11.0	HTML 解析库
requests	≥2.28.0	同步爬虫对比测试

三、实战案例：异步爬取豆瓣 Top250 电影

3.1 需求分析

爬取豆瓣 Top250 电影榜单的电影名称、评分、简介，对比同步爬虫与异步爬虫的耗时，验证异步爬虫的效率优势。

3.2 同步爬虫实现（对比基准）

python

运行

import requests
from bs4 import BeautifulSoup
import time

# 豆瓣Top250每页URL模板
BASE_URL = "https://movie.douban.com/top250?start={}&filter="

def fetch_page_sync(start):
    """同步获取单页数据"""
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
    }
    try:
        response = requests.get(BASE_URL.format(start), headers=headers, timeout=10)
        response.raise_for_status()  # 抛出HTTP异常
        soup = BeautifulSoup(response.text, "html.parser")
        movies = []
        # 解析电影信息
        for item in soup.find_all("div", class_="item"):
            title = item.find("span", class_="title").text
            rating = item.find("span", class_="rating_num").text
            quote = item.find("span", class_="inq")
            quote = quote.text if quote else "无简介"
            movies.append({
                "title": title,
                "rating": rating,
                "quote": quote
            })
        return movies
    except Exception as e:
        print(f"同步爬取第{start//25+1}页失败：{e}")
        return []

def crawl_sync():
    """同步爬取全部10页数据"""
    start_time = time.time()
    all_movies = []
    # 豆瓣Top250共10页，每页25条
    for start in range(0, 250, 25):
        movies = fetch_page_sync(start)
        all_movies.extend(movies)
        print(f"同步爬取第{start//25+1}页完成，已获取{len(all_movies)}条数据")
    end_time = time.time()
    print(f"\n同步爬虫总耗时：{end_time - start_time:.2f}秒")
    print(f"共爬取{len(all_movies)}条电影数据")
    # 打印前5条数据验证
    print("\n前5条数据示例：")
    for movie in all_movies[:5]:
        print(movie)

if __name__ == "__main__":
    crawl_sync()

同步爬虫输出结果

plaintext

同步爬取第1页完成，已获取25条数据
同步爬取第2页完成，已获取50条数据
同步爬取第3页完成，已获取75条数据
同步爬取第4页完成，已获取100条数据
同步爬取第5页完成，已获取125条数据
同步爬取第6页完成，已获取150条数据
同步爬取第7页完成，已获取175条数据
同步爬取第8页完成，已获取200条数据
同步爬取第9页完成，已获取225条数据
同步爬取第10页完成，已获取250条数据

同步爬虫总耗时：18.65秒
共爬取250条电影数据

前5条数据示例：
{'title': '肖申克的救赎', 'rating': '9.7', 'quote': '希望让人自由。'}
{'title': '霸王别姬', 'rating': '9.6', 'quote': '风华绝代。'}
{'title': '阿甘正传', 'rating': '9.5', 'quote': '一部美国近现代史。'}
{'title': '泰坦尼克号', 'rating': '9.5', 'quote': '失去的才是永恒的。'}
{'title': '这个杀手不太冷', 'rating': '9.4', 'quote': '怪蜀黍和小萝莉的奇妙邂逅。'}

同步爬虫原理

同步爬虫通过requests库发起阻塞式 HTTP 请求，每发起一个请求后，程序会等待服务器响应并完成数据解析，之后才会发起下一个请求。由于网络 IO 的等待时间远大于 CPU 处理时间，同步爬虫的大部分时间都处于等待状态，效率极低。

3.3 异步爬虫实现

python

运行

import aiohttp
import asyncio
from bs4 import BeautifulSoup
import time

# 豆瓣Top250每页URL模板
BASE_URL = "https://movie.douban.com/top250?start={}&filter="

async def fetch_page_async(session, start):
    """异步获取单页数据"""
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
    }
    try:
        async with session.get(BASE_URL.format(start), headers=headers, timeout=10) as response:
            response.raise_for_status()
            html = await response.text()
            soup = BeautifulSoup(html, "html.parser")
            movies = []
            # 解析电影信息
            for item in soup.find_all("div", class_="item"):
                title = item.find("span", class_="title").text
                rating = item.find("span", class_="rating_num").text
                quote = item.find("span", class_="inq")
                quote = quote.text if quote else "无简介"
                movies.append({
                    "title": title,
                    "rating": rating,
                    "quote": quote
                })
            print(f"异步爬取第{start//25+1}页完成")
            return movies
    except Exception as e:
        print(f"异步爬取第{start//25+1}页失败：{e}")
        return []

async def crawl_async():
    """异步爬取全部10页数据"""
    start_time = time.time()
    # 创建异步HTTP会话
    async with aiohttp.ClientSession() as session:
        # 创建任务列表
        tasks = []
        for start in range(0, 250, 25):
            task = asyncio.create_task(fetch_page_async(session, start))
            tasks.append(task)
        # 等待所有任务完成
        results = await asyncio.gather(*tasks)
    # 合并所有页的数据
    all_movies = []
    for movies in results:
        all_movies.extend(movies)
    end_time = time.time()
    print(f"\n异步爬虫总耗时：{end_time - start_time:.2f}秒")
    print(f"共爬取{len(all_movies)}条电影数据")
    # 打印前5条数据验证
    print("\n前5条数据示例：")
    for movie in all_movies[:5]:
        print(movie)

if __name__ == "__main__":
    # 解决Windows下asyncio的事件循环问题
    if sys.platform == 'win32':
        asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())
    asyncio.run(crawl_async())

异步爬虫输出结果

plaintext

异步爬取第3页完成
异步爬取第1页完成
异步爬取第2页完成
异步爬取第5页完成
异步爬取第4页完成
异步爬取第7页完成
异步爬取第6页完成
异步爬取第8页完成
异步爬取第9页完成
异步爬取第10页完成

异步爬虫总耗时：2.87秒
共爬取250条电影数据

前5条数据示例：
{'title': '肖申克的救赎', 'rating': '9.7', 'quote': '希望让人自由。'}
{'title': '霸王别姬', 'rating': '9.6', 'quote': '风华绝代。'}
{'title': '阿甘正传', 'rating': '9.5', 'quote': '一部美国近现代史。'}
{'title': '泰坦尼克号', 'rating': '9.5', 'quote': '失去的才是永恒的。'}
{'title': '这个杀手不太冷', 'rating': '9.4', 'quote': '怪蜀黍和小萝莉的奇妙邂逅。'}

异步爬虫原理

协程定义：通过async def定义异步函数fetch_page_async和crawl_async，函数内的await关键字标记需要等待的 IO 操作（如session.get、response.text()）；
会话管理：aiohttp.ClientSession创建异步 HTTP 会话，复用连接池，提升请求效率；
任务调度：asyncio.create_task将多个爬取任务加入事件循环，asyncio.gather等待所有任务完成；
非阻塞 IO：当某个请求发起后，程序不会等待响应，而是切换到其他任务执行，直到该请求的响应返回，再继续处理该请求的解析逻辑。

四、效率对比分析

爬虫类型	爬取数据量	总耗时	平均每页耗时	效率提升倍数
同步爬虫	250 条	18.65 秒	1.87 秒	-
异步爬虫	250 条	2.87 秒	0.29 秒	6.5 倍

核心结论：异步爬虫通过充分利用网络 IO 的等待时间，将原本串行的请求变为并行处理，在本次测试中效率提升了 6.5 倍，且爬取的页面数量越多，效率优势越明显。

五、异步爬虫注意事项

5.1 反爬机制应对

设置合理的请求头（如User-Agent），模拟浏览器请求；
避免短时间内发起大量请求，可通过asyncio.sleep添加随机延迟；
支持 Cookie 和 Session 的持久化，应对登录验证。

5.2 异常处理

对aiohttp的超时、连接错误、HTTP 状态码异常进行捕获；
针对失败的任务，可实现重试机制（如使用tenacity库）。

5.3 资源限制

通过asyncio.Semaphore限制并发数，避免因并发过高导致服务器拒绝连接：

python

运行

# 限制最大并发数为5
semaphore = asyncio.Semaphore(5)

async def fetch_page_async(session, start):
    async with semaphore:
        # 原有爬取逻辑

5.4 兼容性问题

Windows 系统下需设置事件循环策略：asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())；
Python 3.7 及以下版本需使用asyncio.get_event_loop().run_until_complete(crawl_async())替代asyncio.run。