Python反爬实战：滑块/点选/图文验证码 AI全自动识别，从模型选型到落地全流程

工具/库核心作用版本/环境要求实战价值核心开发、逻辑整合串联图像预处理、模型推理、浏览器模拟全流程图像预处理（降噪/定位）处理验证码图像，提升模型识别准确率OCR识别/目标检测paddleocr2.4.2适配中文场景，预训练模型开箱即用，识别率高Playwright浏览器模拟、行为执行模拟真实滑动/点击行为，规避自动化检测图像数值计算、特征提取numpy0.21.0辅助图像预处理，提升缺口/目标定

shanwei_spider

424人浏览 · 2026-02-14 07:26:14

shanwei_spider · 2026-02-14 07:26:14 发布

验证码是网站反爬的“最后一道核心关卡”——相比于签名加密、JS混淆，验证码直接阻断自动化请求，且防护形式从早期的图文字符，升级到滑块、点选、甚至视频验证码，传统的手动识别、简单图像匹配早已失效。而基于AI的全自动识别方案，能从“图像理解+行为模拟”双维度破解验证码，成为Python反爬中攻克验证码壁垒的终极解法。

本文全程基于真实生产场景，不讲空洞的AI理论，聚焦“落地实战”：从验证码反爬逻辑拆解、AI模型选型，到图文/滑块/点选三类验证码的全自动识别代码实现，再到反检测优化、识别率提升，手把手教你用Python搭建一套可复用的验证码AI识别体系。不同于网上碎片化的教程，本文还会补充模型微调、轨迹反作弊等进阶内容，让你的识别方案不仅能“识别成功”，还能“稳定不被拦截”。

一、验证码反爬核心壁垒拆解

想要用AI破解验证码，首先要精准拆解不同类型验证码的防护逻辑和识别难点——这是选择AI方案、优化识别策略的基础：

1.1 图文验证码（基础壁垒）

最早期但仍广泛使用的验证码类型，核心防护逻辑是“字符扭曲+背景干扰”，识别难点：

字符变形：字体倾斜、拉伸、粘连，甚至加入随机噪点、线条；
背景干扰：复杂纹理、渐变背景、干扰色块，掩盖字符轮廓；
字符集多样：数字、字母、中文混合，部分还要求区分大小写。
典型困境：Tesseract等传统OCR识别率不足50%，无法满足批量采集需求。

1.2 滑块验证码（核心壁垒）

目前主流的反爬验证码，核心防护逻辑是“轨迹验证+缺口识别”，识别难点：

缺口定位：滑块缺口与背景融合度高，简单图像匹配易定位偏差；
轨迹反作弊：网站会检测滑块轨迹（匀速/无加速度/步数异常），即使缺口定位正确，轨迹异常仍会验证失败；
环境检测：结合浏览器指纹、自动化标识（如webdriver），识别爬虫环境。
典型困境：能定位缺口但滑动被拦截，或偶尔成功、批量采集时频繁失败。

1.3 点选验证码（进阶壁垒）

防护强度更高的验证码类型，核心防护逻辑是“目标理解+顺序验证”，识别难点：

目标定位：点选元素（文字/物体）被干扰元素包围，需精准识别目标区域；
语义理解：需解析验证码提示（如“按顺序点击猫、狗、鸟”），而非单纯定位；
点击精度：点选位置偏差超过像素级，验证直接失败。
典型困境：能识别目标但点击顺序错误，或定位精度不足导致验证失败。

二、实战技术栈选型（为什么是这些工具）

AI识别验证码的核心是“图像理解+行为模拟”，以下技术栈经过生产验证，兼顾识别效率和稳定性：

工具/库	核心作用	版本/环境要求	实战价值
Python 3.9+	核心开发、逻辑整合	Python 3.9+（Windows/Linux）	串联图像预处理、模型推理、浏览器模拟全流程
OpenCV-Python	图像预处理（降噪/定位）	opencv-python==4.8.1.78	处理验证码图像，提升模型识别准确率
PaddleOCR/PaddleHub	OCR识别/目标检测	paddleocr2.7.0 paddlehub2.4.2	适配中文场景，预训练模型开箱即用，识别率高
Playwright	浏览器模拟、行为执行	playwright==1.40.0	模拟真实滑动/点击行为，规避自动化检测
numpy/scikit-image	图像数值计算、特征提取	numpy1.25.2 scikit-image0.21.0	辅助图像预处理，提升缺口/目标定位精度
PyTorch	自定义模型微调	torch==2.0.1	针对复杂验证码微调模型，提升识别率

选型核心逻辑

放弃Tesseract，选择PaddleOCR：PaddleOCR对中文、扭曲字符的适配性远超传统OCR，且支持轻量化部署；
放弃Selenium，选择Playwright：Playwright能更好地隐藏自动化标识，模拟的滑动/点击行为更接近真人；
图像预处理优先用OpenCV：OpenCV的降噪、边缘检测、模板匹配功能，是验证码识别的“基础前置步骤”，能大幅降低模型识别难度。

三、环境搭建：从依赖安装到模型配置

环境搭建是实战的基础，以下是标准化配置流程，避免新手踩坑：

3.1 基础依赖安装

# 核心依赖
pip install opencv-python==4.8.1.78 paddleocr==2.7.0 paddlehub==2.4.2
pip install playwright==1.40.0 numpy==1.25.2 scikit-image==0.21.0 torch==2.0.1

# 安装Playwright浏览器驱动
playwright install chromium

3.2 PaddleOCR模型配置

PaddleOCR会自动下载预训练模型，若下载缓慢，可手动下载后放到指定路径：

下载轻量版中文OCR模型：https://github.com/PaddlePaddle/PaddleOCR/releases
解压到~/.paddleocr/whl/目录（Windows为C:\Users\用户名\.paddleocr\whl\）；
验证：运行python -c "from paddleocr import PaddleOCR; ocr = PaddleOCR(use_angle_cls=True); print('PaddleOCR配置成功')"无报错。

3.3 关键验证

运行playwright codegen https://www.example.com能正常打开浏览器，PaddleOCR初始化无报错——环境搭建完成。

四、实战核心：三类验证码AI全自动识别

4.1 实战1：图文验证码 AI识别（基础）

以某网站的数字+字母混合图文验证码为例，完整实现“图像预处理→AI识别→结果输出”全流程。

4.1.1 核心思路

图像预处理：降噪、二值化、裁剪，去除背景干扰，突出字符轮廓；
PaddleOCR推理：加载预训练模型，识别处理后的验证码图像；
结果后处理：去除冗余字符，输出纯净的验证码结果。

4.1.2 完整实战代码

# -*- coding: utf-8 -*-
import cv2
import numpy as np
from paddleocr import PaddleOCR
from PIL import Image
import io
import requests

# 初始化PaddleOCR（轻量版，关闭GPU加速适配普通机器）
ocr = PaddleOCR(
    use_angle_cls=True,  # 开启角度分类，适配倾斜字符
    lang="ch",  # 支持中文，也可设为"en"仅识别英文数字
    use_gpu=False,
    det_db_thresh=0.5,  # 检测阈值，提升识别精度
    rec_img_h=32,  # 识别图像高度，适配验证码尺寸
)

def preprocess_image(image):
    """
    验证码图像预处理：降噪、二值化、膨胀，提升OCR识别率
    :param image: OpenCV格式图像
    :return: 处理后的图像
    """
    # 1. 转为灰度图
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    
    # 2. 高斯降噪（去除随机噪点）
    blur = cv2.GaussianBlur(gray, (3, 3), 0)
    
    # 3. 二值化（突出字符）
    _, thresh = cv2.threshold(blur, 127, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
    
    # 4. 膨胀操作（连接粘连字符）
    kernel = np.ones((2, 2), np.uint8)
    dilate = cv2.dilate(thresh, kernel, iterations=1)
    
    return dilate

def recognize_captcha_image(image_path_or_url):
    """
    图文验证码识别主函数
    :param image_path_or_url: 验证码图片路径/URL
    :return: 识别结果字符串
    """
    # 1. 加载图像
    if image_path_or_url.startswith("http"):
        # 从URL下载验证码
        response = requests.get(image_path_or_url, timeout=10)
        image = cv2.imdecode(np.frombuffer(response.content, np.uint8), cv2.IMREAD_COLOR)
    else:
        # 从本地加载
        image = cv2.imread(image_path_or_url)
    
    if image is None:
        raise ValueError("验证码图像加载失败")
    
    # 2. 图像预处理
    processed_img = preprocess_image(image)
    
    # 3. PaddleOCR识别
    result = ocr.ocr(processed_img, cls=True)
    
    # 4. 结果解析与后处理
    captcha_text = ""
    if result and len(result) > 0:
        for line in result[0]:
            # 提取识别文本，过滤空格和特殊字符
            text = line[1][0].replace(" ", "").strip()
            captcha_text += text
    
    # 过滤非数字字母（根据验证码类型调整）
    captcha_text = "".join([c for c in captcha_text if c.isalnum()])
    
    return captcha_text

# 测试：识别本地/在线验证码
if __name__ == "__main__":
    # 示例1：识别本地验证码图片
    local_captcha = "captcha.png"
    result = recognize_captcha_image(local_captcha)
    print(f"本地验证码识别结果：{result}")
    
    # 示例2：识别在线验证码（替换为真实验证码URL）
    online_captcha = "https://example.com/captcha.jpg"
    result = recognize_captcha_image(online_captcha)
    print(f"在线验证码识别结果：{result}")

4.1.3 实战技巧

预处理是关键：针对不同验证码的干扰类型，调整降噪、二值化参数（如阈值、核大小）；
模型微调：若识别率低，可收集目标网站的验证码样本，微调PaddleOCR的识别模型；
结果后处理：根据验证码的字符长度（如4位数字），过滤长度不符的识别结果，自动重试。

4.2 实战2：滑块验证码 AI识别（核心）

以某电商网站的滑块验证码为例，实现“缺口定位→真人轨迹生成→Playwright滑动验证”全流程，重点解决“轨迹反作弊”问题。

4.2.1 核心思路

缺口定位：用OpenCV模板匹配+边缘检测，精准定位滑块缺口位置；
轨迹生成：模拟人类滑动轨迹（先加速后减速，随机步数、停顿）；
行为执行：用Playwright模拟滑动，隐藏自动化标识，规避反检测。

4.2.2 完整实战代码

# -*- coding: utf-8 -*-
import cv2
import numpy as np
import random
import time
from playwright.sync_api import sync_playwright

def find_slider_gap(bg_img, slider_img, threshold=0.8):
    """
    滑块缺口定位：模板匹配+边缘检测
    :param bg_img: 背景图路径/OpenCV图像
    :param slider_img: 滑块图路径/OpenCV图像
    :param threshold: 匹配阈值
    :return: 缺口的x坐标
    """
    # 1. 加载图像
    if isinstance(bg_img, str):
        bg = cv2.imread(bg_img, 0)  # 灰度图
        slider = cv2.imread(slider_img, 0)
    else:
        bg = cv2.cvtColor(bg_img, cv2.COLOR_BGR2GRAY)
        slider = cv2.cvtColor(slider_img, cv2.COLOR_BGR2GRAY)
    
    # 2. 边缘检测（突出缺口轮廓）
    bg_edge = cv2.Canny(bg, 50, 150)
    slider_edge = cv2.Canny(slider, 50, 150)
    
    # 3. 模板匹配
    result = cv2.matchTemplate(bg_edge, slider_edge, cv2.TM_CCOEFF_NORMED)
    loc = np.where(result >= threshold)
    
    # 4. 提取缺口x坐标（取匹配区域的左上角x）
    if len(loc[0]) > 0:
        gap_x = int(loc[1][0])
        return gap_x
    else:
        # 匹配失败，返回0（需重试）
        return 0

def generate_human_trajectory(distance):
    """
    生成真人滑动轨迹：先加速后减速，含随机停顿
    :param distance: 滑动总距离（像素）
    :return: 轨迹列表，每个元素为(位移x, 耗时ms)
    """
    trajectory = []
    current_x = 0
    # 总步数（随机，模拟真人不同滑动速度）
    steps = random.randint(30, 50)
    # 加速度（先正后负，模拟先加速后减速）
    acceleration = random.uniform(0.5, 1.2)
    # 初始速度
    velocity = random.uniform(1, 3)
    
    for _ in range(steps):
        # 计算当前步位移（加速阶段）
        if current_x < distance * 0.7:
            velocity += acceleration
        # 减速阶段
        else:
            velocity -= acceleration * 1.5
        
        # 限制速度，避免过快/过慢
        velocity = max(1, min(velocity, 8))
        # 位移x（取整）
        dx = int(velocity)
        # 避免超过总距离
        if current_x + dx > distance:
            dx = distance - current_x
        
        # 耗时（随机，模拟真人滑动节奏）
        dt = random.randint(10, 30)
        
        trajectory.append((dx, dt))
        current_x += dx
        
        # 随机停顿（模拟真人犹豫）
        if random.random() < 0.1:
            trajectory.append((0, random.randint(50, 100)))
    
    # 确保最终位移等于总距离
    if current_x < distance:
        trajectory.append((distance - current_x, random.randint(10, 20)))
    
    return trajectory

def slider_verify(url, slider_selector, bg_selector):
    """
    滑块验证码验证主函数
    :param url: 验证码页面URL
    :param slider_selector: 滑块元素选择器
    :param bg_selector: 背景图元素选择器
    :return: 验证是否成功
    """
    with sync_playwright() as p:
        # 启动浏览器，隐藏自动化标识
        browser = p.chromium.launch(
            headless=False,  # 调试时用有头模式
            args=[
                "--no-sandbox",
                "--disable-blink-features=AutomationControlled",
                "--disable-web-security"
            ]
        )
        # 隐藏webdriver标识
        context = browser.new_context()
        context.add_init_script("""
            Object.defineProperty(navigator, 'webdriver', {
                get: () => undefined
            })
        """)
        page = context.new_page()
        
        try:
            # 1. 打开页面
            page.goto(url, timeout=30000)
            page.wait_for_selector(bg_selector, timeout=10000)
            
            # 2. 获取验证码图片
            bg_img_elem = page.query_selector(bg_selector)
            slider_img_elem = page.query_selector(slider_selector + " img")
            
            # 截图保存背景图和滑块图
            bg_img = bg_img_elem.screenshot()
            slider_img = slider_img_elem.screenshot()
            
            # 转换为OpenCV图像
            bg_cv = cv2.imdecode(np.frombuffer(bg_img, np.uint8), cv2.IMREAD_COLOR)
            slider_cv = cv2.imdecode(np.frombuffer(slider_img, np.uint8), cv2.IMREAD_COLOR)
            
            # 3. 定位缺口
            gap_x = find_slider_gap(bg_cv, slider_cv)
            if gap_x == 0:
                print("缺口定位失败，重试")
                return False
            
            # 4. 生成真人轨迹
            trajectory = generate_human_trajectory(gap_x - 10)  # 减去滑块自身宽度
            
            # 5. 模拟滑动
            slider = page.query_selector(slider_selector)
            # 按下滑块
            slider.hover()
            page.mouse.down()
            time.sleep(random.uniform(0.1, 0.3))  # 模拟按下后的停顿
            
            # 执行轨迹滑动
            current_x = 0
            for dx, dt in trajectory:
                current_x += dx
                page.mouse.move(current_x, random.randint(0, 5))  # 轻微y轴偏移，更真实
                time.sleep(dt / 1000)  # 转换为秒
            
            # 松开滑块
            page.mouse.up()
            time.sleep(1)
            
            # 6. 验证结果
            if page.locator("text=验证成功").count() > 0:
                print("滑块验证成功")
                return True
            else:
                print("滑块验证失败")
                return False
        
        except Exception as e:
            print(f"滑块验证异常：{str(e)}")
            return False
        finally:
            page.close()
            browser.close()

# 测试：滑块验证码验证
if __name__ == "__main__":
    # 替换为真实验证码页面URL和选择器
    verify_url = "https://example.com/slider-captcha"
    slider_selector = "#slider-btn"
    bg_selector = "#captcha-bg"
    success = slider_verify(verify_url, slider_selector, bg_selector)
    print(f"最终验证结果：{'成功' if success else '失败'}")

4.2.3 实战技巧

缺口定位优化：若模板匹配不稳定，可结合轮廓检测（cv2.findContours）定位缺口；
轨迹随机化：加入随机的y轴偏移、微小停顿，避免轨迹过于规则；
反检测：必须隐藏navigator.webdriver标识，否则即使轨迹正确也会被拦截。

4.3 实战3：点选验证码 AI识别（进阶）

以某政务网站的文字点选验证码为例，实现“提示文本识别→目标定位→顺序点击”全流程，重点解决“语义理解+精准点击”问题。

4.3.1 核心思路

提示解析：用PaddleOCR识别验证码的点选提示（如“按顺序点击：北京、上海、广州”）；
目标定位：用PaddleHub的目标检测模型，定位验证码图片中的所有文字区域；
顺序匹配：将提示文本与定位结果匹配，按顺序生成点击坐标；
精准点击：用Playwright模拟真人点击，控制点击精度和间隔。

4.3.2 完整实战代码

# -*- coding: utf-8 -*-
import cv2
import numpy as np
import random
import time
import paddlehub as hub
from paddleocr import PaddleOCR
from playwright.sync_api import sync_playwright

# 初始化模型
ocr = PaddleOCR(use_angle_cls=True, lang="ch", use_gpu=False)
# 加载目标检测模型（用于定位文字区域）
detector = hub.Module(name="chinese_ocr_db_crnn_mobile")

def parse_click_prompt(prompt_img):
    """
    解析点选提示文本
    :param prompt_img: 提示文本图像/路径
    :return: 按顺序的点选目标列表，如["北京", "上海", "广州"]
    """
    # 识别提示文本
    result = ocr.ocr(prompt_img, cls=True)
    prompt_text = ""
    if result and len(result) > 0:
        for line in result[0]:
            prompt_text += line[1][0]
    
    # 解析目标（根据提示格式提取，示例："按顺序点击：北京、上海、广州"）
    if "按顺序点击：" in prompt_text:
        targets = prompt_text.split("按顺序点击：")[1].split("、")
        # 过滤空字符和特殊符号
        targets = [t.strip() for t in targets if t.strip()]
        return targets
    else:
        return []

def locate_click_targets(captcha_img):
    """
    定位验证码图片中的所有文字目标
    :param captcha_img: 验证码图片/路径
    :return: 字典，key为文字，value为中心坐标(x, y)
    """
    # 图像预处理
    if isinstance(captcha_img, str):
        img = cv2.imread(captcha_img)
    else:
        img = captcha_img
    
    # 目标检测
    results = detector.recognize_text(
        images=[img],
        use_gpu=False,
        output_dir=None
    )
    
    # 解析检测结果
    target_coords = {}
    for res in results[0]['data']:
        text = res['text'].strip()
        # 计算文字区域中心坐标
        x1, y1 = res['text_box_position'][0]
        x2, y2 = res['text_box_position'][2]
        center_x = (x1 + x2) / 2
        center_y = (y1 + y2) / 2
        target_coords[text] = (center_x, center_y)
    
    return target_coords

def click_verify(url, captcha_selector, prompt_selector):
    """
    点选验证码验证主函数
    :param url: 验证码页面URL
    :param captcha_selector: 验证码图片选择器
    :param prompt_selector: 提示文本选择器
    :return: 验证是否成功
    """
    with sync_playwright() as p:
        browser = p.chromium.launch(
            headless=False,
            args=["--no-sandbox", "--disable-blink-features=AutomationControlled"]
        )
        context = browser.new_context()
        context.add_init_script("""
            Object.defineProperty(navigator, 'webdriver', {get: () => undefined})
        """)
        page = context.new_page()
        
        try:
            page.goto(url, timeout=30000)
            page.wait_for_selector(captcha_selector, timeout=10000)
            
            # 1. 获取提示文本图像并解析
            prompt_elem = page.query_selector(prompt_selector)
            prompt_img = prompt_elem.screenshot()
            prompt_img_cv = cv2.imdecode(np.frombuffer(prompt_img, np.uint8), cv2.IMREAD_COLOR)
            click_targets = parse_click_prompt(prompt_img_cv)
            if not click_targets:
                print("提示文本解析失败")
                return False
            
            # 2. 获取验证码图片并定位目标
            captcha_elem = page.query_selector(captcha_selector)
            captcha_img = captcha_elem.screenshot()
            captcha_img_cv = cv2.imdecode(np.frombuffer(captcha_img, np.uint8), cv2.IMREAD_COLOR)
            target_coords = locate_click_targets(captcha_img_cv)
            
            # 3. 匹配点击顺序
            click_coords = []
            for target in click_targets:
                if target in target_coords:
                    click_coords.append(target_coords[target])
                else:
                    print(f"未找到目标：{target}")
                    return False
            
            # 4. 模拟真人点击（随机间隔、轻微坐标偏移）
            for idx, (x, y) in enumerate(click_coords):
                # 轻微偏移，模拟真人点击误差
                x += random.randint(-3, 3)
                y += random.randint(-3, 3)
                
                # 移动鼠标到目标位置（模拟真人移动轨迹）
                page.mouse.move(x, y, steps=random.randint(5, 10))
                time.sleep(random.uniform(0.3, 0.8))
                
                # 点击
                page.mouse.click(x, y)
                time.sleep(random.uniform(0.5, 1.2))
            
            # 5. 点击确认按钮（若有）
            if page.locator("text=确认验证").count() > 0:
                page.click("text=确认验证")
                time.sleep(1)
            
            # 6. 验证结果
            if page.locator("text=验证通过").count() > 0:
                print("点选验证成功")
                return True
            else:
                print("点选验证失败")
                return False
        
        except Exception as e:
            print(f"点选验证异常：{str(e)}")
            return False
        finally:
            page.close()
            browser.close()

# 测试：点选验证码验证
if __name__ == "__main__":
    verify_url = "https://example.com/click-captcha"
    captcha_selector = "#captcha-img"
    prompt_selector = "#click-prompt"
    success = click_verify(verify_url, captcha_selector, prompt_selector)
    print(f"最终验证结果：{'成功' if success else '失败'}")

4.3.3 实战技巧

定位精度：点击坐标加入±3像素的偏移，更接近真人点击习惯；
语义容错：对识别的提示文本做模糊匹配（如“北京”匹配“北京市”）；
多轮重试：识别失败时自动刷新验证码，重新识别，提升整体通过率。

五、生产级优化：提升识别率与稳定性

基础识别流程完成后，想要适配批量采集场景，需做好以下优化：

5.1 识别率优化

模型微调：收集目标网站的验证码样本（1000+），标注后微调PaddleOCR模型，识别率可从70%提升至95%+；
预处理适配：针对不同网站的验证码特征，编写专属预处理函数（如针对渐变背景的自适应二值化）；
结果校验：根据验证码规则（如4位数字）校验识别结果，不符合则自动重试。

5.2 反检测优化

浏览器指纹伪装：随机更换UA、屏幕分辨率、语言设置；
操作行为随机化：滑块滑动速度、点选间隔加入更大的随机范围；
IP轮换：使用优质付费代理池，避免单一IP频繁验证被封禁；
频率控制：单IP/账号的验证码验证频率控制在真人水平（如每分钟≤5次）。

5.3 批量识别优化

异步处理：用asyncio+Playwright异步版，同时处理多个验证码识别任务；
结果缓存：缓存相同验证码的识别结果，避免重复识别；
监控告警：识别率低于阈值时触发告警，及时调整模型/预处理策略。

六、实战高频避坑清单（真实踩坑总结）

避坑点	典型现象	解决方案
滑块轨迹匀速	缺口定位正确但验证失败	生成带加速度/随机停顿的轨迹，加入y轴微小偏移
OCR识别率低	图文验证码识别结果错误	强化图像预处理（降噪/膨胀），微调PaddleOCR模型
点选坐标精准度过高	点击正确目标但验证失败	加入±3像素的坐标偏移，模拟真人点击误差
自动化标识未隐藏	验证成功但爬虫被封	用Playwright隐藏webdriver，伪装浏览器指纹
验证码图片加载不全	定位/识别失败	等待图片完全加载后再截图，增加超时重试
点选提示解析错误	点击顺序错误	优化提示文本解析逻辑，支持模糊匹配