如何设置User-Agent来模拟浏览器访问？

如果需要，可以自定义 User-Agent，但建议包含常见的浏览器标识（如），以避免被识别为爬虫。设置合适的 User-Agent 是爬虫开发中的重要步骤，可以有效降低被识别为爬虫的风险。通过模拟常见浏览器的 User-Agent，并合理控制请求频率，可以确保爬虫行为更加自然和安全。希望本文能为你提供有价值的参考，帮助你更好地开发爬虫程序。

小爬虫程序猿

2577人浏览 · 2025-03-06 15:14:57

小爬虫程序猿 · 2025-03-06 15:14:57 发布

在爬虫开发中，设置合适的 User-Agent 是模拟浏览器访问的关键步骤。User-Agent 是 HTTP 请求头中的一个字段，用于标识客户端（通常是浏览器）的类型、版本、操作系统等信息。通过设置 User-Agent，可以模拟正常浏览器的行为，从而避免被目标网站识别为爬虫并限制访问。

以下是如何在不同编程语言中设置 User-Agent 的方法，以及如何选择合适的 User-Agent。

一、设置 User-Agent 的方法

（一）在 Python 中设置 User-Agent

在 Python 中，通常使用 requests 库发送 HTTP 请求。可以通过设置请求头（headers）来指定 User-Agent。

示例代码：

import requests

# 目标 URL
url = "https://example.com"

# 设置 User-Agent
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}

# 发送请求
response = requests.get(url, headers=headers)

# 输出响应内容
print(response.text)

（二）在 Java 中设置 User-Agent

在 Java 中，可以使用 HttpClient 或 Jsoup 库发送 HTTP 请求。可以通过设置请求头来指定 User-Agent。

使用 HttpClient 设置 User-Agent：

import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class Main {
    public static void main(String[] args) {
        String url = "https://example.com";

        try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36");

            try (CloseableHttpResponse response = httpClient.execute(request)) {
                if (response.getStatusLine().getStatusCode() == 200) {
                    String html = EntityUtils.toString(response.getEntity());
                    System.out.println(html);
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

使用 Jsoup 设置 User-Agent：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class Main {
    public static void main(String[] args) {
        String url = "https://example.com";

        try {
            Document document = Jsoup.connect(url)
                                      .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36")
                                      .get();

            System.out.println(document.html());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

（三）在 PHP 中设置 User-Agent

在 PHP 中，通常使用 cURL 或 GuzzleHttp 库发送 HTTP 请求。可以通过设置请求头来指定 User-Agent。

使用 cURL 设置 User-Agent：

<?php
$url = "https://example.com";

// 初始化 cURL 会话
$ch = curl_init($url);

// 设置 User-Agent
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36");

// 设置返回响应内容
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

// 执行请求
$response = curl_exec($ch);

// 关闭 cURL 会话
curl_close($ch);

// 输出响应内容
echo $response;

使用 GuzzleHttp 设置 User-Agent：

<?php
require 'vendor/autoload.php';

use GuzzleHttp\Client;

// 创建 GuzzleHttp 客户端
$client = new Client();

// 目标 URL
$url = "https://example.com";

// 设置请求头
$headers = [
    "User-Agent" => "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
];

// 发送请求
$response = $client->request('GET', $url, ['headers' => $headers]);

// 输出响应内容
echo $response->getBody();

（四）在 JavaScript (Node.js) 中设置 User-Agent

在 Node.js 中，通常使用 axios 或 fetch 发送 HTTP 请求。可以通过设置请求头来指定 User-Agent。

使用 Axios 设置 User-Agent：

const axios = require('axios');

// 目标 URL
const url = "https://example.com";

// 设置请求头
const headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
};

// 发送请求
axios.get(url, { headers })
    .then(response => {
        console.log(response.data);
    })
    .catch(error => {
        console.error(error);
    });

使用 Fetch 设置 User-Agent：

// 目标 URL
const url = "https://example.com";

// 设置请求头
const headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
};

// 发送请求
fetch(url, { headers })
    .then(response => response.text())
    .then(data => console.log(data))
    .catch(error => console.error(error));

二、如何选择合适的 User-Agent？

选择合适的 User-Agent 是非常重要的，因为它会影响目标网站对请求的识别。以下是一些建议：

（一）使用常见浏览器的 User-Agent

模拟常见的浏览器（如 Chrome、Firefox、Safari）的 User-Agent，可以降低被识别为爬虫的风险。

常见的 User-Agent 示例：

Chrome 浏览器：
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36
Firefox 浏览器：
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0
Safari 浏览器：
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15

（二）定期更换 User-Agent

如果频繁访问目标网站，建议定期更换 User-Agent，以避免被封禁。可以使用 User-Agent 列表随机选择一个 User-Agent。

示例：随机选择 User-Agent

import random

user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15"
]

# 随机选择一个 User-Agent
headers = {
    "User-Agent": random.choice(user_agents)
}

（三）自定义 User-Agent

如果需要，可以自定义 User-Agent，但建议包含常见的浏览器标识（如 Mozilla/5.0），以避免被识别为爬虫。

示例：

Mozilla/5.0 (compatible; MyCustomBot/1.0; +http://www.example.com/bot)

三、注意事项

（一）遵守目标网站的规则

在设置 User-Agent 时，必须遵守目标网站的使用协议，避免触发反爬机制。有些网站可能会明确禁止某些 User-Agent，或者限制爬虫的访问频率。

（二）合理设置请求频率

即使设置了合适的 User-Agent，过高的请求频率仍可能触发反爬机制。建议合理控制请求频率，例如在请求之间添加适当的延时。

（三）监控响应状态

如果目标网站识别到异常请求，可能会返回特定的状态码（如 403 Forbidden 或 429 Too Many Requests）。建议监控响应状态并进行相应处理。

四、总结

设置合适的 User-Agent 是爬虫开发中的重要步骤，可以有效降低被识别为爬虫的风险。通过模拟常见浏览器的 User-Agent，并合理控制请求频率，可以确保爬虫行为更加自然和安全。希望本文能为你提供有价值的参考，帮助你更好地开发爬虫程序。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Paperzz 毕业论文功能全解析：从选题到定稿，一站式解决你的论文难题

2048 AI社区

2 virtio子系统之数据结构

这2个字段均与virtio设备的VIRTIO_RING_F_EVENT_IDX特性有关，由于virtio驱动触发对方中断将导致CPU反复进出虚拟机 & 宿主机模式，从而降低性能，因此需要控制触发中断频率的机制。在计算used ring的起始地址时，在avail->ring[num]的地址之后又加了sizeof(__virtio16)，也就是增加了2B，是为了容纳avail ring末尾的used_