Python 爬虫实战：解决常见网络请求问题-蒲公英云

Python 爬虫实战：解决常见网络请求问题

在编写Python爬虫时，经常会遇到一些网络请求的问题。下面列举几个常见的问题以及解决方案：

连接超时：
在使用requests库进行HTTP请求时，如果服务器响应过慢，可能会导致连接超时。

解决方案：增加timeout参数，指定请求的超时时间（单位通常是秒）。
```
response = requests.get('http://example.com', timeout=10)  # 设置超时时间为10秒
```

状态码错误：
HTTP状态码用于表示服务器对请求的处理结果。

解决方案：检查返回的状态码，根据不同的状态码处理相应情况。

response = requests.get('http://example.com')
if response.status_code == 200:  # 200代表成功请求
    print(response.text)
else:
    print(f"请求失败，状态码：{response.status_code}")

跨域问题：
当爬虫请求的URL不在当前页面域名下时，会遇到浏览器的同源策略限制。

解决方案：使用JSONP（JSON with Padding）或CORS（Cross-Origin Resource Sharing）来绕过同源策略限制。

示例（使用requests库与CORS实现）：

import requests
# 设置目标URL，假设对方允许跨域请求
target_url = "http://example.com/api/data"
# 在请求头中添加CORS相关字段
headers = {
    'Origin': 'your-origin-url',  # 自定义你的源URL
    'Referer': target_url,  # 指向目标URL的来源
    'Accept-Language': 'en-US,en;q=0.5',
    'User-Agent': 'Your User Agent',  # 可自定义，示例为"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
}
# 发送请求，并获取响应
response = requests.get(target_url, headers=headers))
if response.status_code == 200:  # 检查状态码，表示成功获取数据
    data = response.json()
    print(data)
else:
    print(f"请求失败，状态码：{response.status_code}")