Python爬虫入门:模拟浏览器请求实例分享
在Python爬虫中,模拟浏览器请求是非常基础且重要的一环。这里,我将提供一个简单的实例,介绍如何使用Python的requests库来模拟浏览器请求。
首先,确保已经安装了requests库。如果没有,可以通过pip进行安装:
pip install requests
接下来,编写Python代码来模拟GET请求:
import requests
# 模拟浏览器的User-Agent
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 构造请求URL
url = 'https://example.com/'
# 使用requests库进行模拟请求
response = requests.get(url, headers=headers)
# 检查请求状态码
if response.status_code == 200:
print('Request successful!')
# 打印返回的HTML内容(如果提供的话)
if response.text:
print(response.text)
else:
print(f'Request failed with status code: {response.status_code}}')
这个实例中,我们使用requests库发送GET请求到指定URL。通过设置模拟浏览器的User-Agent,我们可以避免被网站识别为爬虫。
如果请求成功(状态码200),我们会打印出请求成功的信息,并可能打印返回的HTML内容(如果提供的话)。如果请求失败,也会相应地打印错误信息。
还没有评论,来说两句吧...