Python网络爬虫:模拟请求和解析HTML的基本实例
在Python中,我们可以使用requests库来模拟HTTP请求,然后使用BeautifulSoup等库来解析HTML。下面是一个基本的网络爬虫实例:
import requests
from bs4 import BeautifulSoup
# 模拟GET请求,获取网页内容
url = 'http://example.com' # 替换为你要爬取的网站URL
response = requests.get(url)
# 如果请求成功(HTTP状态码200),解析HTML
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 在这里,你可以根据需要搜索并提取数据
# 例如,寻找所有的段落(p)标签
paragraphs = soup.find_all('p')
for paragraph in paragraphs:
print(paragraph.get_text())
else:
print(f"请求失败,状态码:{response.status_code}")
这个例子会爬取指定URL的网页内容,并提取所有段落的内容。你可以根据需要调整爬虫的行为。
还没有评论,来说两句吧...