Python网络爬虫:模拟请求和解析HTML的基本实例

原创 Love The Way You Lie 2025-01-15 06:45 6阅读 0赞

在Python中,我们可以使用requests库来模拟HTTP请求,然后使用BeautifulSoup等库来解析HTML。下面是一个基本的网络爬虫实例:

  1. import requests
  2. from bs4 import BeautifulSoup
  3. # 模拟GET请求,获取网页内容
  4. url = 'http://example.com' # 替换为你要爬取的网站URL
  5. response = requests.get(url)
  6. # 如果请求成功(HTTP状态码200),解析HTML
  7. if response.status_code == 200:
  8. soup = BeautifulSoup(response.text, 'html.parser')
  9. # 在这里,你可以根据需要搜索并提取数据
  10. # 例如,寻找所有的段落(p)标签
  11. paragraphs = soup.find_all('p')
  12. for paragraph in paragraphs:
  13. print(paragraph.get_text())
  14. else:
  15. print(f"请求失败,状态码:{response.status_code}")

这个例子会爬取指定URL的网页内容,并提取所有段落的内容。你可以根据需要调整爬虫的行为。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,6人围观)

还没有评论,来说两句吧...

相关阅读