Python爬虫初学者:解析HTML问题实例及解决方案

原创 落日映苍穹つ 2025-03-03 05:06 34阅读 0赞

在学习Python爬虫时,常常会遇到解析HTML的问题。这里我将举几个实例并提供解决方案。

  1. 获取网页标题
    有时我们想要获取网页的标题,而不是像内容那样直接提取。

    1. from bs4 import BeautifulSoup
    2. # 请求网页
    3. response = requests.get('https://example.com')
    4. # 解析HTML
    5. soup = BeautifulSoup(response.text, 'html.parser')
    6. # 获取标题
    7. title = soup.find('title').text
    8. print(title) # 输出网页标题
  2. 提取HTML中的特定元素
    有时候我们需要从HTML中提取特定的元素,如链接、表格等。

    1. import requests
    2. from bs4 import BeautifulSoup
    3. url = 'https://example.com'
    4. response = requests.get(url)
    5. soup = BeautifulSoup(response.text, 'html.parser')
    6. # 提取所有链接
    7. links = soup.find_all('a')
    8. for link in links:
    9. href = link.get('href')
    10. print(href) # 输出每个链接
    11. # 提取表格数据
    12. tables = soup.find_all('table')
    13. for table in tables:
    14. rows = table.find_all('tr')
    15. for row in rows:
    16. cols = row.find_all('td')
    17. if cols:
    18. col_data = [cell.text.strip() for cell in cols] # 去除空格
    19. print(col_data) # 输出每行数据

以上就是Python爬虫中解析HTML问题的一些实例和解决方案。希望对你学习Python爬虫有所帮助!

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,34人围观)

还没有评论,来说两句吧...

相关阅读