Python爬虫:网页元素提取与解析问题
在Python中,编写爬虫主要涉及两个部分:网页元素提取和解析。以下是一个基本示例:
导入所需库:
import requests
from bs4 import BeautifulSoup
发送请求并获取网页内容:
url = 'https://example.com' # 要爬取的网页
response = requests.get(url)
html_content = response.text
解析HTML内容(使用BeautifulSoup):
```python
soup = BeautifulSoup(html_content, ‘html.parser’)提取特定元素,如标题、段落或链接
titles = soup.find_all(‘h1’) # 标题的示例
paragraphs = soup.find_all(‘p’) # 段落的示例
for title in titles:
print(title.text)
for paragraph in paragraphs:
print(paragraph.text)
```
这段代码将提取指定网页中的所有标题和段落,并打印出来。你可以根据需要调整元素类型或提取方式。
还没有评论,来说两句吧...