利用爬虫爬取网页连接

雨点打透心脏的1/2处 2024-03-22 21:52 194阅读 0赞

1 问题

如何利用爬虫技术定向爬取网页连接?

2 方法

利用爬虫技术,通过实验、实践等证明提出的方法是有效的,是能够解决开头提出的问题。

代码清单 1







import requests
import re
headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36’}
html = requests.get(‘https://www.nowcoder.com/tutorial/10004/1ed5d0cdb1f74e89a6d7efba82344dbb',headers = headers)
giao = html.content.decode()
goudai = re.findall(r’<dd class=”sub-menu-underway”>\s<a href=”(.?)”>\s<i class=”ico-menu ico-menu-play”></i><span\sclass=”cont”>(.*?)</span></a>’,giao,re.S)
links = [‘https://www.nowcoder.com‘ + url[0] for url in goudai]
title = [title[1] for title in goudai]
print(links + title)

3 结语

针对如何定向获取网页连接问题,提出利用爬虫技术方法,通过实验,证明该方法是有效的。当前只能定向爬取到一个网页链接,不能实现爬取多个网页链接和不定向爬取数据。

发表评论

表情:
评论列表 (有 0 条评论,194人围观)

还没有评论,来说两句吧...

相关阅读