利用爬虫爬取网页连接

雨点打透心脏的1/2处 2024-03-22 21:52 194阅读 0赞

1 问题

如何利用爬虫技术定向爬取网页连接？

2 方法

利用爬虫技术，通过实验、实践等证明提出的方法是有效的，是能够解决开头提出的问题。

代码清单 1

import requests
import re
headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36’}
html = requests.get(‘https://www.nowcoder.com/tutorial/10004/1ed5d0cdb1f74e89a6d7efba82344dbb',headers = headers)
giao = html.content.decode()
goudai = re.findall(r’<dd class=”sub-menu-underway”>\s<a href=”(.?)”>\s<i class=”ico-menu ico-menu-play”></i><span\sclass=”cont”>(.*?)</span></a>’,giao,re.S)
links = [‘https://www.nowcoder.com‘ + url[0] for url in goudai]
title = [title[1] for title in goudai]
print(links + title)

3 结语

针对如何定向获取网页连接问题，提出利用爬虫技术方法，通过实验，证明该方法是有效的。当前只能定向爬取到一个网页链接，不能实现爬取多个网页链接和不定向爬取数据。

发表评论取消回复

表情：

评论列表（有 0 条评论，194人围观）

还没有评论，来说两句吧...

相关阅读

相关 Python爬虫案例：爬取网页信息

Python作为一种强大的编程语言，非常适合进行网站爬虫。以下是一个简单的爬虫案例，爬取一个网页的标题： ```python import requests from bs4

男娘i/ 2025年01月31日 02:21/ 0 赞/ 83 阅读

相关利用爬虫爬取图片并保存

1 问题在工作中，有时会遇到需要相当多的图片资源，可是如何才能在短时间内获得大量的图片资源呢？ 2 方法我们知道，网页中每一张图片都是一个连接，所以我们提出利用爬虫爬

拼搏现实的明天。/ 2024年03月23日 20:36/ 0 赞/ 199 阅读

相关利用爬虫爬取网页连接

1 问题如何利用爬虫技术定向爬取网页连接？ 2 方法利用爬虫技术，通过实验、实践等证明提出的方法是有效的，是能够解决开头提出的问题。代码清单 1 <ta

雨点打透心脏的1/2处/ 2024年03月22日 21:52/ 0 赞/ 195 阅读

相关网络爬虫：爬取动态网页（例如javascript）

经过一段时间的摸索，终于有了一套爬取动态网页的方法，此方法适合大多数的动态网页爬取，至于另外少数的动态网页爬取，还必须利用其它的办法。在此分享给大家。举例：例如在百度中搜索

ゝ一世哀愁。/ 2022年08月18日 11:39/ 0 赞/ 377 阅读

相关利用Jsoup爬取网页内容

jsoup的强大之处在这里就不多说，最近在写项目，需要爬取网页上的内容，自然想到的是利用Jsoup来处理，项目中是利用Jsoup爬取学校信息门户的新闻消息，然后放进客户端网

╰+哭是因爲堅強的太久メ/ 2022年07月18日 05:24/ 0 赞/ 350 阅读

相关爬虫爬取网页，并用浏览器打开

-- coding:utf-8 -- import urllib import webbrowser url = 'http://www.16

小鱼儿/ 2022年06月13日 23:22/ 0 赞/ 347 阅读

相关 python爬虫爬取淘宝网页数据

O、requests 和 re 库的介绍 requests库是一个小型好用的网页请求模块，可用于网页请求，常用来编写小型爬虫安装requests可以使用pip命令：

Bertha 。/ 2022年06月07日 12:16/ 0 赞/ 640 阅读

相关 Python爬虫爬取动态网页

系统环境：操作系统：Windows8.1专业版 64bit Python：anaconda、Python2.7 Py

迈不过友情╰/ 2022年05月26日 11:48/ 0 赞/ 660 阅读

相关 node：爬虫爬取网页图片

> 代码地址如下： > [http://www.demodashi.com/demo/13845.html][http_www.demodashi.com_demo_138

素颜马尾好姑娘i/ 2022年05月11日 04:36/ 0 赞/ 419 阅读

相关 python爬虫程序，爬取网页图片

一段简单的爬取网页图片的python代码 coding=utf-8 import urllib import re url

- 日理万妓/ 2022年04月04日 15:14/ 0 赞/ 583 阅读