webscraper 爬取二级网页_web scraper——简单的爬取数据【二】

傷城~ 2022-12-31 15:28 230阅读 0赞

在上文中我们已经安装好了web scraper现在我们来进行简单的爬取，就来爬取百度的实时热点吧。

文本太长,大部分是图片,所以上下操作视频吧,视频爬取的是昵称不是百度热点数据

爬取步骤

创建站点

打开百度热点，ctrl+shit+i进入检测工具,打开web scraper创建站点

![Image 1][]

进入创建站点页面站点名称和爬取地址点击创建站点即可

如果要爬取分页数据那就将参数写成范围的如:

想要爬取微博某博主关注列表的1-5页的粉丝信息,通过url的跳转发现微博关注列表和数字有关

https://weibo.com/p/1003061752021340/follow?relate=fans&page=

所以只要把写成一个范围的即可

https://weibo.com/p/1006051234552257/follow?relate=fans&page=\[1-5\]

![Image 1][]

爬取数据

首先创建一个element的select

![Image 1][]

创建element信息

![Image 1][]

select选择最外层的盒子,确认无误后点击Done selecting!

![Image 1][]

然后回到web scraper控制台,查看信息无误后勾选multiple确认无误后,创建element的select

![Image 1][]

爬取自己想要的信息,点击进入hotList里面,然后继续创建select选择

![Image 1][]

填写具体的select信息,并继续通过select来进行选择需要的数据

![Image 1][]

这时候页面的范围会变为黄色,鼠标移动到自己需要的信息处会有绿框将信息圈出来

![Image 1][]

点击确认后会变为红色的,再次选择相同的会自动识别将同样标签下的包围起来,确认是自己需要的信息后直接Done selecting!

![Image 1][]

再次转到web scraper的控制台后,确认无误即可保存

![Image 1][]

运行脚本,进行采集

![Image 1][]

默认配置即可,想修改也可以的,我一般直接默认的

![Image 1][]

点击开始脚本后,会将采集的页面弹出,采集完成右下角会出现提示,采集过程中点击refresh可以查看采集的数据

![Image 1][]

采集的数据

![Image 1][]

导出数据

确认数据没有错误,是自己需要的即可,进行下载,以csv格式导出

![Image 1][]

点击Downolad now!即可下载

![Image 1][]

![Image 1][]

数据内容

![Image 1][]

到这里使用web scraper进行数据采集就结束了

[Image 1]:

发表评论取消回复

表情：

评论列表（有 0 条评论，230人围观）

还没有评论，来说两句吧...

相关阅读

相关 Java 爬取网页

我们使用 net.URL 类的 URL() 构造函数来抓取网页代码如下 import java.io.BufferedReader; import j

Dear 丶/ 2023年05月21日 11:47/ 0 赞/ 320 阅读

相关 Python - Python 简单爬取网页内容

文章目录 Python - Python 简单爬取网页内容相关阅读 1、安装bs4 模块 2、

快来打我*/ 2023年02月20日 07:23/ 0 赞/ 323 阅读

相关 Java爬取网页数据

文章目录 1、导入依赖 2、源代码 1、导入依赖  <dependency>

灰太狼/ 2023年01月17日 03:27/ 0 赞/ 285 阅读

相关 webscraper 爬取二级网页_用Python爬取在线文档转成PDF，随时可阅读！

![a72c6f4fb28801e40176f8f3a0ffe015.png][] > 作为一名程序员，经常要搜一些教程，有的教程是在线的，不提供离线版本，这就有些局限了。那

秒速五厘米/ 2023年01月05日 12:48/ 0 赞/ 219 阅读

相关 webscraper 爬取二级网页_web scraper——简单的爬取数据【二】

在上文中我们已经安装好了web scraper现在我们来进行简单的爬取，就来爬取百度的实时热点吧。文本太长,大部分是图片,所以上下操作视频吧,视频爬取的是昵称不是百度热点数

傷城~/ 2022年12月31日 15:28/ 0 赞/ 231 阅读

相关爬取网页出来为空_用python爬虫爬取股票数据

前言：编写一个爬虫脚本，用于爬取东方财富网的上海股票代码，并通过爬取百度股票的单个股票数据，将所有上海股票数据爬取下来并保存到本地文件中系统环境： 64位wi

川长思鸟来/ 2022年10月24日 02:04/ 0 赞/ 379 阅读

相关 Java爬取网页内容的简单例子

原文转载自：https://www.2cto.com/kf/201408/324292.html 【准备工作】下载一个 [jsoup-1.6

￡神魔★判官ぃ/ 2022年06月07日 11:18/ 0 赞/ 349 阅读

相关 Python爬取网页的图片数据

本案例是基于PyCharm开发的，也可以使用idea。 [在项目内新建一个python文件TestCrawlers.py][python_TestCrawlers.py]

你的名字/ 2022年04月18日 06:29/ 0 赞/ 383 阅读

相关 Python爬取整个网页的数据

本案例是基于PyCharm开发的，也可以使用idea。 [在项目内新建一个python文件Test.py][python_Test.py] [Test.py][]

淩亂°似流年/ 2022年04月17日 05:19/ 0 赞/ 547 阅读

相关爬取网页图片

下载表情包吧指定网页的所有图片 #coding:utf-8 import urllib.request import urllib.parse import urlli...

系统管理员/ 2021年05月03日 05:44/ 0 赞/ 731 阅读