python爬虫有要求会redis么_Python爬虫之scrapy_redis概念作用和流程

Dear 丶 2023-01-01 06:52 7阅读 0赞

scrapy_redis概念作用和流程

学习目标

了解 分布式的概念及特点

了解 scarpy_redis的概念

了解 scrapy_redis的作用

了解 scrapy_redis的工作流程

在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据

  1. 分布式是什么

简单的说 分布式就是不同的节点(服务器,ip不同)共同完成一个任务

  1. scrapy_redis的概念

scrapy_redis是scrapy框架的基于redis的分布式组件

  1. scrapy_redis的作用

Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:

通过持久化请求队列和请求的指纹集合来实现:

断点续爬

分布式快速抓取

  1. scrapy_redis的工作流程

4.1 回顾scrapy的流程

![Image 1][]

思考:那么,在这个基础上,如果需要实现分布式,即多台服务器同时完成一个爬虫,需要怎么做呢?

4.2 scrapy_redis的流程

在scrapy_redis中,所有的待抓取的request对象和去重的request对象指纹都存在所有的服务器公用的redis中

所有的服务器中的scrapy进程公用同一个redis中的request对象的队列

所有的request对象存入redis前,都会通过该redis中的request指纹集合进行判断,之前是否已经存入过

在默认情况下所有的数据会保存在redis中

具体流程如下:

![Image 1][]

小结

scarpy_redis的分布式工作原理

在scrapy_redis中,所有的待抓取的对象和去重的指纹都存在公用的redis中

所有的服务器公用同一redis中的请求对象的队列

所有的request对象存入redis前,都会通过请求对象的指纹进行判断,之前是否已经存入过

本文同步分享在 博客“不一样的花朵”(CSDN)。

如有侵权,请联系 support@oschina.cn 删除。

本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

[Image 1]:

发表评论

表情:
评论列表 (有 0 条评论,7人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Python爬虫(一):基本概念

    网络爬虫的定义 网络爬虫(Web Spider,又被称为网页蜘蛛,网络机器人,又称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使