python爬虫有要求会redis么_Python爬虫之scrapy_redis概念作用和流程

Dear 丶 2023-01-01 06:52 7阅读 0赞

scrapy_redis概念作用和流程

学习目标

了解分布式的概念及特点

了解 scarpy_redis的概念

了解 scrapy_redis的作用

了解 scrapy_redis的工作流程

在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据

分布式是什么

简单的说分布式就是不同的节点(服务器，ip不同)共同完成一个任务

scrapy_redis的概念

scrapy_redis是scrapy框架的基于redis的分布式组件

scrapy_redis的作用

Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具体体现在：

通过持久化请求队列和请求的指纹集合来实现：

断点续爬

分布式快速抓取

scrapy_redis的工作流程

4.1 回顾scrapy的流程

![Image 1][]

思考：那么，在这个基础上，如果需要实现分布式，即多台服务器同时完成一个爬虫，需要怎么做呢？

4.2 scrapy_redis的流程

在scrapy_redis中，所有的待抓取的request对象和去重的request对象指纹都存在所有的服务器公用的redis中

所有的服务器中的scrapy进程公用同一个redis中的request对象的队列

所有的request对象存入redis前，都会通过该redis中的request指纹集合进行判断，之前是否已经存入过

在默认情况下所有的数据会保存在redis中

具体流程如下：

![Image 1][]

小结

scarpy_redis的分布式工作原理

在scrapy_redis中，所有的待抓取的对象和去重的指纹都存在公用的redis中

所有的服务器公用同一redis中的请求对象的队列

所有的request对象存入redis前，都会通过请求对象的指纹进行判断，之前是否已经存入过

本文同步分享在博客“不一样的花朵”(CSDN)。

如有侵权，请联系 support@oschina.cn 删除。

本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

[Image 1]:

发表评论取消回复

表情：

评论列表（有 0 条评论，7人围观）

还没有评论，来说两句吧...

相关阅读

相关 Python之分布式爬虫

什么是分布式爬虫? 通俗来讲,分布式爬虫就是多台机器多个spider对多个url的同时处理操作,分布式的方式可以极大提高程序的抓取效率分布式爬虫一般要配合re

分手后的思念是犯贱/ 2023年07月18日 03:23/ 0 赞/ 31 阅读

相关 Python为什么叫爬虫？Python与爬虫有什么关系？

爬虫一般是指网络资源的抓取，由于Python的脚本特性，易于配置对字符的处理非常灵活，Python有丰富的网络抓取模块，因此两者经常联系在一起Python就被叫作爬虫。爬虫可以

旧城等待，/ 2023年02月20日 02:51/ 0 赞/ 21 阅读

相关 python爬虫有要求会redis么_Python爬虫之scrapy_redis概念作用和流程

scrapy\_redis概念作用和流程学习目标了解分布式的概念及特点了解 scarpy\_redis的概念了解 scrapy\_redis的作用了解 s

Dear 丶/ 2023年01月01日 06:52/ 0 赞/ 8 阅读

相关 python爬虫有什么好处_python为什么叫爬虫 python有什么优势

作为一门编程语言而言，Python是纯粹的自由软件，以简洁清晰的语法和强制使用空白符进行语句缩进的特点从而深受程序员的喜爱。很多程序员都会把python叫做爬虫，那么你们知道p

青旅半醒/ 2022年10月28日 00:51/ 0 赞/ 250 阅读

相关 Python爬虫（一）：基本概念

网络爬虫的定义网络爬虫（Web Spider，又被称为网页蜘蛛，网络机器人，又称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使

Dear 丶/ 2022年08月07日 05:41/ 0 赞/ 283 阅读

相关 Python爬虫-Redis

Python爬虫-Redis Python爬虫-Redis 前言启动服务器启动客户端数据操作

冷不防/ 2022年05月19日 06:48/ 0 赞/ 41 阅读

相关 Python爬虫开发（一）—— 爬虫概念、工具和HTTP

1.什么是爬虫 \- 爬虫就是模拟客户端（浏览器）发送网络请求，获取相应，按照规则提取数据的程序 \- 模拟客户端（浏览器）发送网络请求：照着浏览器发送一模一样的请求，

痛定思痛。/ 2022年05月17日 00:26/ 0 赞/ 245 阅读

相关 Python之urllib爬虫

爬虫案例如下：在豆瓣上爬取喜剧的前20条数据引入urllib import urllib import urllib.request fro

偏执的太偏执、/ 2022年03月25日 04:26/ 0 赞/ 347 阅读

相关 Python爬虫之使用celery加速爬虫

celery是一个基于分布式消息传输的异步任务队列，它专注于实时处理，同时也支持任务调度。关于celery的更多介绍及例子，笔者可以参考文章[Python之celery的简

小咪咪/ 2022年03月21日 14:28/ 0 赞/ 326 阅读

相关 Python之爬虫工具包

requests包：是一个实用的python的http客户端库，编写爬虫从web上爬取数据时经常用到，简单实用，接口简单，requests.get(URL)。 lx

谁借莪１个温暖的怀抱￠/ 2021年09月14日 04:38/ 0 赞/ 568 阅读