爬虫日记(85)：Scrapy的ExecutionEngine类（二）

怼烎@ 2022-10-17 05:56 286阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，286人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫日记(89)：Scrapy的DownloadHandlers类

前面分析了下载器的整个源码，理解了下载器的工作过程，在那里经常会遇到一个类，就是DownloadHandlers类，这个类主要用来对不同的下载协议进行管理的，比如文件协议和ht

旧城等待，/ 2022年10月19日 12:59/ 0 赞/ 166 阅读

相关爬虫日记(85)：Scrapy的ExecutionEngine类（四）

接着下来我们来分析spider\_is\_idle函数，这个函数用来判断蜘蛛类是否处于空闲状态： ![20210604183135328.png][] 第189行判断下载回

￡神魔★判官ぃ/ 2022年10月18日 01:45/ 0 赞/ 170 阅读

相关爬虫日记(85)：Scrapy的ExecutionEngine类（三）

接着下来我们来分析\_next\_request\_from\_scheduler函数，这个函数主要实现从调度器里获得下载请求，然后把请求下载再放到下载器里去下载。实现这部分的

た入场券/ 2022年10月18日 00:50/ 0 赞/ 146 阅读

相关爬虫日记(85)：Scrapy的ExecutionEngine类（二）

前面可以看到一开始打开蜘蛛类有一次触发调度之外，还有下载数据返回之后进行一次调度。如果中间有调度没有准备好，或者队列满了，这样不会产生有新的下载，那么怎么样再次触发调度发生呢？

怼烎@/ 2022年10月17日 05:56/ 0 赞/ 287 阅读

相关爬虫日记(85)：Scrapy的ExecutionEngine类（一）

前面分析了Crawler类，这个类实现了爬虫创建和运行管理，同时也是一个爬虫的公共类，可以把这个类传送到各个类中去使用。紧接着就会把控制权交给下一个类ExecutionEngi

心已赠人/ 2022年10月17日 04:08/ 0 赞/ 141 阅读

相关爬虫日记(84)：Scrapy的Crawler类（二）

spidercls是一个蜘蛛类，比如这里是<class 'ItemDemo.spiders.quotes.QuotesSpider'>内容，self.settings是前面加载

我就是我/ 2022年10月16日 09:58/ 0 赞/ 190 阅读

相关爬虫日记(83)：Scrapy的CrawlerProcess类(二）

因此继续来分析这两个函数的代码，才能理解蜘蛛类怎么样加载进来，怎么样设置twisted底层的工作框架。我们来查看\_get\_spider\_loader函数的代码，它的定义如

清疚/ 2022年10月16日 04:49/ 0 赞/ 272 阅读

相关爬虫日记(88)：Scrapy的Downloader类（二）

接着下来，我们来分析Downloader类的初始化过程，以及相关的数据结构，这样才能明白它具体做了些什么事情。 ![watermark_type_ZmFuZ3poZW5naG

太过爱你忘了你带给我的痛/ 2022年10月13日 15:51/ 0 赞/ 150 阅读

相关爬虫日记(87)：Scrapy的RFPDupeFilter类(二）

前面函数的代码已经很清楚，就是生成请求对象的指纹信息，现在来分析每一行代码的作用： ![20210618123946469.png][] 第52和53行是判断请求是否

偏执的太偏执、/ 2022年10月07日 13:49/ 0 赞/ 185 阅读

相关爬虫日记(86)：Scrapy的Scheduler类（二）

上面已经准备了所有队列的对象，下一步我们就来分析怎么进入队列，以及怎么实现优先级队列管理这些请求。这些函数的调用关系如下： ![watermark_type_ZmFuZ3po

怼烎@/ 2022年10月06日 05:59/ 0 赞/ 201 阅读