爬虫日记(89)：Scrapy的DownloadHandlers类

旧城等待， 2022-10-19 12:59 165阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，165人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫日记(89)：Scrapy的DownloadHandlers类

前面分析了下载器的整个源码，理解了下载器的工作过程，在那里经常会遇到一个类，就是DownloadHandlers类，这个类主要用来对不同的下载协议进行管理的，比如文件协议和ht

旧城等待，/ 2022年10月19日 12:59/ 0 赞/ 166 阅读

相关爬虫日记(84)：Scrapy的Crawler类（三）

前面完成Crawler类的构造函数分析，接着下来我们来分析这个类的第一个开始调用的函数，Crawler类被创建之后，就会立即调用crawl函数，代码如下： class Cra

刺骨的言语ヽ痛彻心扉/ 2022年10月16日 12:26/ 0 赞/ 223 阅读

相关爬虫日记(84)：Scrapy的Crawler类（二）

spidercls是一个蜘蛛类，比如这里是<class 'ItemDemo.spiders.quotes.QuotesSpider'>内容，self.settings是前面加载

我就是我/ 2022年10月16日 09:58/ 0 赞/ 189 阅读

相关爬虫日记(83)：Scrapy的CrawlerProcess类(二）

因此继续来分析这两个函数的代码，才能理解蜘蛛类怎么样加载进来，怎么样设置twisted底层的工作框架。我们来查看\_get\_spider\_loader函数的代码，它的定义如

清疚/ 2022年10月16日 04:49/ 0 赞/ 272 阅读

相关爬虫日记(88)：Scrapy的Downloader类（二）

接着下来，我们来分析Downloader类的初始化过程，以及相关的数据结构，这样才能明白它具体做了些什么事情。 ![watermark_type_ZmFuZ3poZW5naG

太过爱你忘了你带给我的痛/ 2022年10月13日 15:51/ 0 赞/ 149 阅读

相关爬虫日记(88)：Scrapy的Downloader类（一）

从前面的分析我们知道，当下载的连接URL去重之后，就需要把URL放到下载器里进行下载，这样才会得到网页相关的数据，比如HTML、图片、脚本等等。然后我们根据网页再来抽取相关的数

缺乏、安全感/ 2022年10月10日 15:57/ 0 赞/ 193 阅读

相关爬虫日记(87)：Scrapy的RFPDupeFilter类(一）

前面已经分析了调度器的入队代码，在这里会调用RFPDupeFilter类的功能，用来判断两个下载的url请求是否相同，如果相同，并且参数设置为去重时，就会不再下载，这样避免了重

Bertha 。/ 2022年10月06日 15:53/ 0 赞/ 163 阅读

相关爬虫日记(86)：Scrapy的Scheduler类（二）

上面已经准备了所有队列的对象，下一步我们就来分析怎么进入队列，以及怎么实现优先级队列管理这些请求。这些函数的调用关系如下： ![watermark_type_ZmFuZ3po

怼烎@/ 2022年10月06日 05:59/ 0 赞/ 201 阅读

相关爬虫日记(86)：Scrapy的Scheduler类（一）

前面学习过了引擎类，明白整个引擎的工作过程，在引擎里要调用调度管理类，这样才能够把请求下载进行去重，或者优先下载等功能实现。现在我们就来分析这个类的实现，以便完全理解调度管理类

野性酷女/ 2022年10月05日 01:57/ 0 赞/ 140 阅读

相关爬虫日记(90)：Scrapy的HTTP11DownloadHandler类

在爬虫里，使用最多的下载机制，还是HTTP协议，因此这个协议的实现就非常关键了，也是一个比较复杂的实现，要读懂这个类要比较费时间和精力。虽然比较复杂，我们还是一步一步地去分析这

落日映苍穹つ/ 2022年10月04日 15:52/ 0 赞/ 144 阅读