3.Scrapy框架——CrawlSpider介绍-蒲公英云

3.Scrapy框架——CrawlSpider介绍

叁歲伎倆 2022-11-17 14:35 245阅读 0赞

一、什么是CrawlSpider？

Scrapy框架中分两类爬虫：1.Spider类 2.CrawlSpider类

crawlspider是Spider的派生类(一个子类)，CrawlSpider类定义了一些规则(rule)来提供跟进link(链接)的方便的机制，从爬取的网页中获取link并继续爬取的工作更适合。

二、为什么使用CrawlSpider？

1.针对有跟进机制的网页爬取非常方便

2.编写容易，只需要定义爬取url规则

三、如何使用CrawlSpider？

1.创建爬虫项目

scrapy startproject pcxm

2.编写主程序的.py文件

scrapy genspider -t crawl pcxm 域名

四、关键方法

1.LinkExtractors链接提取器：

使用LinkExtractors可以不用程序员自己提取想要的url，然后发送请求。这些工作都可以交给LinkExtractors，他会在所有爬的页面中找到满足规则的url，实现自动的爬取。

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

allow：允许的url。所有满足这个正则表达式的url都会被提取。【编写正则表达式】【重要】
deny：禁止的url。所有满足这个正则表达式的url都不会被提取。【编写正则表达式】
allow_domains：允许的域名。只有在这个里面指定的域名的url才会被提取。
deny_domains：禁止的域名。所有在这个里面指定的域名的url都不会被提取。

2.Rule规则类：

class scrapy.spiders.Rule(
    link_extractor, 
    callback = None, 
    cb_kwargs = None, 
    follow = None, 
    process_links = None, 
    process_request = None
)