Scrapy爬虫框架介绍

水深无声 2022-05-24 01:41 443阅读 0赞

scrapy安装:在cmd命令行中执行pip install scrapy

测试安装成功:执行scrapy -h

结构:

70

70 1

Engine:控制所有模块之间的数据流,根据条件触发事件(不需要用户修改)

Downloader:根据用户请求下载网页(不需要用户修改)

Scheduler:对所有爬取请求进行调度管理(不需要用户修改)

Downloader Middleware

  1. 目的:实施EngineSchedulerDownloader之间进行用户可配置的控制
  2. 功能:修改、丢弃、新增请求或响应
  3. 用户可以修改代码

Spider:解析Downloader返回的响应(Response)、产生爬取项(scraped item)、产生额外的爬取需求(Request) (需要用户编写配置代码)

Item Pipelines:以流水线方式处理Spider产生的爬取项、由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型、可能操作包括:清理,检验和查重爬取项中的HTML数据,将数据存储到数据库(由用户来编写配置代码)

Spider Middleware:(用户可以来编写配置代码)

  1. 目的:对请求和爬取项的再处理、
  2. 功能:修改、丢弃、新增请求或爬取项

发表评论

表情:
评论列表 (有 0 条评论,443人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Scrapy爬虫框架介绍

    一、爬虫框架简介 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。 爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。 二、Scrapy爬虫框架结构 ![

    相关 Scrapy框架介绍

    1.什么是网络爬虫 网络爬虫是根据特定的规则在网络上自动爬取所需信息的脚本或程序,分为通用爬虫和聚焦爬虫,传统的通用网络爬虫主要为门户站点搜索引擎和大型Web服务提供商采

    相关 Scrapy - 爬虫框架

    Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和 [自

    相关 Scrapy爬虫框架介绍

    Scrapy简介 > Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 > 其最