scrapy项目组件介绍

偏执的太偏执、 2023-10-07 12:07 94阅读 0赞

最近开始研究scrapy框架的使用，第一步就是通过命令创建项目后生成的各个组件，首先要了解的就是它们的作用以及是如何进行运作的。
一、工作流程
1、引擎从调度器中取出一个URL链接（url）用来接下来的爬取
2、引擎把URL封装成一个Request 请求传给下载器，下载器把资源下下来，并封装成应答包Response
3、爬虫解析Response
4、若是解析出实体（Item）,则交给实体管道（pipelines）进行进一步的处理。
5、若是解析出的是链接（URL）,则把URL交给Scheduler等待抓取

二、各组件作用
1、Items是将要装载抓取的数据的容器，它工作方式像python里面的字典，但它提供更多的保护，比如对未定义的字段填充以防止拼写错误。它通过创建一个scrapy.item.Item类来声明，定义它的属性为scrpiy.item.Field对象，就像是一个对象关系映射(ORM).
2、Spider是用户编写的类，用于从一个域（或域组）中抓取信息。

他们定义了用于下载的URL的初步列表，如何跟踪链接，以及如何来解析这些网页的内容用于提取items。

要建立一个Spider，你必须为scrapy.spider.BaseSpider创建一个子类，并确定三个主要的、强制的属性：

name：爬虫的识别名，它必须是唯一的，在不同的爬虫中你必须定义不同的名字.

start_urls：爬虫开始爬的一个URL列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些URLS开始。其他子URL将会从这些起始URL中继承性生成。

parse()：爬虫的方法，调用时候传入从每一个URL传回的Response对象作为参数，response将会是parse方法的唯一的一个参数,

这个方法负责解析返回的数据、匹配抓取的数据(解析为item)并跟踪更多的URL。
3、pipelines.py: 项目管道文件,用于提取Items内容
4、settings.py: 项目配置文件

转自：https://blog.csdn.net/weixin\_39922154/article/details/79346270

发表评论取消回复

表情：

评论列表（有 0 条评论，94人围观）

还没有评论，来说两句吧...

相关阅读

相关 Scrapy 框架介绍

一、Scrapy是什么 Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以

╰+攻爆jí腚メ/ 2023年10月10日 01:18/ 0 赞/ 128 阅读

相关 scrapy项目组件介绍

最近开始研究scrapy框架的使用，第一步就是通过命令创建项目后生成的各个组件，首先要了解的就是它们的作用以及是如何进行运作的。一、工作流程 1、引擎从调度器中取出一

偏执的太偏执、/ 2023年10月07日 12:07/ 0 赞/ 95 阅读

相关 Scrapy框架介绍

1.什么是网络爬虫网络爬虫是根据特定的规则在网络上自动爬取所需信息的脚本或程序，分为通用爬虫和聚焦爬虫，传统的通用网络爬虫主要为门户站点搜索引擎和大型Web服务提供商采

本是古典何须时尚/ 2023年06月27日 05:53/ 0 赞/ 89 阅读

相关 1.scrapy框架介绍

一、什么是scrapy框架？先来看字面意思：框架。 ![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0c

忘是亡心i/ 2022年11月03日 05:45/ 0 赞/ 249 阅读

相关 scrapy介绍和安装

![Center][] ![Center 1][] [Center]: /images/20220724/2d074df2016d

素颜马尾好姑娘i/ 2022年08月21日 09:48/ 0 赞/ 255 阅读

相关 Scrapy爬虫框架介绍

Scrapy简介 > Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。 > 其最

电玩女神/ 2022年06月06日 02:52/ 0 赞/ 427 阅读

相关 Scrapy框架学习（一）----Scrapy介绍及第一个项目

Scrapy框架学习（一）—-Scrapy介绍及第一个项目 scrapy的介绍 `Scrapy`使用纯`python`实现的爬虫框架，采用`Twisted`网络异步

短命女/ 2022年06月04日 00:40/ 0 赞/ 439 阅读

相关 scrapy 新建项目以及项目结构介绍

> 使用命令 scrapy 命令行来创建项目 > `startproject projectName` 项目结构如下图: ![新建项目][70] > 各个文件功能

矫情吗；*/ 2022年05月30日 02:35/ 0 赞/ 308 阅读

相关 Scrapy爬虫框架介绍

scrapy安装：在cmd命令行中执行pip install scrapy 测试安装成功：执行scrapy -h 结构： ![70][] ![70 1][]

水深无声/ 2022年05月24日 01:41/ 0 赞/ 444 阅读

相关 [scrapy] pycharm开发scrapy - scrapy项目目录介绍

文章目录 scrapy工程文件介绍开发scrapy步骤 scrapy工程文件介绍【scrapy工程文件介绍】 ArticleSpider

深藏阁楼爱情的钟/ 2022年03月22日 05:19/ 0 赞/ 397 阅读