[scrapy] pycharm开发scrapy - scrapy项目目录介绍

深藏阁楼爱情的钟 2022-03-22 05:19 395阅读 0赞

文章目录

scrapy工程文件介绍
开发scrapy步骤

scrapy工程文件介绍

【scrapy工程文件介绍】

ArticleSpider
- ArticleSpider
  - Spiders 存放具体某个网站的爬虫
    - __init__.py
    - jobbole.py 爬虫文件，使用命令scrapy genspider jobbole blog.jobbole.com生成
  - __init__.py
  - items.py 数据保存格式
  - middlewares.py 存放自己定义的middleware
  - pipelines.py数据存储
  - settings.py 设置文件
- scrapy.cfg 配置文件

开发scrapy步骤

【创建工程与虚拟环境】创建工程与Python虚拟环境
【进入虚拟环境】进入刚才创建的Python虚拟环境
【安装scrapy】运行命令pip install -i https://pypi.douban.com/simple/ scrapy安装scrapy
【提示】若中途发生失败，请手动安装失败的包https://blog.csdn.net/summer\_dew/article/details/79778559\#pip\_96
【创建scrapy工程】：在当前目录下运行scrapy startproject ArticleSpider，新建scrapy工程（只是一个scrapy工程框架，里头没有spider的模板）
【说明】scrapy startproject 工程名。也可以自定义模板，默认模板：”…\lib\site-packages\scrapy\templates\project”
【创建spider】进入运行ArticleSpider\ArticleSpider\spiders下，运行命令scrapy genspider jobbole blog.jobbole.com，生成spider器
【说明】scrapy genspider spider器的名称爬取的目标域名，在当前目录下生成spider文件
【结果】在Spiders/目录下生成了jobbole.py文件
【加入刚才创建的Python虚拟环境】
【步骤】File-> setting-> Project:ArticleSpider-> Project Interpreter-> Add-> System Interpreter-> 选择D:\mycode\CrawlerForPython\scrapy\Python3Scrapy\Scripts\python.exe
【配置工程的解释器】
【步骤】Add Configuration --> 左上方+号 --> Python
在ArticleSpider文件夹下创建main.py文件，用于scrapy调试
【背景】 Pycharm没有scrapy的模板，实际上是没有办法调试的
【技巧】 新建一个main.py，在文件中调用命令行

coding:utf-8
from scrapy.cmdline import execute
import sys
import os

设置工程路径
sys.path.append(
```
os.path.dirname( #获取current_paths当前的文件夹目录
    os.path.abspath( __file__ ) #获取__file__(当前py文件)的绝对路径
)
```
)
execute([“scrapy”, “crawl”, “jobbole”] ) #启动scrapy，相当于命令行scrapy crawl jobbole
运行该main.py文件
【报错】ModuleNotFoundError: No module named ‘win32api’。则还需要pypiwin32模块，进入python虚拟环境运行：pip install -i https://pypi.douban.com/simple pypiwin32

发表评论取消回复

表情：

评论列表（有 0 条评论，395人围观）

还没有评论，来说两句吧...

相关阅读

相关 Scrapy 框架介绍

一、Scrapy是什么 Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以

╰+攻爆jí腚メ/ 2023年10月10日 01:18/ 0 赞/ 125 阅读

相关 scrapy项目组件介绍

最近开始研究scrapy框架的使用，第一步就是通过命令创建项目后生成的各个组件，首先要了解的就是它们的作用以及是如何进行运作的。一、工作流程 1、引擎从调度器中取出一

偏执的太偏执、/ 2023年10月07日 12:07/ 0 赞/ 92 阅读

相关 Scrapy框架介绍

1.什么是网络爬虫网络爬虫是根据特定的规则在网络上自动爬取所需信息的脚本或程序，分为通用爬虫和聚焦爬虫，传统的通用网络爬虫主要为门户站点搜索引擎和大型Web服务提供商采

本是古典何须时尚/ 2023年06月27日 05:53/ 0 赞/ 89 阅读

相关 Scrapy框架入门(pycharm)

文章目录一、Scrapy框架是什么？二、windows系统环境搭配 1.先cmd命令行: 2.下载Twested.whl文件:

痛定思痛。/ 2022年09月16日 06:08/ 0 赞/ 241 阅读

相关 Scrapy框架学习（一）----Scrapy介绍及第一个项目

Scrapy框架学习（一）—-Scrapy介绍及第一个项目 scrapy的介绍 `Scrapy`使用纯`python`实现的爬虫框架，采用`Twisted`网络异步

短命女/ 2022年06月04日 00:40/ 0 赞/ 439 阅读

相关 pycharm 装scrapy

手动设置延迟： pip --default-timeout=100 install scrapy pip换成清华源： pip install scrapy -i [htt

Myth丶恋晨/ 2022年05月17日 07:42/ 0 赞/ 304 阅读

相关 [scrapy] pycharm开发scrapy - scrapy项目目录介绍

文章目录 scrapy工程文件介绍开发scrapy步骤 scrapy工程文件介绍【scrapy工程文件介绍】 ArticleSpider

深藏阁楼爱情的钟/ 2022年03月22日 05:19/ 0 赞/ 396 阅读

相关在PyCharm内部运行Scrapy项目

刚刚接触 scrapy，发现一切的scrapy项目的运行都是在命令行进行的，虽然说调试的时候也很方便，但是每次打开项目去运行都需要打开命令行进入到项目目录里面再去运行，我个人认

小咪咪/ 2022年02月18日 23:39/ 0 赞/ 395 阅读

相关 Pycharm 导入scrapy项目

1. 创建scrapy项目在D盘根目录下新建Scrapy文件夹在cmd中进入Scrapy文件夹

深碍√TFBOYSˉ_/ 2021年09月23日 07:10/ 0 赞/ 517 阅读

相关 pycharm--安装Scrapy

在Pycharm中安装Scrapy 打开Pycharm,点击File->Setting，搜索interpreter，选择Project Interpreter 如图,点

曾经终败给现在/ 2021年09月23日 07:08/ 0 赞/ 636 阅读