[scrapy] pycharm开发scrapy - scrapy项目目录介绍
文章目录
- scrapy工程文件介绍
- 开发scrapy步骤
scrapy工程文件介绍
【scrapy工程文件介绍】
ArticleSpider
ArticleSpider
Spiders 存放具体某个网站的爬虫
__init__.py
jobbole.py
爬虫文件,使用命令scrapy genspider jobbole blog.jobbole.com
生成
__init__.py
items.py
数据保存格式middlewares.py
存放自己定义的middlewarepipelines.py
数据存储settings.py
设置文件
scrapy.cfg
配置文件
开发scrapy步骤
- 【创建工程与虚拟环境】创建工程与Python虚拟环境
- 【进入虚拟环境】进入刚才创建的Python虚拟环境
- 【安装scrapy】运行命令
pip install -i https://pypi.douban.com/simple/ scrapy
安装scrapy
【提示】若中途发生失败,请手动安装失败的包https://blog.csdn.net/summer\_dew/article/details/79778559\#pip\_96 - 【创建scrapy工程】:在当前目录下运行
scrapy startproject ArticleSpider
,新建scrapy工程(只是一个scrapy工程框架,里头没有spider的模板)
【说明】scrapy startproject 工程名
。也可以自定义模板,默认模板:”…\lib\site-packages\scrapy\templates\project” - 【创建spider】进入运行
ArticleSpider\ArticleSpider\spiders
下,运行命令scrapy genspider jobbole blog.jobbole.com
,生成spider器
【说明】scrapy genspider spider器的名称 爬取的目标域名
,在当前目录下生成spider文件
【结果】在Spiders/目录下生成了jobbole.py
文件 - 【加入刚才创建的Python虚拟环境】
【步骤】File-> setting-> Project:ArticleSpider-> Project Interpreter-> Add-> System Interpreter-> 选择D:\mycode\CrawlerForPython\scrapy\Python3Scrapy\Scripts\python.exe
- 【配置工程的解释器】
【步骤】Add Configuration --> 左上方+号 --> Python
在ArticleSpider文件夹下创建main.py文件,用于scrapy调试
【背景】 Pycharm没有scrapy的模板,实际上是没有办法调试的
【技巧】新建一个main.py
,在文件中调用命令行coding:utf-8
from scrapy.cmdline import execute
import sys
import os设置工程路径
sys.path.append(
os.path.dirname( #获取current_paths当前的文件夹目录
os.path.abspath( __file__ ) #获取__file__(当前py文件)的绝对路径
)
)
execute([“scrapy”, “crawl”, “jobbole”] ) #启动scrapy,相当于命令行scrapy crawl jobbole运行该main.py文件
【报错】ModuleNotFoundError: No module named ‘win32api’。则还需要pypiwin32
模块 ,进入python虚拟环境运行:pip install -i https://pypi.douban.com/simple pypiwin32
还没有评论,来说两句吧...