[scrapy] pycharm开发scrapy - scrapy项目目录介绍

深藏阁楼爱情的钟 2022-03-22 05:19 395阅读 0赞

文章目录

  • scrapy工程文件介绍
  • 开发scrapy步骤

scrapy工程文件介绍

【scrapy工程文件介绍】

  • ArticleSpider

    • ArticleSpider

      • Spiders 存放具体某个网站的爬虫

        • __init__.py
        • jobbole.py 爬虫文件,使用命令scrapy genspider jobbole blog.jobbole.com生成
      • __init__.py
      • items.py 数据保存格式
      • middlewares.py 存放自己定义的middleware
      • pipelines.py数据存储
      • settings.py 设置文件
    • scrapy.cfg 配置文件

开发scrapy步骤

  1. 【创建工程与虚拟环境】创建工程与Python虚拟环境
    在这里插入图片描述
  2. 【进入虚拟环境】进入刚才创建的Python虚拟环境
    在这里插入图片描述
  3. 【安装scrapy】运行命令pip install -i https://pypi.douban.com/simple/ scrapy安装scrapy
    【提示】若中途发生失败,请手动安装失败的包https://blog.csdn.net/summer\_dew/article/details/79778559\#pip\_96
  4. 【创建scrapy工程】:在当前目录下运行scrapy startproject ArticleSpider,新建scrapy工程(只是一个scrapy工程框架,里头没有spider的模板)
    【说明】scrapy startproject 工程名。也可以自定义模板,默认模板:”…\lib\site-packages\scrapy\templates\project”
    在这里插入图片描述
  5. 【创建spider】进入运行ArticleSpider\ArticleSpider\spiders下,运行命令scrapy genspider jobbole blog.jobbole.com,生成spider器
    【说明】scrapy genspider spider器的名称 爬取的目标域名,在当前目录下生成spider文件
    【结果】在Spiders/目录下生成了jobbole.py文件
    在这里插入图片描述
  6. 【加入刚才创建的Python虚拟环境】
    【步骤】File-> setting-> Project:ArticleSpider-> Project Interpreter-> Add-> System Interpreter-> 选择D:\mycode\CrawlerForPython\scrapy\Python3Scrapy\Scripts\python.exe
  7. 【配置工程的解释器】
    【步骤】Add Configuration --> 左上方+号 --> Python
    在这里插入图片描述
  8. 在ArticleSpider文件夹下创建main.py文件,用于scrapy调试
    【背景】 Pycharm没有scrapy的模板,实际上是没有办法调试的
    【技巧】 新建一个main.py,在文件中调用命令行
    在这里插入图片描述

    coding:utf-8

    from scrapy.cmdline import execute
    import sys
    import os

    设置工程路径

    sys.path.append(

    1. os.path.dirname( #获取current_paths当前的文件夹目录
    2. os.path.abspath( __file__ ) #获取__file__(当前py文件)的绝对路径
    3. )

    )
    execute([“scrapy”, “crawl”, “jobbole”] ) #启动scrapy,相当于命令行scrapy crawl jobbole

  9. 运行该main.py文件
    【报错】ModuleNotFoundError: No module named ‘win32api’。则还需要pypiwin32模块 ,进入python虚拟环境运行:pip install -i https://pypi.douban.com/simple pypiwin32
    在这里插入图片描述

发表评论

表情:
评论列表 (有 0 条评论,395人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Scrapy 框架介绍

    一、Scrapy是什么 Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以

    相关 scrapy项目组件介绍

    最近开始研究scrapy框架的使用,第一步就是通过命令创建项目后生成的各个组件,首先要了解的就是它们的作用以及是如何进行运作的。 一、工作流程 1、引擎从调度器中取出一

    相关 Scrapy框架介绍

    1.什么是网络爬虫 网络爬虫是根据特定的规则在网络上自动爬取所需信息的脚本或程序,分为通用爬虫和聚焦爬虫,传统的通用网络爬虫主要为门户站点搜索引擎和大型Web服务提供商采

    相关 PyCharm内部运行Scrapy项目

    刚刚接触 scrapy,发现一切的scrapy项目的运行都是在命令行进行的,虽然说调试的时候也很方便,但是每次打开项目去运行都需要打开命令行进入到项目目录里面再去运行,我个人认