Python爬虫--使用scrapy框架(1) 朱雀 2022-05-26 05:24 251阅读 0赞 #### 1.安装scrapy #### 首先安装Scrapy框架,可以使用pip3 install scrapy,安装scrapy时会自动安装twisted,但是可能会安装不成功,可以下载一个你的python对应版本的twisted(可以去这个网站下载[点击下载twisted][twisted]),使用pip3来安装它,再使用pip3 install scrapy安装scrapy. #### 2.网页源码 #### 使用scrapy爬取七月在线网站课程数据,我们先来看一下网页的源码: ![这里写图片描述][70] 截图中的红框1,2,3分别对应上面3门课程,红框4是1的子标签,下面我们用scrapy框架抓取该网页中的每门课程的名字和介绍以及开班时间,分别对应到3个红椭圆圈住的部分。 #### 3.代码实现 #### import scrapy class Spider(scrapy.Spider): name = "spider" #为该程序起个名字 start_urls = ['https://www.julyedu.com/category/index',] #将要访问的url def parse(self, response): #用xpath查找出class="course_info_box"的dir标签,生成的是一个列表 for julyedu_class in response.xpath('//div[@class="course_info_box"]'): #找到a标签下的h4标签的text内容,extract_first()表示找到第一个 print(julyedu_class.xpath('a/h4/text()').extract_first()) print(julyedu_class.xpath('a/p[@class="course-info-tip"][1]/text()').extract_first()) print(julyedu_class.xpath('a/p[@class="course-info-tip info-time"][1]/text()').extract_first()) print("~~~~~~~~~~~~~~~") #打印间隔,便于区分每门课程 其中的xpath可以通过选中标签,右键–>copy–>copy xpath来获得,如下图: ![这里写图片描述][70 1] #### 4.运行代码 #### 打开windows的cmd命令行,执行runspider spider.py,其中spider.py是刚才程序保存的文件。 运行结果如下: ![这里写图片描述][70 2] [twisted]: https://www.lfd.uci.edu/~gohlke/pythonlibs/ [70]: /images/20220526/c163e4fcc0e94f9da497c012439a4e8d.png [70 1]: /images/20220526/443707c1966149dfb0b57e384d5a8cb4.png [70 2]: /images/20220526/3b9ec0f449074f3da7003d86cb34f149.png
还没有评论,来说两句吧...