Python Scrapy图片爬取原理及代码实例-蒲公英云

Python Scrapy图片爬取原理及代码实例

更多python视频教程请到菜鸟教程https://www.piaodoo.com/

1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道

在管道文件对图片进行下载和持久化存储

class ImgSpider(scrapy.Spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pageNum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = ImgproItem()
      item['src'] = img_src
   yield item</pre>

2.配置文件修改

配置文件要增加IMAGES_STORE = ‘./imgsLib’表明图片存放的路径

3.管道类的修改

原本管道类继承的object，处理item对象使用时process_item方法，该方法不能发送请求，要想对图片地址发送请求，需要继承ImagesPipeline类，然后重写该类中的三个方法:get_media_requests，file_path，item_completed

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class ImgproPipeline(ImagesPipeline):

#对某一个媒体资源进行请求发送
#item就是接收到的spider提交过来的item
def get_media_requests(self, item, info):
yield scrapy.Request(item[‘src’])

#制定媒体数据存储的名称
def file_path(self, request, response=None, info=None):
name = request.url.split(’/’)[-1]
print(‘正在下载：’,name)
return name

#将item传递给下一个即将给执行的管道类
def item_completed(self, results, item, info):
return item

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多

茂名论坛https://www.hnthzk.com/

化州橘红http://www.sfkyty.com/

茂名论坛http://www.nrso.net/

源码搜藏网http://www.cntkd.net/

Python Scrapy图片爬取原理及代码实例

发表评论取消回复

还没有评论，来说两句吧...

相关阅读

相关 Python3 Scrapy爬取猫眼TOP100代码示例

相关 Python scrapy增量爬取实例及实现过程解析

相关 Python Scrapy图片爬取原理及代码实例

相关 python爬取php网站的图片,Python爬虫爬取一个网页上的图片地址实例代码

相关 Scrapy实例1、爬取豆瓣电影

相关使用Scrapy爬取豆瓣图片

相关 python 爬取图片

相关 Python爬取图片

相关 Scrapy 爬取图片实例

相关 Python爬取图片

随便看看

使用@Slf4j注解时，提示错误 log cannot be resolved 或者使用@Date 注释产生的get set方法未定义

Vue丐版数据双向绑定

python模块、类、全局变量、函数

Java_Day1（计算机基本操作）

Linux企业实战-Haproxy实现动静分离

I/O（输入输出）

教程文章

热评文章

1江湖小白之一起学Python （二）爬取数据的保存

2Java Shiro：简化身份验证和授权的安全框架

3Java中try()catch{}的使用方法

4Swagger注解-@ApiModel 和 @ApiModelProperty

5windows下强制杀死tomcat进程

6uni-app 条形码(一维码)/二维码生成实现

标签列表