Scrapy第十篇：IP代理中间件

水深无声 2024-04-08 08:46 70阅读 0赞

我这里使用的是阿里云的IP代理服务。

1.编写工具类util.py，封装获取阿里云代理IP

import urllib.request
    import json
    
    
    def get_proxy_ip():
        host = 'http://zip.market.alicloudapi.com'
        path = '/devtoolservice/ipagency'
        method = 'GET'
        appcode = 'xxxxxxxxxxxx'
        querys = 'foreigntype=0&protocol=0'
        bodys = {}
        url = host + path + '?' + querys
    
        request = urllib.request.Request(url)
        request.add_header('Authorization', 'APPCODE ' + "xxxxxxxxx")
        response = urllib.request.urlopen(request)
        content = response.read()
        if (content):
            load = json.loads(str(content, encoding='utf8'))
            address_ = load['result'][0]['address']
            return address_

2.编写中间件：打开middlewares.py文件，新建中间件ProxyMiddleware

from announcement.util import get_proxy_ip
    
    
    class ProxyMiddleware(object):
        def process_request(self, request, spider):
            request.meta['proxy'] = get_proxy_ip()

3.开启中间件：打开settings.py

DOWNLOADER_MIDDLEWARES = {
        'announcement.middlewares.ProxyMiddleware': 541,
    }

4.验证（略）

发表评论取消回复

表情：

评论列表（有 0 条评论，70人围观）

还没有评论，来说两句吧...

相关阅读

相关 Scrapy第十五篇：后起之秀-Playwright

Playwright 是微软在 2020 年初开源的新一代自动化测试工具，它的功能类似于 Selenium、Pyppeteer 等，它的功能非常强大，使用便捷简单，缺点是更新较

阳光穿透心脏的1/2处/ 2024年04月08日 10:05/ 0 赞/ 78 阅读

相关 Scrapy第十一(④)篇：selenium4模拟器-本地代理(单线程)

1.正常使用selenium访问百度：调试模式会被浏览器检测到。 import time from selenium import webdri

ゝ一纸荒年。/ 2024年04月08日 09:12/ 0 赞/ 76 阅读

相关 Scrapy第十一(②)篇：selenium4模拟器中间件-多线程并发

1.安装依赖 pip install scrapy-ajax-utils -i https://pypi.tuna.tsinghua.edu.cn/simple

向右看齐/ 2024年04月08日 08:51/ 0 赞/ 86 阅读

相关 Scrapy第十一(①)篇：selenium4模拟器中间件

为什么要使用模拟器？在使用request的时候，大型网站都有很多的反爬机制，典型比如滑动验证码、弹窗广告、弹窗验证、登录认证、Ajax异步加载...等等，这些是reques

朱雀/ 2024年04月08日 08:46/ 0 赞/ 85 阅读

相关 Scrapy第十篇：IP代理中间件

我这里使用的是阿里云的IP代理服务。 1.编写工具类util.py，封装获取阿里云代理IP import urllib.request import jso

水深无声/ 2024年04月08日 08:46/ 0 赞/ 71 阅读

相关 Scrapy第九篇：User-Agent中间件

1.安装依赖 pip install fake-useragent -i https://pypi.tuna.tsinghua.edu.cn/simple

待我称王封你为后i/ 2024年04月08日 08:44/ 0 赞/ 96 阅读

相关 python 爬虫 7 （scrapy架构、中间件、动态ip代理池）

scrapy架构、中间件、动态ip代理池 1、scrapy架构 2、中间件 process\_requ

Dear 丶/ 2023年10月08日 12:07/ 0 赞/ 58 阅读

相关 Scrapy ip代理池

一、概述在众多的网站防爬措施中，有一种是根据ip的访问频率进行限制，即在某一时间段内，当某个ip的访问次数达到一定的阀值时，该ip就会被拉黑、在一段时间内禁止访问。

墨蓝/ 2022年12月11日 09:27/ 0 赞/ 266 阅读

相关 scrapy配置user-agent中间件和ip代理中间件

使用了fake库 from fake_useragent import UserAgent 配置headers clas

迈不过友情╰/ 2022年10月09日 02:54/ 0 赞/ 172 阅读

相关 scrapy中间件中使用selenium切换ip

scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面但是有个问题,容易给反爬,因为在scrap

亦凉/ 2021年09月29日 02:46/ 0 赞/ 355 阅读