[爬虫] 爬虫策略+爬虫去重

ゞ浴缸里的玫瑰 2022-04-23 00:26 285阅读 0赞

# 深度优先、广度优先 #

# 深度优先
    def depth_tree(tree_node):
    	if tree_node is not None:
    		print (tree_node._data)
    		if tree_node._left is not None:
    			return depth_tree(tree_node._left)
    		if tree_node._right is not None:
    			return depth_tree(tree_node._right)
    # 广度优先
    def level_queue(root):
    	if root is None:
    		return
    	my_queue = []
    	node = root
    	my_queue.append(node)
    	while my_queue:
    		node = my_queue.pop(0)
    		print (node.elem)
    		if node.lchild is not None:
    			my_queue.append(node.lchild)
    		if node.rchild is not None:
    			my_queue.append(node.rchild)

# 爬虫去重 #

【常用策略】

1.  将访问过的Url保存到数据库中  
    【评价】应用简单但效率低
2.  将访问过的url保存到set中，只需要O(1)的代价就可以查询url：  
    【评价】内层占用越来越大  
    【估算】一亿个URL：1 0000 0000\*2byte\*50个字符/1024/1024/1024 = 9G
3.  url经过md5等方法哈希后保存到set中（scrapy采用）  
    【Md5编码】将字符缩减到固定的长度（一般128bit=16byte）  
    第二种是100byte，进行了几倍的压缩
4.  用bitmap方法，将访问过的url通过hash函数映射到某一位  
    【评价】冲突可能性非常高，内容压缩非常可观  
    【估算】一亿个URL：1 0000 0000\\8\\1024\\1024 = 12M
5.  bloomfilter方法对bitmap进行改进，多重hash函数降低冲突

发表评论取消回复

表情：

评论列表（有 0 条评论，285人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫---高性能爬虫

目录一：单线程爬虫： 1：新浪图片NBA标题和图片的爬取：二：多线程爬虫： 1：回顾多线程的方法：

灰太狼/ 2022年11月20日 01:51/ 0 赞/ 237 阅读

相关网络爬虫去重参考

第一种，使用shingling算法参考： http://liangqingyu.com/blog/2014/12/03/%E7%BB%86%E8%AF%B4%E5%9E%

妖狐艹你老母/ 2022年08月09日 09:59/ 0 赞/ 145 阅读

相关搜索引擎之爬虫定义和爬虫搜索网页策略

网络爬虫概述之网路爬虫定义：网路爬虫又被称为网页蜘蛛、网络机器人，是一种按照一定规则自动抓取万维网的程序或脚本、特点是：一定的规则、自动抓取、网络

妖狐艹你老母/ 2022年08月04日 08:41/ 0 赞/ 168 阅读

相关多线程爬虫去重问题

最近无聊做了一个小爬虫项目，用的是WebCollector框架，比较好上手。但爬取数据后发现有许多重复的，测试了一下是多线程的问题，一开始想到的是在插入MongoDB前判断是否

左手的ㄟ右手/ 2022年06月11日 00:58/ 0 赞/ 215 阅读

相关爬虫 IP代理策略

简介写爬虫，最终还是逃避不了和IP代理打交道。从网上找了好多家IP代理，如表 ![Center][] 最终的选择是无忧IP代理。

亦凉/ 2022年06月08日 23:10/ 0 赞/ 296 阅读

相关 CSDN爬虫（三）——网络爬虫模拟登陆两种策略

CSDN爬虫（三）——网络爬虫模拟登陆两种策略说明开发环境：jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic

短命女/ 2022年06月07日 13:53/ 0 赞/ 319 阅读

相关反爬虫策略

突然接到一个任务，是要对公司的网站做反爬虫策略，于是到网上到处去找相关资料，总结出主要几种反爬虫策略。 1、user\_agent判断：只允许特定的爬虫引擎和浏览器user\

╰半夏微凉°/ 2022年06月01日 13:21/ 0 赞/ 260 阅读

相关反爬虫策略研究

Gtihub相关项目推荐： [知乎爬虫][Link 1] [自建代理池][Link 2] 一.对请求IP等进行限制的。以知乎为例，当我们的请求速度到达一定的

川长思鸟来/ 2022年05月21日 12:49/ 0 赞/ 182 阅读

相关 [爬虫] 爬虫策略+爬虫去重

深度优先、广度优先深度优先 def depth_tree(tree_node): if tree_node is not None:

ゞ浴缸里的玫瑰/ 2022年04月23日 00:26/ 0 赞/ 286 阅读

相关网络爬虫去重方案

[为什么80%的码农都做不了架构师？>>> ][80_] ![hot3.png][] 最近在用python写小爬虫程序，就是爬去一些自己喜欢图片的，在实现从网页中抓取特定的

我就是我/ 2022年01月17日 03:35/ 0 赞/ 284 阅读