搜索引擎中网络爬虫的设计分析

Myth丶恋晨 2022-09-19 13:29 173阅读 0赞

**搜索引擎中网络爬虫的设计分析**

**作者：Ackarlix**

下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。

说的简单易懂一些，网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线，其实还是要跟网络联结，否则怎么抓东西下来？那么不同的地方在哪里？

1】 网络爬虫高度可配置性。

2】 网络爬虫可以解析抓到的网页里的链接

3】 网络爬虫有简单的存储配置

4】 网络爬虫拥有智能的根据网页更新分析功能

5】 网络爬虫的效率相当的高

那么依据特征，其实也就是要求了，如何设计爬虫呢？要注意哪些步骤呢？

1】 url 的遍历和纪录

这点 larbin 做得非常的好，其实对于url的遍历是很简单的，例如：

cat \[what you got\]| tr /" //n | gawk '\{print $2\}' | pcregrep ^http://

就可以得到一个所由的 url 列表

2】多进程 VS 多线程

各有优点了，现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。

3】时间更新控制

最傻的做法是没有时间更新权重，一通的爬，回头再一通的爬。

通常在下一次爬的的数据要跟上一次进行比较，如果连续5次都没有变化，那么将爬这个网页的时间间隔扩大1倍。

如果一个网页在连续5次爬取的时候都有更新，那么将设置的爬取时间缩短为原来的1／2。

注意，效率是取胜的关键之一。

4】爬的深度是多少呢？

看情况了。如果你比较牛，有几万台服务器做网络爬虫，我劝您跳过这一点。

如果你同我一样只有一台服务器做网络爬虫，那么这样一个统计您应该知道：

网页深度：网页个数：网页重要程度

0 : 1 : : 10

1 :20 : :8

2: :600: :5

3: :2000: :2

4 above: 6000: 一般无法计算

好了，爬到三级就差不多了，再深入一是数据量扩大了3／4倍，二是重要度确下降了许多，这叫做“种下的是龙种，收获的是跳蚤。

5】爬虫一般不之间爬对方的网页，一般是通过一个Proxy出去，这个proxy有缓解压力的功能，因为当对方的网页没有更新的时候，只要拿到 header 的 tag就可以了，没有必要全部传输一次了，可以大大节约网络带宽。

apache webserver里面纪录的 304 一般就是被cache的了。

6】请有空的时候照看一下robots.txt

7】存储结构。

这个人人见智，google 用 gfs 系统，如果你有7／8台服务器，我劝你用NFS系统，要是你有70／80个服务器的话我建议你用afs 系统，要是你只有一台服务器，那么随便。

给一个代码片断，是我写的新闻搜索引擎是如何进行数据存储的：

NAME=\`echo $URL |perl -p -e 's/(\[^/w/-/./@\])/$1 eq "/n" ? "/n":sprintf("%%%2.2x",ord($1))/eg'\`

mkdir -p $AUTHOR

newscrawl.pl $URL --user-agent="news.booso.com+(+http://booso.com)" -outfile=$AUTHOR/$NAME

\--------------------------------------------------------------------------------

以上转载的是一篇关于搜索引擎网络爬虫（即搜索引擎蜘蛛程序）的设计分析的文章，介绍了一些蜘蛛设计的常识，这些信息对SEO都很有帮助，特别是注意以下几句：

1.通常在下一次爬的的数据要跟上一次进行比较，如果连续5次都没有变化，那么将爬这个网页的时间间隔扩大1倍，如果一个网页在连续5次爬取的时候都有更新，那么将设置的爬取时间缩短为原来的1／2。

网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行，爬取次数越多意味着网页收录几率会越大、收录数量越多，收录是SEO最基础的一个环节。

2.好了，爬到三级就差不多了，再深入一是数据量扩大了3／4倍，二是重要度确下降了许多，这叫做“种下的是龙种，收获的是跳蚤。

尽量将网站保持在三级目录内，深层次的网页会给搜索引擎带来很大的压力，当然，我想Google有足够的服务器来承担这些压力，但从侧面来说，3层目录下的网页被抓取及更新的频度要低很多。前面，我说过，要想办法使网站物理结构和逻辑结构吻合，这体现于URL的良好设计，现在你可以检查下前台生成的静态网页的实际目录有几层，考虑是否可以优化。

关于网站逻辑结构和URL设计，请参考“网站内部链接优化是SEO的第一要素”和“二级域名与一级目录之间该如何选择？”

发表评论取消回复

表情：

评论列表（有 0 条评论，173人围观）

还没有评论，来说两句吧...

相关阅读

相关 java爬虫系统设计_java搜索---网络爬虫实现

View Code packagecom.sreach.spider; importjava.io.BufferedWriter; importjava.io.File;

末蓝、/ 2022年11月06日 08:56/ 0 赞/ 191 阅读

相关「数据分析师的网络爬虫」网络爬虫数据的存储MySQL和Mongodb

文章目录内容介绍存储Mysql应用实例存储Mongodb实例内容介绍开发环境为 Python3.6 ，爬虫项目全部内容索引目录 [看

Dear 丶/ 2022年10月16日 10:26/ 0 赞/ 182 阅读

相关「数据分析师的网络爬虫」Python 爬虫入门基础原理

文章目录内容介绍网络通信基础知识爬虫的原理与流程内容介绍开发环境为 Python3.6 ，爬虫项目全部内容索引目录 [看懂Pytho

朱雀/ 2022年10月16日 10:00/ 0 赞/ 446 阅读

相关 [转]: 谈谈网络爬虫设计中的问题

网络蜘蛛现在开源的已经有好几个了，[Larbin][]，Nutch，Heritrix都各有用户之地，要做一个自己的爬虫要解决好多个问题，比如调度算法、更新策略、分布式存储等，我

素颜马尾好姑娘i/ 2022年09月26日 14:51/ 0 赞/ 181 阅读

相关搜索引擎中网络爬虫的设计分析

搜索引擎中网络爬虫的设计分析作者：Ackarlix 下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些，网络爬虫跟你使用的〖离线阅读〗工

Myth丶恋晨/ 2022年09月19日 13:29/ 0 赞/ 174 阅读

相关搜索引擎之爬虫定义和爬虫搜索网页策略

网络爬虫概述之网路爬虫定义：网路爬虫又被称为网页蜘蛛、网络机器人，是一种按照一定规则自动抓取万维网的程序或脚本、特点是：一定的规则、自动抓取、网络

妖狐艹你老母/ 2022年08月04日 08:41/ 0 赞/ 168 阅读

相关转：基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎网络爬虫架构在Nutch+Hadoop之上，是一个典型的分布式离线批量处理架构，

谁践踏了优雅/ 2022年08月02日 09:49/ 0 赞/ 147 阅读

相关 Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例

本项目实现的是：自己写一个网络爬虫，对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上，一个文件对应一个标题和链接地址，然后通

清疚/ 2022年06月18日 08:25/ 0 赞/ 154 阅读

相关搜索引擎-网络爬虫

通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎

「爱情、让人受尽委屈。」/ 2022年05月30日 09:52/ 0 赞/ 275 阅读

相关爬虫是个非常大的搜索引擎

爬虫：按照一定的规则自动抓取网络信息，反爬虫：User\_Agent ，Referer,验证码单位时间访问次数，访问量的限制关键信息图片混淆异步加载爬取网页

- 日理万妓/ 2022年05月16日 11:15/ 0 赞/ 175 阅读