网站优化之robots.txt爬虫协议的写法

待我称王封你为后i 2022-11-30 14:27 178阅读 0赞

> Robots.txt即爬虫协议，是搜索引擎蜘蛛进入网站第一个寻找的文件，它告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

当我们网站出现错误页面，或者某些页面不想让蜘蛛爬取时，合理的配置robots协议可以让蜘蛛更高效快捷的爬取到需要抓取的内容。当搜索引擎蜘蛛进入网站，首先查找网站根目录下是否存在robots.txt文件，若存在，则按照该文件的规范抓取内容；若不存在该文件，则按照默认的规则爬取网站中所有网页。因此，本文介绍一些robots语法和常用实例。

网站设置robots.txt的好处：禁止搜索引擎收录部分页面；引导蜘蛛爬网站地图；能够一定程度上保护网站安全；节省流量等。

**Robots基本语法：**

1、定义搜索引擎：User-agent。

User-agent: *  #所有的搜索引擎
    User-agent: Baiduspider #百度蜘蛛
    User-agent: Googlebot #谷歌蜘蛛

2、Disallow 禁止爬取。

Disallow: /admin/ #禁止爬取admin文件夹
    Disallow: /login.html #禁止爬取登录页面

3、Allow 允许。默认情况下，都是允许的。

例如：禁止admin文件夹下的所有文件，除了.html的网页。如果用Disallow一个一个的禁止，太浪费时间了。

此时用Allow就解决这个问题：

Allow: /admin/.html$ 
    Disallow: /admin/

4、$ 结束符。

例：允许所有的以.html结尾的文件。不管前面有多长的URL，只要以.html结尾都允许

Allow: .html$

5、\* 通配符符号0或多个任意字符。

例：屏蔽所有的动态URL

User-agent: *
    Disallow: /*?*

6、Sitemap 声明网站地图。

Sitemap: http://www.xiaowangyun.com/sitemap.xml

7、\#: 注释符。

8、版本号

Robot-version: Version 1.0

**注：**

1.robots.txt文件存放在网站根目录下。
    2.文件名所有字母都必须小写（robots.txt）。
    3.User-agent、Disallow、Allow、Sitemap必须是第一个字母大写，后面的字母小写，后面英文字符下的空格。

**常用Robots.txt 文件举例**

例1、禁止所有搜索引擎访问网站的任何部分

User-agent: *
    Disallow: /

例2、禁止访问某些目录。注意的是对每一个目录必须分开声明。

User-agent: *
    Disallow: /admin/
    Disallow: /log/
    Disallow: /bin/

例3、禁止某个搜索引擎抓取网站上的所有图片

User-agent: *
    Disallow: .jpg$
    Disallow: .jpeg$
    Disallow: .gif$
    Disallow: .png$
    Disallow: .bmp$

发表评论取消回复

表情：

评论列表（有 0 条评论，178人围观）

还没有评论，来说两句吧...

相关阅读

相关网站优化之robots.txt爬虫协议的写法

> Robots.txt即爬虫协议，是搜索引擎蜘蛛进入网站第一个寻找的文件，它告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。当我们网站出现错误页面，或者某些页面不想让蜘蛛

待我称王封你为后i/ 2022年11月30日 14:27/ 0 赞/ 179 阅读

相关 Hive之count(distinct xxx)优化写法

先看一道某互联网公司的面试题：题目描述计算每个省份的买家数的sq代码如下: select province ,count(

蔚落/ 2022年09月15日 15:56/ 0 赞/ 157 阅读

相关 SEO优化之——网站SEO优化初步总结

原文连接 [http://www.zhaochao.net/index.php/2016/03/06/17/][http_www.zhaochao.net_index.php_

「爱情、让人受尽委屈。」/ 2022年07月31日 01:52/ 0 赞/ 307 阅读

相关 Python爬虫之模拟CSDN网站登录

Python爬虫之模拟CSDN网站登录模拟网站登录的思路在我们模拟网站登录之前，我们需要分析网站登入需要哪些数据。我们可以通过抓包工具，研究网站登录，以及登录访

浅浅的花香味﹌/ 2022年06月05日 06:51/ 0 赞/ 353 阅读

相关 Python爬虫之-智联招聘网站

爬着玩玩用的，这个做的不好，还爬取过前程无忧是认真做的~ coding:utf-8 import re import json import

缺乏、安全感/ 2022年05月24日 05:28/ 0 赞/ 302 阅读

相关网络爬虫的Robots协议

目前对网络爬虫的限制主要有两种方式: 1.来源审查:判断User-Agent(在请求头中的一个键值对)进行限制,通过该键值对可以判断发起网络请求的浏览器类型,网站维护人员可以

偏执的太偏执、/ 2022年02月13日 04:43/ 0 赞/ 227 阅读

相关 python练习网络爬虫写法

练习正则表达式的简单使用方法 \!/usr/bin/evn python import re \导入正则表达式模块 import urllib \导入urllib模

左手的ㄟ右手/ 2021年11月17日 10:02/ 0 赞/ 309 阅读

相关 python 爬虫之网站robots协议的重要性

在我抓取网站遇到瓶颈，想剑走偏锋去解决时，常常会先去看下该网站的 robots.txt 文件，有时会给你打开另一扇抓取之门。　　写爬虫有很多苦恼的事情，比如：　　1.访

妖狐艹你老母/ 2021年10月14日 02:33/ 0 赞/ 306 阅读

相关 python爬虫之网站robots协议的重要性解析-爬虫偏方

在我抓取网站遇到瓶颈，想剑走偏锋去解决时，常常会先去看下该网站的 robots.txt 文件，有时会给你打开另一扇抓取之门。　　写爬虫有很多苦恼的事情，比如：　　1.访

水深无声/ 2021年10月14日 02:20/ 0 赞/ 322 阅读

相关爬虫君子协议-robots.txt协议

文章目录一.定义二.用法一.定义 robots协议是一种约定俗称的爬虫协议，由网站主人规定了该网站的哪些内容可以爬取，哪些内容不可

绝地灬酷狼/ 2021年09月07日 06:14/ 0 赞/ 484 阅读