robots协议是网站和搜索引擎之间的一种协议,robots.txt里面的命令约定了网站内部哪些文件可以被哪些搜索引擎蜘蛛机器人抓取收录,或者哪些文件不允许哪些搜索引擎蜘蛛机器人抓取收录。

检查该网站中是否存在robots.txt文件,输入这样的网址

https://www.baidu.com/robots.txt

http://seo.shefan.cc/robots.txt

 

下面是集中常用到的robots.txt书写格式

1.允许所有的搜索引擎蜘蛛机器人访问抓取:

User-agent: *             #英文状态下的冒号后面还有一个空格键,注意大小写

Allow: /                       #英文状态下的冒号后面还有一个空格键,注意大小写

 

2.禁止所有搜索引擎访问网站的任何部分:

User-agent: *                  #英文状态下的冒号后面还有一个空格键,注意大小写

Disallow: /                       #英文状态下的冒号后面还有一个空格键,注意大小写

 

3.仅禁止Baiduspider访问您的网站:

User-agent: Baiduspider  #英文状态下的冒号后面还有一个空格键,注意大小写

Disallow: /             #英文状态下的冒号后面还有一个空格键,注意大小写

 

4.仅允许Baiduspider访问抓取网站:

User-agent: Baiduspider

Allow: /

 

5. 禁所有蜘蛛机器人访问特定目录:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

 

6. 允许访问特定目录中的部分url:

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

 

7. 使用”*”通配符 限制访问url

禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

User-agent: *

Disallow: /cgi-bin/*.htm

 

8. 使用”$”限制访问url

仅允许访问以”.htm”为后缀的URL。

User-agent: *

Allow: .htm$

Disallow: /

 

例9. 禁止访问网站中所有的动态页面

如果网站已经生成静态页面,这是网站有静态也有动态页面,那么就需要robots协议禁止蜘蛛抓取动态页面,防止蜘蛛抓取到多路径网页,有效防止网站分权。

User-agent: *

Disallow: /*?*

 

10. 禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

11. 仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

 

12. 仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$

 

robots.txt生效时间,蜘蛛说的算,少则三五天,多则一个月,书写修改都要慎重!

 

这是https://www.baidu.com/robots.txt里面的其中两段内容,大家体会一下:

User-agent: BaiduspiderDisallow: /baiduDisallow: /s?Disallow: /ulink?Disallow: /link?Disallow: /home/news/data/User-agent: GooglebotDisallow: /baiduDisallow: /s?Disallow: /shifen/Disallow: /homepage/Disallow: /cproDisallow: /ulink?Disallow: /link?Disallow: /home/news/data/