告诉大家网站robots.txt文件带来的安全引患
时间:2008-10-08
来源:互联网
一、首先说一下robots.txt文件的作用?
如果您不希望互联网爬虫(又叫蜘蛛、Crawler、Spider等)抓取您网站的每一个公开的链接,而只抓取您指定的某一部分链接,或根本不抓取任何链接,你可以使用robots.txt向各大引擎汇报爬虫信息。
怎么使用robots.txt?
建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。例如,您的网站地址是www.XXX.org.cn,各大引擎会首先抓取http://www.XXX.org.cn/robots.txt再进行后续操作。如无法访问robots.txt文件,系统则默认为您站点的每个链接都可以被抓取。
怎么写robots.txt文件?
l,禁止所有搜索引擎访问网站的任何部分:
User-agent:*
Disallow: /
2,允许所有的robot访问
User-agent: *
Disallow:
注:也可以建一个空robots.txt文件。
3,禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
4,禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
5,只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
常见搜索引擎机器人Robots名字
名称 搜索引擎
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Inktomi Slurp http://www.yahoo.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
二、分析robots.txt文件带来的安全引患
1、如果按以上的说话,看下例
*禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
2、按上面的写法,就是以上cgi-bin、tmp、private三个目录不给各大引擎搜到,那么换个思维,就是给一些录找网站安全引患的黑客一个很好的模式,本来,你某个目录是绝对不能让任何人知道的。但是你把他写在robots.txt文件里面了,那么黑客就会查看你的robots.txt文件,那你所有的重要目录都出来了,也许你的重要文件也显示出来了。
3、建议
建议很重要的文件夹不要写在robots.txt文件中,或你只建一个空白robots.txt文件,在不要访问的目录中加入其它的技术。千万不要用这种方法。我看过站长站,很多不能抓取的目录都显示在这个文件中。
如果您不希望互联网爬虫(又叫蜘蛛、Crawler、Spider等)抓取您网站的每一个公开的链接,而只抓取您指定的某一部分链接,或根本不抓取任何链接,你可以使用robots.txt向各大引擎汇报爬虫信息。
怎么使用robots.txt?
建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。例如,您的网站地址是www.XXX.org.cn,各大引擎会首先抓取http://www.XXX.org.cn/robots.txt再进行后续操作。如无法访问robots.txt文件,系统则默认为您站点的每个链接都可以被抓取。
怎么写robots.txt文件?
l,禁止所有搜索引擎访问网站的任何部分:
User-agent:*
Disallow: /
2,允许所有的robot访问
User-agent: *
Disallow:
注:也可以建一个空robots.txt文件。
3,禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
4,禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
5,只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
常见搜索引擎机器人Robots名字
名称 搜索引擎
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Inktomi Slurp http://www.yahoo.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
二、分析robots.txt文件带来的安全引患
1、如果按以上的说话,看下例
*禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
2、按上面的写法,就是以上cgi-bin、tmp、private三个目录不给各大引擎搜到,那么换个思维,就是给一些录找网站安全引患的黑客一个很好的模式,本来,你某个目录是绝对不能让任何人知道的。但是你把他写在robots.txt文件里面了,那么黑客就会查看你的robots.txt文件,那你所有的重要目录都出来了,也许你的重要文件也显示出来了。
3、建议
建议很重要的文件夹不要写在robots.txt文件中,或你只建一个空白robots.txt文件,在不要访问的目录中加入其它的技术。千万不要用这种方法。我看过站长站,很多不能抓取的目录都显示在这个文件中。
作者: 水晶 发布时间: 2008-10-08
很有道理!谢谢分享!
作者: 卖空间的 发布时间: 2008-10-08
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28