当前位置：首页 → 问答吧 → 告诉大家网站robots.txt文件带来的安全引患

告诉大家网站robots.txt文件带来的安全引患

时间：2008-10-08

来源：互联网

一、首先说一下robots.txt文件的作用?
　　如果您不希望互联网爬虫(又叫蜘蛛、Crawler、Spider等)抓取您网站的每一个公开的链接，而只抓取您指定的某一部分链接，或根本不抓取任何链接，你可以使用robots.txt向各大引擎汇报爬虫信息。
　　怎么使用robots.txt?
　　建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。例如，您的网站地址是www.XXX.org.cn，各大引擎会首先抓取http://www.XXX.org.cn/robots.txt再进行后续操作。如无法访问robots.txt文件，系统则默认为您站点的每个链接都可以被抓取。
　　怎么写robots.txt文件?
　　l，禁止所有搜索引擎访问网站的任何部分:
　　User-agent:*
　　Disallow: /
　　2，允许所有的robot访问
　　User-agent: *
　　Disallow:
　　注：也可以建一个空robots.txt文件。
　　3，禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
　　User-agent: *
　　Disallow: /cgi-bin/
　　Disallow: /tmp/
　　Disallow: /private/
　　4，禁止某个搜索引擎的访问(下例中的BadBot)
　　User-agent: BadBot
　　Disallow: /
　　5，只允许某个搜索引擎的访问(下例中的WebCrawler)
　　User-agent: WebCrawler
　　Disallow:
　　User-agent: *
　　Disallow: /
　　常见搜索引擎机器人Robots名字
　　名称搜索引擎
　　Baiduspider http://www.baidu.com
　　Scooter http://www.altavista.com
　　ia_archiver http://www.alexa.com
　　Googlebot http://www.google.com
　　Inktomi Slurp http://www.yahoo.com
　　FAST-WebCrawler http://www.alltheweb.com
　　Slurp http://www.inktomi.com
　　MSNBOT http://search.msn.com
　　二、分析robots.txt文件带来的安全引患
　　1、如果按以上的说话，看下例
　　*禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
　　User-agent: *
　　Disallow: /cgi-bin/
　　Disallow: /tmp/
　　Disallow: /private/
　　2、按上面的写法，就是以上cgi-bin、tmp、private三个目录不给各大引擎搜到，那么换个思维，就是给一些录找网站安全引患的黑客一个很好的模式，本来，你某个目录是绝对不能让任何人知道的。但是你把他写在robots.txt文件里面了，那么黑客就会查看你的robots.txt文件，那你所有的重要目录都出来了，也许你的重要文件也显示出来了。
　　3、建议
　　建议很重要的文件夹不要写在robots.txt文件中，或你只建一个空白robots.txt文件，在不要访问的目录中加入其它的技术。千万不要用这种方法。我看过站长站，很多不能抓取的目录都显示在这个文件中。

作者: 水晶发布时间: 2008-10-08

很有道理！谢谢分享！

作者: 卖空间的发布时间: 2008-10-08

告诉大家网站robots.txt文件带来的安全引患

热门阅读

热门下载