+ -
当前位置:首页 → 问答吧 → 告诉大家网站robots.txt文件带来的安全引患

告诉大家网站robots.txt文件带来的安全引患

时间:2008-10-08

来源:互联网

一、首先说一下robots.txt文件的作用?
  如果您不希望互联网爬虫(又叫蜘蛛、Crawler、Spider等)抓取您网站的每一个公开的链接,而只抓取您指定的某一部分链接,或根本不抓取任何链接,你可以使用robots.txt向各大引擎汇报爬虫信息。
  怎么使用robots.txt?
  建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。例如,您的网站地址是www.XXX.org.cn,各大引擎会首先抓取http://www.XXX.org.cn/robots.txt再进行后续操作。如无法访问robots.txt文件,系统则默认为您站点的每个链接都可以被抓取。
  怎么写robots.txt文件?
  l,禁止所有搜索引擎访问网站的任何部分:
  User-agent:*
  Disallow: /
  2,允许所有的robot访问
  User-agent: *
  Disallow:
  注:也可以建一个空robots.txt文件。
  3,禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /private/
  4,禁止某个搜索引擎的访问(下例中的BadBot)
  User-agent: BadBot
  Disallow: /
  5,只允许某个搜索引擎的访问(下例中的WebCrawler)
  User-agent: WebCrawler
  Disallow:
  User-agent: *
  Disallow: /
  常见搜索引擎机器人Robots名字
  名称 搜索引擎
  Baiduspider http://www.baidu.com
  Scooter http://www.altavista.com
  ia_archiver http://www.alexa.com
  Googlebot http://www.google.com
  Inktomi Slurp http://www.yahoo.com
  FAST-WebCrawler http://www.alltheweb.com
  Slurp http://www.inktomi.com
  MSNBOT http://search.msn.com
  二、分析robots.txt文件带来的安全引患
  1、如果按以上的说话,看下例
  *禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /private/
  2、按上面的写法,就是以上cgi-bin、tmp、private三个目录不给各大引擎搜到,那么换个思维,就是给一些录找网站安全引患的黑客一个很好的模式,本来,你某个目录是绝对不能让任何人知道的。但是你把他写在robots.txt文件里面了,那么黑客就会查看你的robots.txt文件,那你所有的重要目录都出来了,也许你的重要文件也显示出来了。
  3、建议
  建议很重要的文件夹不要写在robots.txt文件中,或你只建一个空白robots.txt文件,在不要访问的目录中加入其它的技术。千万不要用这种方法。我看过站长站,很多不能抓取的目录都显示在这个文件中。

作者: 水晶   发布时间: 2008-10-08

很有道理!谢谢分享!

作者: 卖空间的   发布时间: 2008-10-08