+ -
当前位置:首页 → 问答吧 → robots.txt禁止抓取所有.htm 允许抓取.html 这样写法有问题没?

robots.txt禁止抓取所有.htm 允许抓取.html 这样写法有问题没?

时间:2010-12-27

来源:互联网

如果网站生成静态,既包含有以 .html 结尾文件 也包含有 .htm 结尾文件(注意这两个不一样)

如果要 robots 禁止抓取所有.htm结尾,仅允许抓取所有.html 结尾的文章!

robots.txt这样写
User-agent: *
Disallow: /*.htm  

这样写可以禁止抓取所有.htm结尾,问下大家,这样会不会把.html结尾也给禁止了!!!蜘蛛会不会认为两个文件是同一类型!

有知道的交流下,谢谢!

作者: lei8781   发布时间: 2010-12-27

请高手来解答了

作者: 773605198   发布时间: 2010-12-27

这样写正确。
但是有时候蜘蛛是不管robots的。

作者: English   发布时间: 2010-12-27

htm是超文本标记Hypertext Markup
html是超文本标记语言Hypertext Markup Language
就后缀而言都是属于静态页面的后缀,但是对于URL而言是有区别的,是两个不同的个体。

作者: xiaojun0824   发布时间: 2010-12-27

没事的

作者: 小老虎   发布时间: 2010-12-27