+ -
当前位置:首页 → 问答吧 → 主题爬虫微博与一般网页爬取有什么技术上的区别

主题爬虫微博与一般网页爬取有什么技术上的区别

时间:2011-07-20

来源:互联网

主题爬虫微博与一般网页爬取有什么技术上的区别,求详解啊,

作者: hwlzff   发布时间: 2011-07-20

因为对微博不感兴趣,所以不是太了解,不过这个比较明显,似乎都可以顾名思义了,主题爬虫,自然是可以在攫取的时候判断内容中是否含有设定的主题(就是字串包含检测),如果有就攫取,没有就跳过,如此而已。

在一定量的收集之后,就可以进一步地对那些内容和主题非常相关的微博(依据就是来自它们的内容比较多)进行地址设定,也就是分为泛攫取和定向攫取两种方式,后者对效率的提升很有帮助。

作者: theforever   发布时间: 2011-07-20