+ -
当前位置:首页 → 问答吧 → 网络爬虫问题

网络爬虫问题

时间:2011-11-22

来源:互联网

我想在学校内部做一个爬虫专门爬校园网,但是问题是爬虫老是会爬出校园网的范围,爬到外网去了。

网络情况:

运行爬虫的电脑是一台使用校园网的 电脑,可以访问所有校内资源和所有外网资源。

爬虫的目标是所有校园网内部的网页。这些网页有的是一级域名,而且一级域名还有很多,有的是二级域名,有的是二级域名下

面的许多子目录的子目录,更多的仅仅是是一个ip。

使用工具:

使用的是 Snoopy php。

问题:

有什么办法只抓取校内网页,不会跑到外网上。

作者: smileanyplace   发布时间: 2011-11-22

没有用过这个类
不是有指定抓取那个网址 跑到外网上去是什么意思

作者: heyli   发布时间: 2011-11-22

查看链接的地址应该就可以过滤的吧?不解。

作者: LuciferStar   发布时间: 2011-11-22

php做爬虫哦?

最简单的办法是做个白名单,,,
每个地址分离出域名,解析出ip来比对

作者: amani11   发布时间: 2011-11-22

将fetchlinks方法返回的URL中属外网的过滤掉.这种整站爬的工作需要考虑的东西很多,简单的需要注意的大概有:限制深度,防止死循环;去重,等等.跟做镜像站差不多.

作者: ZT_King   发布时间: 2011-11-22

引用 1 楼 heyli 的回复:

没有用过这个类
不是有指定抓取那个网址 跑到外网上去是什么意思

比如抓着抓着 就开始抓取外网的内容了。。比如新浪微博什么的。。。

作者: smileanyplace   发布时间: 2011-11-22

无限级吗,,

作者: technician00   发布时间: 2011-11-22

引用 6 楼 technician00 的回复:

无限级吗,,

最好是 校内网页抓的越全越好。。。要求有极限。。比如深度是10层之内的。。。但是不能跑出校园网。。。否则就开始爬互联网了。。。那就乱套了。。。

作者: smileanyplace   发布时间: 2011-11-22

相关阅读 更多