网络爬虫问题
时间:2011-11-22
来源:互联网
网络情况:
运行爬虫的电脑是一台使用校园网的 电脑,可以访问所有校内资源和所有外网资源。
爬虫的目标是所有校园网内部的网页。这些网页有的是一级域名,而且一级域名还有很多,有的是二级域名,有的是二级域名下
面的许多子目录的子目录,更多的仅仅是是一个ip。
使用工具:
使用的是 Snoopy php。
问题:
有什么办法只抓取校内网页,不会跑到外网上。
作者: smileanyplace 发布时间: 2011-11-22
不是有指定抓取那个网址 跑到外网上去是什么意思
作者: heyli 发布时间: 2011-11-22
作者: LuciferStar 发布时间: 2011-11-22
最简单的办法是做个白名单,,,
每个地址分离出域名,解析出ip来比对
作者: amani11 发布时间: 2011-11-22
作者: ZT_King 发布时间: 2011-11-22
没有用过这个类
不是有指定抓取那个网址 跑到外网上去是什么意思
比如抓着抓着 就开始抓取外网的内容了。。比如新浪微博什么的。。。
作者: smileanyplace 发布时间: 2011-11-22
作者: technician00 发布时间: 2011-11-22
无限级吗,,
最好是 校内网页抓的越全越好。。。要求有极限。。比如深度是10层之内的。。。但是不能跑出校园网。。。否则就开始爬互联网了。。。那就乱套了。。。
作者: smileanyplace 发布时间: 2011-11-22
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28