想采些文章,结果对方网站有反采集的该如何破啊?
时间:2011-12-22
来源:互联网
用file_get_contents采个5分钟就failed to open stream: HTTP request failed! HTTP/1.0 403 Forbidden
in 实际在本地是能打开目标网页的,且能采集的, 然后半小时内一直是不能采,半小时后又能采5分钟。。。。。。。。
用 curl_init试了对方直接返回检测到非法程序,请求被拒绝。。。。。 在那半小时前的5分钟之间用curl_init也是能采的。。
,还有我采集他的链接地址的时候连续1小时采集都没问题(因为流量非常少吧。。),我想它肯定检测单个用户短时间的流量而判断了。。。。怎么破它的反采集啊?
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;
in 实际在本地是能打开目标网页的,且能采集的, 然后半小时内一直是不能采,半小时后又能采5分钟。。。。。。。。
用 curl_init试了对方直接返回检测到非法程序,请求被拒绝。。。。。 在那半小时前的5分钟之间用curl_init也是能采的。。
,还有我采集他的链接地址的时候连续1小时采集都没问题(因为流量非常少吧。。),我想它肯定检测单个用户短时间的流量而判断了。。。。怎么破它的反采集啊?
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;
作者: safjudsoi45 发布时间: 2011-12-22
那就不采呗
人家辛辛苦苦收集的资料,凭什么要给你?
人家辛辛苦苦收集的资料,凭什么要给你?
作者: xuzuning 发布时间: 2011-12-22
引用 1 楼 xuzuning 的回复:
那就不采呗
人家辛辛苦苦收集的资料,凭什么要给你?
那就不采呗
人家辛辛苦苦收集的资料,凭什么要给你?
没办法的吗?
作者: safjudsoi45 发布时间: 2011-12-22
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28