+ -
当前位置:首页 → 问答吧 → 想采些文章,结果对方网站有反采集的该如何破啊?

想采些文章,结果对方网站有反采集的该如何破啊?

时间:2011-12-22

来源:互联网

用file_get_contents采个5分钟就failed to open stream: HTTP request failed! HTTP/1.0 403 Forbidden

 in 实际在本地是能打开目标网页的,且能采集的, 然后半小时内一直是不能采,半小时后又能采5分钟。。。。。。。。


用 curl_init试了对方直接返回检测到非法程序,请求被拒绝。。。。。 在那半小时前的5分钟之间用curl_init也是能采的。。
,还有我采集他的链接地址的时候连续1小时采集都没问题(因为流量非常少吧。。),我想它肯定检测单个用户短时间的流量而判断了。。。。怎么破它的反采集啊?

$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;

作者: safjudsoi45   发布时间: 2011-12-22

那就不采呗
人家辛辛苦苦收集的资料,凭什么要给你?

作者: xuzuning   发布时间: 2011-12-22

引用 1 楼 xuzuning 的回复:
那就不采呗
人家辛辛苦苦收集的资料,凭什么要给你?

没办法的吗?

作者: safjudsoi45   发布时间: 2011-12-22