当前位置：首页 → 问答吧 → 想采些文章，结果对方网站有反采集的该如何破啊？

想采些文章，结果对方网站有反采集的该如何破啊？

时间：2011-12-22

来源：互联网

用file_get_contents采个5分钟就failed to open stream: HTTP request failed! HTTP/1.0 403 Forbidden

in 实际在本地是能打开目标网页的，且能采集的，然后半小时内一直是不能采，半小时后又能采5分钟。。。。。。。。

用 curl_init试了对方直接返回检测到非法程序，请求被拒绝。。。。。在那半小时前的5分钟之间用curl_init也是能采的。。
,还有我采集他的链接地址的时候连续1小时采集都没问题(因为流量非常少吧。。)，我想它肯定检测单个用户短时间的流量而判断了。。。。怎么破它的反采集啊？

$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;

作者: safjudsoi45 发布时间: 2011-12-22

那就不采呗
人家辛辛苦苦收集的资料，凭什么要给你？

作者: xuzuning 发布时间: 2011-12-22

引用 1 楼 xuzuning 的回复:
那就不采呗
人家辛辛苦苦收集的资料，凭什么要给你？

没办法的吗？

作者: safjudsoi45 发布时间: 2011-12-22