首页手机软件手机游戏单机游戏资讯文章专题下载游戏合集文章合集 php下载 php教程电脑软件

+ -

当前位置：首页 → 问答吧 → 求个分页采集思路。

求个分页采集思路。

时间：2011-04-28

来源：互联网

当分布是以部分列出时

比如第1页的分页链接

[1] 2 3 4

第2页的分布链接
1 [2] 3 4 5

第3页的分布链接
1 2 [3] 4 5

第4页的分布链接
2 3 [4] 5 6

第5页的分布链接
3 4 [5] 6 7

……

求助这种情况需要如何采集。

我先前的想法是采用递归，发现自己用递归用得不熟悉，算法里有错，造成内存溢出。

我的递归是这样的，麻烦大家帮我指出错误。

复制内容到剪贴板

代码:

function collect_content($collect,$rulecontent,$page_mode=''){
    //ini_set("memory_limit" , "128M");
    static $tmpcontent = array();
    static $tmpurl = array();
    static $data = array();
    $decode = $collect['lang'] == 'gb2312'? 1:0;
    $html = fetch($collect['url'],$decode); //fetch是一个自定义函数，使用CURL
    //echo $html;
    if($rulecontent['content']){
        preg_match("/".$rulecontent['content']."/is",$html,$content);
        if(empty($content[1]))    collect_error('内容','content');
    }
    //echo $html;
    //print_r($content);exit;
    $data = array(
        'content'=>$content[1]
    );
    if($rulecontent['page']){
        preg_match_all("/".$rulecontent['page']."/is",$html,$page);
        //分页部分列表
        //exit($rulecontent['page_mode']);
        //echo($html);
        //print_r($page[1]);exit;
        if($page[1]){

            $tmpcontent[] = $data['content'];
            $tmpurl[] = $collect['url'];

            if($rulecontent['page_mode'] == 'page_part'){
                foreach($page[1] as $key=>$val){
                    //判断网址是否是完整路径
                    $host = parse_url($collect['url']);
                    if(!strpos($val,$host['host'])) $val = 'http://'.$host['host'].$val;

                    $collect['url'] = $val;
                    $tmpurl = array_unique($tmpurl);
                    if(in_array($collect['url'],$tmpurl))    continue;
                    $tmpurl[] = $collect['url'];
                    $results = collect_content($collect,$rulecontent,'page_part');
                    if(!in_array($results['content'], $tmpcontent)) $tmpcontent[] = $results['content'];
                }
            }
            //合并内容
            $data['content'] = implode('[page]', $tmpcontent);
        }
    }
    return $data;
}

作者: 6772017 发布时间: 2011-04-28

白话版:

引用:

1.取内容
2.分析内容做数据采集
3.取页码的显示部分,根据当前页的规则分析是否有下一页.
在这里当前页的形式可以用正则表示为

复制内容到剪贴板

代码:

\[\d+\]

然后根据这个位置,向下找一个,如果能找到,那就是还有下一页,
然后得到下一页的地址,传递给程序,继续从第一部开始,如果没有取到
那就是证明已经到了最后一页了,整个数据采集完成.

作者: faeng220 发布时间: 2011-05-02

相关阅读更多

热门阅读

office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐附激活工具
阅读：74
如何安装mysql8.0
阅读：31
Word快速设置标题样式步骤详解
阅读：28
20+道必知必会的Vue面试题（附答案解析）
阅读：37
HTML如何制作表单
阅读：22
百词斩可以改天数吗？当然可以，4个步骤轻松修改天数！
阅读：31
ET文件格式和XLS格式文件之间如何转化？
阅读：24
react和vue的区别及优缺点是什么
阅读：121
支付宝人脸识别如何关闭?
阅读：21
腾讯微云怎么修改照片或视频备份路径?
阅读：28

热门下载

更多

雷电沙龙曼蛇
飞行射击 9.63MB

下载
神级倒车
休闲益智 52.55MB

下载
夜贼狂飙
休闲益智 84.65MB

下载
美美小店游戏vivo版
休闲益智 1.52GB

下载
天天星消灭红包版
休闲益智 41.5MB

下载
最强达人手机版
休闲益智 51.31MB

下载
最强斗王
棋牌卡牌 288.89MB

下载
光之圣境放置次元
棋牌卡牌 243.56MB

下载
永恒与星辰与日常
角色扮演 418.54MB

下载
超凡先锋vivo版
角色扮演 1.67GB

下载