+ -
当前位置:首页 → 问答吧 → CkSpider抓取的页面不包含 exe,jpg,pdf等等结尾的页面,求解决

CkSpider抓取的页面不包含 exe,jpg,pdf等等结尾的页面,求解决

时间:2011-04-21

来源:互联网

Python code
import chilkat

def spider_main(url):
        spider = chilkat.CkSpider()
        spider.put_ConnectTimeout(2)
        spider.put_ReadTimeout(3)
        spider.Initialize(url)
        #  Add the 1st URL:
        spider.AddUnspidered("http://"+url)
        for i in range(0,1000):
                success = spider.CrawlNext()
                if (success == True):
                        aa=spider.lastUrl()
                        print aa
                        i = i + 1
                else:
                        if (spider.get_NumUnspidered() == 0):
                                print "No more URLs to spider"
                                break
                        else:
                                print spider.lastErrorText()
        print i

if __name__=="__main__":
        spider_main('www.yxlink.com')
        raw_input()
        




为什么爬不到exe后缀名,jpg后缀名的页面呢?求解释

作者: vivre_1   发布时间: 2011-04-21

爬图片做什么?图片里又没有可以抓取的文字信息。

作者: iambic   发布时间: 2011-04-21

需要一个网站所有的链接。包括jpg,exe,pdf等等等。各种类型的

作者: vivre_1   发布时间: 2011-04-21

引用 1 楼 iambic 的回复:

爬图片做什么?图片里又没有可以抓取的文字信息。

beautifulsoup中 对于格式不规范的或者我a标签写错的 不能解析 会报'herf'错误。试过了。

作者: vivre_1   发布时间: 2011-04-21