+ -
当前位置:首页 → 问答吧 → 散分,求助,如何用PYTHON抓取一个网站里面的特定数据

散分,求助,如何用PYTHON抓取一个网站里面的特定数据

时间:2011-03-10

来源:互联网

比如,我的博客www.manglu.net

我想抓取的有,
文章的内容,文章的作者,日期,文章的所有的内容。

我想要的是一个过程,有代码更好。
或者其他的网站比如csdn,某个板块内的所有主题,作者,和回帖者回帖内容等信息,如何抓取?

授之与鱼不如授之以渔,请大家交给我比较普遍的分析方法,谢谢,小弟新手。如果让小弟学到东西,小弟愿意抛分相送。谢谢

作者: yudun1989   发布时间: 2011-03-10

有些网站,特别是blog,可以使用通用的rss来获取信息。比如你的http://manglu.net/?feed=rss2
在可能的情况下,使用rss api是推荐的方式。
大多数情况下可能无法使用rss,这时候只能自己去解析了。无非两部分:抓网页,分析数据。前者使用urllib/urllib2以及很多第三方工具,后者可以使用正则表达式,以及各种html parser。
你现在网上google下python爬虫吧。这是和你的需求比较接近的,例子很多,很容易参考。

作者: iambic   发布时间: 2011-03-10

看了下你的博客,做的不错啊。空间是哪里搞的?用什么开发的?

作者: iambic   发布时间: 2011-03-10

这个可以用python的HtmlParser类来提取数据,我都做了一个。
http://blog.csdn.net/bestdowt1314 里面有

作者: bestdowt1314   发布时间: 2011-03-10

引用 2 楼 iambic 的回复:

看了下你的博客,做的不错啊。空间是哪里搞的?用什么开发的?

额,php,用的wordpress。空间买的国外的

作者: yudun1989   发布时间: 2011-03-10