散分,求助,如何用PYTHON抓取一个网站里面的特定数据
时间:2011-03-10
来源:互联网
比如,我的博客www.manglu.net
我想抓取的有,
文章的内容,文章的作者,日期,文章的所有的内容。
我想要的是一个过程,有代码更好。
或者其他的网站比如csdn,某个板块内的所有主题,作者,和回帖者回帖内容等信息,如何抓取?
授之与鱼不如授之以渔,请大家交给我比较普遍的分析方法,谢谢,小弟新手。如果让小弟学到东西,小弟愿意抛分相送。谢谢
我想抓取的有,
文章的内容,文章的作者,日期,文章的所有的内容。
我想要的是一个过程,有代码更好。
或者其他的网站比如csdn,某个板块内的所有主题,作者,和回帖者回帖内容等信息,如何抓取?
授之与鱼不如授之以渔,请大家交给我比较普遍的分析方法,谢谢,小弟新手。如果让小弟学到东西,小弟愿意抛分相送。谢谢
作者: yudun1989 发布时间: 2011-03-10
有些网站,特别是blog,可以使用通用的rss来获取信息。比如你的http://manglu.net/?feed=rss2
在可能的情况下,使用rss api是推荐的方式。
大多数情况下可能无法使用rss,这时候只能自己去解析了。无非两部分:抓网页,分析数据。前者使用urllib/urllib2以及很多第三方工具,后者可以使用正则表达式,以及各种html parser。
你现在网上google下python爬虫吧。这是和你的需求比较接近的,例子很多,很容易参考。
在可能的情况下,使用rss api是推荐的方式。
大多数情况下可能无法使用rss,这时候只能自己去解析了。无非两部分:抓网页,分析数据。前者使用urllib/urllib2以及很多第三方工具,后者可以使用正则表达式,以及各种html parser。
你现在网上google下python爬虫吧。这是和你的需求比较接近的,例子很多,很容易参考。
作者: iambic 发布时间: 2011-03-10
看了下你的博客,做的不错啊。空间是哪里搞的?用什么开发的?
作者: iambic 发布时间: 2011-03-10
这个可以用python的HtmlParser类来提取数据,我都做了一个。
http://blog.csdn.net/bestdowt1314 里面有
http://blog.csdn.net/bestdowt1314 里面有
作者: bestdowt1314 发布时间: 2011-03-10
引用 2 楼 iambic 的回复:
看了下你的博客,做的不错啊。空间是哪里搞的?用什么开发的?
看了下你的博客,做的不错啊。空间是哪里搞的?用什么开发的?
额,php,用的wordpress。空间买的国外的
作者: yudun1989 发布时间: 2011-03-10
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28