+ -
当前位置:首页 → 问答吧 → Python抓取html信息

Python抓取html信息

时间:2011-03-22

来源:互联网

我现在手中有100多个html网页,每个网页里面都有类似
<tag class=好></tag>
这种,没有双引号的代码,我想要从这些html网页中提取我需要的信息,比如标题,或者里面的某些超级链接中,我应该用哪种方式呢?
开始我试着用正则匹配,发现自己老是出错,
然后我用BeautifulSoup,但是每到这种写的不规范的代码,就出错误了。
怎么办?

作者: yudun1989   发布时间: 2011-03-22

用正则式。

作者: witwolf   发布时间: 2011-03-22

Python code
re.findall(r'<tag class=([^<>]+)>', '<tag class=好></tag>')

unicode或者汉字编码问题自己解决。

作者: iambic   发布时间: 2011-03-22