首页手机软件手机游戏单机游戏资讯文章专题下载游戏合集文章合集 php下载 php教程电脑软件

+ -

当前位置：首页 → 问答吧 → Python抓取html信息

Python抓取html信息

时间：2011-03-22

来源：互联网

我现在手中有100多个html网页，每个网页里面都有类似
<tag class=好></tag>
这种，没有双引号的代码，我想要从这些html网页中提取我需要的信息，比如标题，或者里面的某些超级链接中，我应该用哪种方式呢？
开始我试着用正则匹配，发现自己老是出错，
然后我用BeautifulSoup,但是每到这种写的不规范的代码，就出错误了。
怎么办？

作者: yudun1989 发布时间: 2011-03-22

用正则式。

作者: witwolf 发布时间: 2011-03-22

Python code

re.findall(r'<tag class=([^<>]+)>', '<tag class=好></tag>')

unicode或者汉字编码问题自己解决。

作者: iambic 发布时间: 2011-03-22

相关阅读更多

卡尔达诺价格预测：ADA在关键均线下方挣扎，卖压持续

时间：2025-12-17
魔法工艺手游药水对应效果详情大全

时间：2025-12-17
迷雾北境新手强势旗帜及兵种搭配方案

时间：2025-12-17
千机阵小青汉阵容搭配及打法内容一览

时间：2025-12-17
恋与制作人八周年活动水墨画全探索步骤

时间：2025-12-17

热门阅读

office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐附激活工具
阅读：74
如何安装mysql8.0
阅读：31
Word快速设置标题样式步骤详解
阅读：28
20+道必知必会的Vue面试题（附答案解析）
阅读：37
HTML如何制作表单
阅读：22
百词斩可以改天数吗？当然可以，4个步骤轻松修改天数！
阅读：31
ET文件格式和XLS格式文件之间如何转化？
阅读：24
react和vue的区别及优缺点是什么
阅读：121
支付宝人脸识别如何关闭?
阅读：21
腾讯微云怎么修改照片或视频备份路径?
阅读：28

热门下载

更多

变异八爪鱼无敌版
休闲益智 44.12MB

下载
小小餐吧
休闲益智 14.13MB

下载
屋顶跑酷冒险
休闲益智 124.78MB

下载
梦幻时装秀游戏
休闲益智 75.9M

下载
心之钥
角色扮演 1.05GB

下载
列王的纷争手游最新版本
策略塔防 298.17MB

下载
星灵部落最新版
策略塔防 225.6MB

下载
屠夫英雄(无限钻石)
冒险解谜 144.07MB

下载
屠夫英雄
冒险解谜 144.97MB

下载
房产达人无限金币
模拟经营 161.44MB

下载