首页手机软件手机游戏单机游戏资讯文章专题下载游戏合集文章合集 php下载 php教程电脑软件

+ -

当前位置：首页 → 问答吧 → 关于网页截取的问题

关于网页截取的问题

时间：2011-12-16

来源：互联网

我写了个网页抓取的程序要抓取网页信息
已经可以抓到
<tr><td style="width:90px;">****</td><td title="******" style="width:169px;">******</td>
<td style="width:57px;">4</td><td style="width:57px;">38.6</td></tr>

并且用
String s = textnode.toHtml();//这个就是那个抓取得到的<tr></tr>那一串
Pattern p = Pattern.compile("(?i)<td\\s+.*?>(.*?)</td>");
Matcher m = p.matcher(s);
while(m.find()) {
MailDao.writeFile("", m.group(1));
}
因为网页中有很多个<tr><td></td>....<td></td></tr>有时候如果串行的话比如
.....<td ...
>***</td>
那我想得到的***就截不出来了求解决办法
最后那个writeFile是要写出生成excel的所以<tr></tr>中截得的<td></td>中间数据是要分行输出的

作者: dammmer 发布时间: 2011-12-16

能不能先获取全部然后，把标签都替换掉

作者: boyone2009 发布时间: 2011-12-16

那个截取不到的例子应该是这样的
...<td...>***
</td>...
这样那个***就截取不出来了

作者: dammmer 发布时间: 2011-12-16

不行因为要生成excel表格截取的数据要写到excel表格中

作者: dammmer 发布时间: 2011-12-16

改成这样试试：
Pattern p = Pattern.compile("(?i)(?s)<td\\s+.*?>(.*?)</td>");

作者: lmcj001 发布时间: 2011-12-16

那样虽然是解出来了但也多截了个空串出来输入到excel时候还是会串行

作者: dammmer 发布时间: 2011-12-16

引用 5 楼 dammmer 的回复:
那样虽然是解出来了但也多截了个空串出来输入到excel时候还是会串行

那空串应该是换行符之类的，replace掉。

作者: lmcj001 发布时间: 2011-12-16

这样?
String s = textnode.toHtml().replaceAll("\r\n","");
...
...
输出来还是不对

作者: dammmer 发布时间: 2011-12-16

这样
String s = textnode.toHtml();
s = s.toString().replaceAll("\r\n","");
也不行

作者: dammmer 发布时间: 2011-12-16

这样：
m.group(1).replaceAll("\\s", "")

作者: lmcj001 发布时间: 2011-12-16

得到的s在控制台还是两行输出的,得到excel还是串行

作者: dammmer 发布时间: 2011-12-16

引用 9 楼 lmcj001 的回复:
这样：
m.group(1).replaceAll("\\s", "")

这个好使了但是我想知道为什么我这样写
String s = textnode.toHtml().replaceAll("\r\n","");
就不好使呢

作者: dammmer 发布时间: 2011-12-16

在用正则表达式替换的时候，\s 表示空白字符：[\t\n\x0B\f\r]

作者: lmcj001 发布时间: 2011-12-16

相关阅读更多

专家预测2025年底XRP和卡尔达诺（ADA）的价格

时间：2025-09-10
Egrag Crypto 致 XRP 投资者：我 100% 正确

时间：2025-09-10
无限暖暖微风绿野13个服装宝箱位置点位

时间：2025-09-10
山海仙路暗号消息详情答案合集(持续更新)

时间：2025-09-10
燕云十六声秦川音律挑战敲击顺序详情(附图)

时间：2025-09-10

热门阅读

office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐附激活工具
阅读：74
如何安装mysql8.0
阅读：31
Word快速设置标题样式步骤详解
阅读：28
20+道必知必会的Vue面试题（附答案解析）
阅读：37
HTML如何制作表单
阅读：22
百词斩可以改天数吗？当然可以，4个步骤轻松修改天数！
阅读：31
ET文件格式和XLS格式文件之间如何转化？
阅读：24
react和vue的区别及优缺点是什么
阅读：121
支付宝人脸识别如何关闭?
阅读：21
腾讯微云怎么修改照片或视频备份路径?
阅读：28

热门下载

更多

tagoo
聊天通讯 86.1M

下载
黑头清洁诊所
休闲益智 111.6M

下载
史莱姆幸存者
动作格斗 89.6M

下载
暗影之子
动作格斗 451.5M

下载
异常调查局恐怖酒店2
动作格斗 93.3M

下载
盛世天下手游下载
角色扮演 406.16M

下载
新仙魔九界官网下载手机版
角色扮演 112.61MB

下载
大神捕鱼官网安卓版下载
休闲益智 291.27MB

下载
集合吧七骑士手游下载
棋牌卡牌 1.15G

下载
大神捕鱼百度版游戏下载
模拟经营 291.27MB

下载