+ -
当前位置:首页 → 问答吧 → 想不明白,纠结中

想不明白,纠结中

时间:2010-11-11

来源:互联网

想拿这个网页 http://www.tw-online.com.tw/Chinese/Detail.asp?custid=151255 中的公司名称,却拿不到,大家帮忙看看是
哪里出里问题,代码如下:
#!/usr/bin/python
# -*- encoding:utf-8 -*-

import urllib2,urllib
import re

response = urllib2.urlopen(url="http://www.tw-online.com.tw/Chinese/Detail.asp?custid=151255")
r = re.compile(r'<td colspan="2"><font size="2" color="#990000">(.*)</font>')
m = r.search(response.read())
if m != None:
print m.group(1)


#改成string进行匹配
"""
string = '<td colspan="2"><font size="2" color="#990000">日隆貿易股份有限公司 </font></td>'
r = re.compile(r'<td colspan="2"><font size="2" color="#990000">(.*)</font>')
m = r.search(string)
print m.group(1).strip()
"""

为什么第一个没有输出,而改成string时,却能取到 日隆貿易股份有限公司。纠结中

作者: cluste   发布时间: 2010-11-11

一、检查response.read()的输出,确认下到底有没有你想要找的东西。
二、.*不能匹配换行,如果包含换行,要加re.S。

作者: iambic   发布时间: 2010-11-11