python如何解码ISO-8859-2格式。并转换为utf-8
时间:2011-06-06
来源:互联网
大家好。我现在想再多个网站中查找内容。比如在搜狐,网易上查找“李娜”相关的连接。这就需要把urllib2抓取到得网页源码统一转换为utf-8。我用下面的代码可以识别绝大多数的网页。
import sgmllib,urllib,urllib2
import re
import chardet
import StringIO
import gzip
opener = urllib2.build_opener()
request = urllib2.Request("http://www.163.com")
request.add_header('Accept-encoding', 'gzip')
page = opener.open(request)
predata = page.read()
pdata = StringIO.StringIO(predata)
gzipper = gzip.GzipFile(fileobj = pdata)
data = gzipper.read()
cd=chardet.detect(data)
print (cd['encoding'])
print(data.decode(cd['encoding'],'ignore').encode('utf-8','ignore'))
但是当我访问天涯论坛一个网页的时候却把所有的中文显示成了乱码
http://www.tianya.cn/publicforum/articleslist/0/help.shtml
看chardet的‘encoding’显示为ISO-8859-2格式的编码。可是
请问这样的情况应当如何处理?
(连天涯论坛首页都显示正常“http://www.tianya.cn/bbs/index.shtml”,就是上面那个论坛的页面显示乱码。)
import sgmllib,urllib,urllib2
import re
import chardet
import StringIO
import gzip
opener = urllib2.build_opener()
request = urllib2.Request("http://www.163.com")
request.add_header('Accept-encoding', 'gzip')
page = opener.open(request)
predata = page.read()
pdata = StringIO.StringIO(predata)
gzipper = gzip.GzipFile(fileobj = pdata)
data = gzipper.read()
cd=chardet.detect(data)
print (cd['encoding'])
print(data.decode(cd['encoding'],'ignore').encode('utf-8','ignore'))
但是当我访问天涯论坛一个网页的时候却把所有的中文显示成了乱码
http://www.tianya.cn/publicforum/articleslist/0/help.shtml
看chardet的‘encoding’显示为ISO-8859-2格式的编码。可是
请问这样的情况应当如何处理?
(连天涯论坛首页都显示正常“http://www.tianya.cn/bbs/index.shtml”,就是上面那个论坛的页面显示乱码。)
作者: ydnhwan 发布时间: 2011-06-06
用 chardet 还不如直接看 HTML 的 meta 标记:
HTML code
HTML code
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
作者: hpsmouse 发布时间: 2011-06-06
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28