Python3.2邮件解码
时间:2011-03-18
来源:garfieldtom
Python3.2中字符串全是unicode,接收邮件retr返回的信息message是bytes列表。
测试过程中发现Python3.2 接收邮件后的处理和Python 2.X差别很大,原来可以正确解码的邮件都要另行处理,包括mail.as_string()和message_from_string()和message_from_file()都有时会出问题。而新引入的message_from_bytes()则要好用得多。但考虑到国内邮件的复杂情况(哇,真的好复杂啊,主要是邮件的编码,规范的和不规范的),邮件解码经常出现乱码问题。chardet给出的结果也有问题,比如说邮件中有未编码处理的英文和中文混合的情况,它测得的编码有时也会发生错误,这样就造成了解码错误出现乱码。
我使用了一个比较笨的办法:
先利用chardet来解码出邮件文本:
ms=''
for l in message:
charset=chardet.detect(l)['encoding']
if charset:
ms+=l.decode(charset)+'\n'
else:
ms+=l.decode()
这其中可能有乱码,先不管它,因为我们主要为了取得charset信息,然后:
#判断编码
import re
cp=re.compile('charset=\S+')
m=cp.search(ms).group()
eCharset=m[9:len(m)-1]
好了,再根据这个eCharset去解码邮件原始的bytes就可以了。
(没有做大范围的测试,这个办法有点笨,但可以解决部分乱码问题)
注意:
mail=email.message_from_string(ms)
成功后,再调用mail.as_string()有时还是会出问题,真搞不懂。
欢迎大侠指教!
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28