如何知道一个文件用的是什么编码?
时间:2009-01-16
来源:互联网
又或者不知道这些文件编码的情况下如何转换为utf8?
作者: Hosanna 发布时间: 2009-01-16
作者: richardpku 发布时间: 2009-01-16
我这个的东西利用了python的chardet
一个可以猜测编码的库
作者: zhllg 发布时间: 2009-01-16
作者: Hosanna 发布时间: 2009-01-16
作者: axlrose 发布时间: 2009-01-17
thx.
作者: bigbusyboy 发布时间: 2009-01-17
作者: bigbusyboy
how to solve "No module named chardet"?
thx. |
作者: crccw 发布时间: 2009-01-17
作者: crccw
emerge dev-python/chardet
|
看样不会python不好意思给你们gentoo用户打招呼啊~
作者: bigbusyboy 发布时间: 2009-01-20
作者: zhllg 发布时间: 2009-01-20
作者: crccw 发布时间: 2009-01-20
ef bb bf 开始的表示 utf8
FE FF/FF FE 表示小头/大头 utf16,M$混淆为 ucs-2(大头在m$网络文档又混淆为网络字节序,死也不肯招是unix序)
ff fe 00 00/00 00 ff fe 则分别表示 utf32 小头/大头
通常程序只能检测local码跟utf码,也就是说通常识别gbk 或 utf,而无法区别gbk shift-jis 这样的编码,硬要实现则必须进行全文编码识别(搜索所有文字的字节表示的范围属于哪个local)。
update:
也就是说通常识别gbk 或 utf,而无法区别gbk shift-jis 这样的编码
也就是说通常识别gbk/shift-jis 还是 utf,而无法区别gbk 还是 shift-jis 这样的编码,换句话说,区别是ascii、utf、非utf 的local编码 三种,而非utf的local 要再细化成gbk/shift-jis 类似则需要进行全文byte上下标范围收集才可以,工作量很大
作者: arli 发布时间: 2009-01-20
比如gbk, shift-jis
当然样本要足够大,才能更准确
作者: zhllg 发布时间: 2009-01-20
作者: arli
不太清楚意图。。就我知道的几种常见的格式(以指定十六进制开始的):
ef bb bf 开始的表示 utf8 FE FF/FF FE 表示小头/大头 utf16,M$混淆为 ucs-2(大头在m$网络文档又混淆为网络字节序,死也不肯招是unix序) ff fe 00 00/00 00 ff fe 则分别表示 utf32 小头/大头 通常程序只能检测local码跟utf码,也就是说通常识别gbk 或 utf,而无法区别gbk shift-jis 这样的编码,硬要实现则必须进行全文编码识别(搜索所有文字的字节表示的范围属于哪个local)。 |
作者: richardpku 发布时间: 2009-01-20
作者: 食古不化 发布时间: 2009-01-20
作者: Reiase 发布时间: 2009-01-21
作者: 食古不化
那个能做到全文识别呢?
|
作者: zhllg 发布时间: 2009-01-21
>>>import chardect
>>>file=open('/aa/bb/cc/dd')
>>>a=file.read()
>>>file.close()
>>>encoding=chardet.detect(a)['encoding']
>>>print encoding
作者: 三翻领 发布时间: 2009-01-21
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28