Ubuntu中文支持问题真是让人很纠结。
时间:2010-12-22
来源:互联网
1. windows下,用记事本创建的文本文件默认为ANSI编码,在大陆当然就是用的GB2321编码了。
2.记事本创建的ANSI文件是不具有文件识别头的(不知道叫什么,反正就是插入在文件开头区别不不同编码方式的几个字节),自第一个字节起便是文件内容。
3.用记事本另存为创建的UTF-8编码方式的文件是具有EF BB BF三个字节的文件识别头的。因此自第四个字节起的编码才是真正的文件内容。
4.用记事本另存为创建的Unicode编码方式的文件是具有FF FE两个字节的文件识别头的。因此自第三个字节起的编码才是真正的文件内容。
5.显然,记事本读取文件时自动把文件头信息滤去,只显示其后的文本。
(空一行,下面是Linux的:)
6.Linux下的默认编码通通为UTF-8编码。
7.在Ubuntu环境下,用gedit创建的文件默认是UTF-8编码,而且不具有文件头。特别强调,不具有EF BB BF的文件识别头。
(联系:)
8.Linux下文件在windows中记事本都能正常显示
9.Linux下创建的UTF-8文件在记事本中能正常显示。(虽然不具有EF BB BF的文件头)
问题是,记事本是怎么识别出Linux下创建的不具有文件头的UTF-8文件(UTF-8编码)和自己创建的ANSI文件(GB2321编码)并用正确的编码去正常显示的呢?
补充:
10.用gedit打开记事本保存的ANSI文件时不能正常识别,提示选编码,选则GB2321后正常显示。
11.用gedit打开记事本保存的UTF-8文件(含文件头信息),正常显示,无提示。
12.用gedit打开记事本保存的Unicode文件正常显示,但是图标预览上头两个字节确实乱码,呵呵,这一点很怪,难道图标预览上显示时是用UTF-8去解码的,而打开时自动滤去文件头?。
最后由 智上思下 编辑于 2010-12-22 12:55,总共编辑了 1 次
作者: 智上思下 发布时间: 2010-12-22
中文会乱码
作者: BigSnake.NET 发布时间: 2010-12-22



作者: acer4740 发布时间: 2010-12-22
中文会乱码
xp?没试过,至少Windows 7是这样。
作者: 智上思下 发布时间: 2010-12-22

Selection_001.png [ 4.17 KiB | 被浏览 17 次 ]
上图,头两个字节乱码,其实是Unicode编码的文件头FF FE而已
作者: 智上思下 发布时间: 2010-12-22
1. windows下,用记事本创建的文本文件默认为ANSI编码,在大陆当然就是用的GB2321编码了。
2.记事本创建的ANSI文件是不具有文件识别头的(不知道叫什么,反正就是插入在文件开头区别不不同编码方式的几个字节),自第一个字节起便是文件内容。
3.用记事本另存为创建的UTF-8编码方式的文件是具有EF BB BF三个字节的文件识别头的。因此自第四个字节起的编码才是真正的文件内容。
4.用记事本另存为创建的Unicode编码方式的文件是具有FF FE两个字节的文件识别头的。因此自第三个字节起的编码才是真正的文件内容。
5.显然,记事本读取文件时自动把文件头信息滤去,只显示其后的文本。
(空一行,下面是Linux的:)
6.Linux下的默认编码通通为UTF-8编码。
7.在Ubuntu环境下,用gedit创建的文件默认是UTF-8编码,而且不具有文件头。特别强调,不具有EF BB BF的文件识别头。
(联系:)
8.Linux下文件在windows中记事本都能正常显示
9.Linux下创建的UTF-8文件在记事本中能正常显示。(虽然不具有EF BB BF的文件头)
问题是,记事本是怎么识别出Linux下创建的不具有文件头的UTF-8文件(UTF-8编码)和自己创建的ANSI文件(GB2321编码)并用正确的编码去正常显示的呢?
补充:
10.用gedit打开记事本保存的ANSI文件时不能正常识别,提示选编码,选则GB2321后正常显示。
11.用gedit打开记事本保存的UTF-8文件(含文件头信息),正常显示,无提示。
12.用gedit打开记事本保存的Unicode文件正常显示,但是图标预览上头两个字节确实乱码,呵呵,这一点很怪,难道图标预览上显示时是用UTF-8去解码的,而打开时自动滤去文件头?。
最后由 智上思下 编辑于 2010-12-22 12:55,总共编辑了 1 次
作者: 智上思下 发布时间: 2010-12-22
中文会乱码
作者: BigSnake.NET 发布时间: 2010-12-22



作者: acer4740 发布时间: 2010-12-22
中文会乱码
xp?没试过,至少Windows 7是这样。
作者: 智上思下 发布时间: 2010-12-22

Selection_001.png [ 4.17 KiB | 被浏览 18 次 ]
上图,头两个字节乱码,其实是Unicode编码的文件头FF FE而已
作者: 智上思下 发布时间: 2010-12-22
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28