【求助】cmd下type 网页文件 汉子为乱码
时间:2010-06-23
来源:互联网
我的系统是windows,但是linux下的常用命令行工具也有,比如sed,grep。
我是想对网页文件用sed,grep分析进行处理,找到我想要的链接地址,可我遇到了编码的问题。
大家可以把dos联盟http://www.cn-dos.net/forum/index.php
的网页文件脱机存盘【保存类型选择仅html】,然后在cmd下type 这个文件,里面的汉子会全成了乱码;
为了这个问题,我在网上搜索了下编码的原理,联盟论坛的源文件里有
复制代码
说明htm文件要显示的内容在源文件中是以utf-8编码的,我从网上得知,并用winhex作实验知道:
复制代码
我在查看联盟的网页文件,文件头没有eebbbf字样,说明从文本的方式来看源文件是ascii编码的。
那么我想,要让cmd识别htm文件里的汉子,首先得把htm的源文件里要显示的汉子转换为ascii才行,这个转换我不知道是怎么实现的,但是我知道用notepad就可以很简单的另存为ascii来实现。
========================================
1. 以上只是我个人对编码的理解,如果有误请大家指出。
2. 大家能否说下记事本转换的原理,或者提下这种转换的vbs代码或者是命令行工具【是把utf-8的htm文件转换为ascii编码的htm文件】
我是想对网页文件用sed,grep分析进行处理,找到我想要的链接地址,可我遇到了编码的问题。
大家可以把dos联盟http://www.cn-dos.net/forum/index.php
的网页文件脱机存盘【保存类型选择仅html】,然后在cmd下type 这个文件,里面的汉子会全成了乱码;
为了这个问题,我在网上搜索了下编码的原理,联盟论坛的源文件里有
- <html>
- <head>
- <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
- utf-8编码的文本文件前三个字符是 ee bb bf,英文字符占一个字节,汉字占三个字节。
那么我想,要让cmd识别htm文件里的汉子,首先得把htm的源文件里要显示的汉子转换为ascii才行,这个转换我不知道是怎么实现的,但是我知道用notepad就可以很简单的另存为ascii来实现。
========================================
1. 以上只是我个人对编码的理解,如果有误请大家指出。
2. 大家能否说下记事本转换的原理,或者提下这种转换的vbs代码或者是命令行工具【是把utf-8的htm文件转换为ascii编码的htm文件】
作者: plp626 发布时间: 2010-06-23
我用的Google Chromium浏览器,Ctrl+S另存你给的那个DOS网页,用记事本或者Notepad++打开,都是正常的UTF-8编码。
此外,UTF-8编码的文件不一定非要在开头加上三字节的BOM,charset=utf-8就已经说明编码了。
如果你需要将该网页的UTF-8编码转为国标编码,例如:GB18030或GBK或更早的GB2312。注意不是ASCII,ASCII标准从来没支持过汉字,中国大陆最早支持的汉字编码是HZ(每字节7位的编码)和GB2312。
可以用iconv.exe(需要cygwin支持)或Linux命令行iconv来完成。
复制代码
此外,UTF-8编码的文件不一定非要在开头加上三字节的BOM,charset=utf-8就已经说明编码了。
如果你需要将该网页的UTF-8编码转为国标编码,例如:GB18030或GBK或更早的GB2312。注意不是ASCII,ASCII标准从来没支持过汉字,中国大陆最早支持的汉字编码是HZ(每字节7位的编码)和GB2312。
可以用iconv.exe(需要cygwin支持)或Linux命令行iconv来完成。
- iconv -f UTF-8 -t GBK -o target.txt source.txt
作者: 没本 发布时间: 2010-06-24
另外,是汉字而不是汉子,汉子可转不了。
作者: 没本 发布时间: 2010-06-24
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28