+ -
当前位置:首页 → 问答吧 → 求书。。。。

求书。。。。

时间:2011-08-11

来源:互联网

嘿嘿,在UNIX下面已经有了wc这个程序可以计算文件中的字节、字符和单词数等文件信息了,
不过貌似wc不能正确计算汉字的个数,更别提计算的时候不包括标点符号了。

因此,本着程序员的精神(其实我不是程序员,只是一介书生 ),我写了个计算汉字的程序,
而且计算的值当中不包含标点符号的数目。

代码在附件中,要说明的是,如果要扩充程序所识别的标点符号的种类,修改punctuation数组,minuend
的值为标点符号的个数,cnt为所有字符的数目。思路挺简单的,就是分别计算cnt和minuend然后相减而已。

这个程序是用来处理UTF-8编码的文件的,因此其实除了计算汉字个数,也可以准确计算英文字符,当然,单词不行
也因此,标点符号其实也可以使用英文的标点符号,反正都是UTF-8编码
附件:
文件注释: 汉字字数统计小程序
word_count.c [1.58 KiB]
被下载 2 次

作者: liu滔   发布时间: 2011-08-11

不是有strlen么……

作者: 月下叹逍遥   发布时间: 2011-08-11

月下叹逍遥 写道:
不是有strlen么……

strlen只能计算一个字符串的长度,对于一个UTF-8字符,因为没有在结尾以'\0'结束,所以strlen不会把它当作一个字符串,因此strlen其实不能计算汉字的个数,它只能计算字符串的长度,也就是字节数

作者: liu滔   发布时间: 2011-08-11