仿“拼音居士”,Word宏源码,20万词语库,尝试解决多音字的标注。
时间:2009-03-02
来源:互联网
这是努力模仿守柔版主的“拼音居士”写出来的代码。请守柔版主原谅“盗版”。
采用按照word的词语为单位进行处理,因为使用来庞大的拼音库,可以解决大多数多音字的拼音。可惜处理速度过慢,所以发出来请各位大侠指导,问题出在哪里。测试文档“春”守柔版主的“拼音居士”按字处理,在我的机子中耗时20秒,我的程序按词处理却用了50秒。原以为三拼音库过大,使用小体积的单字拼音文本库按字为单位进行处理,也没有明显提高。有没有更快的快速提取需要记录文本的方法?或者其他提高速度的办法,请指教呀!为什么守柔版主的“拼音居士”处理速度那么快?看来是读取方式的问题。所以请各位版主给出更好的处理Word的方法。
非常感谢!
下载:http://blogimg.chinaunix.net/blog/upfile2/090301214048.rar
以上下载的程序有错误,修正了一下,可以标注引号中词语。请下载附件覆盖即可。
使用:用来取得拼音,打开测试文档,请先选定文本,一次不要选太多哟。然后点击“标注拼音”按钮。
[email protected] 2009.3.1
[ 本帖最后由 wjhere 于 2009-3-4 22:19 编辑 ]
附件

2009-3-4 22:19, 下载次数: 113
对不起,这个才对。
作者: wjhere 发布时间: 2009-03-02
我说一下我目前的思路:
我没有找到合适的词(字)库,我是用王码86字库逆转换而来,约为56000个字和词,经过Word的词组检查和去除重复字、词(说明:中文词组在Word中并非必定是Word(词)对象,如“组织纪律性”,“组织纪律”是一个Word),数量大概在53000个左右,因为昨晨的编程(筛选)思路不是非常到位,所以,词组可能存在一些问题,我拟今天解决词库的问题,但显示这个词库可能会小一些。
撇开词库不说,从词到注音,与从字到注音,是有区别的。我需要重新更新思路。
我暂时没有下载楼主的程序,以免影响我的思路。
我们可以在稍修的时间中,保持交流,择其优者以趋之。
另外,字词库的结构也是很重要的,如果是20万字词库,如果调用数据库,必须实践检验之,方法可能很多,但结构(数据库)和方法非常重要。
作者: 守柔 发布时间: 2009-03-02

作者: hhzjxss 发布时间: 2009-03-02
在下有点疑问:为什么一定要大而全的词库呢?只要相对数量少点的多音字词库不是效率高点吗?
也就是 只针对有多音的字进行词组识别,效率不是提高点了
作者: coby001 发布时间: 2009-03-03
作者: wjhere 发布时间: 2009-03-03
附件

2009-3-14 00:52, 下载次数: 26
作者: wjhere 发布时间: 2009-03-14
作者: houxiaolei 发布时间: 2010-02-22
作者: kqbt 发布时间: 2010-06-29
作者: lzqlaj 发布时间: 2010-06-29
作者: renqiang851224 发布时间: 2010-07-01
作者: youliqi 发布时间: 2010-07-06
作者: 272390116 发布时间: 2010-11-10
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28