关于语料处理的一个Perl程序求指教
时间:2011-04-27
来源:互联网
毕业设计和语料库有关,最近在研究一个前辈留下的程序,程序如下,功能是为了把原本的语料库中的词性标注和拼音标注,只留下字和逗号顿号,并分成短句。但为什么经过第一步处理之后,会有一部分语料丢失了呢?毕业设计提交在即,请求解答,谢谢各位。
复制代码
原始数据:
二○○○年/t 贺词/n
———/wp 在/p 首都/n 各界/r 迎接/v 新/a 世纪/n 和/c 新/a 千年/t 庆祝/vn 活动/vn 上{shang5}/f 的/ud 讲话/n
(/wkz 一九九九年/t 十二月/t 三十一日/t )/wky
江/nrf 泽民/nrg
女士/n 们/k ,/wd 先生/n 们/k ,/wd 同志/n 们/k ,/wd
朋友/n 们/k :/wm
二○○○年/t 到来/vi 的/ud 钟声/n ,/wd 就要/d 鸣响/vi 在/p 我们/rr 这个/r 星球/n 的/ud 寥廓/z 上空/s 。/wj 人类/n 文明/n 的/ud 发展/vn ,/wd 即将/d 进入/v 一个/mq 新/a 世纪/n ,/wd 开启/v 一个/mq 新/a 千年/t 。/wj 今夜/t ,/wd 在/p 世界/n 的/ud 东方/f 与/c 西方/f 、/wu 南方/f 与/c 北方/f ,/wd 各国/r 人民/n 无/df 分/v 民族/n 、/wu 无/df 分/v 信仰/n ,/wd 都/d 在/d 为{wei4}/p 这/r 一/m 历史/n 时刻/n 的/ud 来临/vn 而/c 欢欣鼓舞/iv 。/wj 首先/d ,/wd 我/rr 向/p 全国/n 各族/r 人民/n 和/c 海外/s 侨胞/n ,/wd 祝贺/v 新年/t 快乐/a !/wt 并/c 致以/v 新/a 世纪/n 、/wu 新/a 千年/t 的/ud 最/dc 良好/a 祝愿/vn !/wt
处理后输出数据:
二○○○年 到来 的 钟声 , 就要 鸣响 在 我们 这个 星球 的 寥廓 上空
人类 文明 的 发展 , 即将 进入 一个 新 世纪 , 开启 一个 新 千年
今夜 , 在 世界 的 东方 与 西方 、 南方 与 北方 , 各国 人民 无 分 民族 、 无 分 信仰 , 都 在 为 这 一 历史 时刻 的 来临 而 欢欣鼓舞
首先 , 我 向 全国 各族 人民 和 海外 侨胞 , 祝贺 新年 快乐
并 致以 新 世纪 、 新 千年 的 最 良好 祝愿
- #! perl -w
- while(<>)
- {
- chomp;
- if(s/。|!/\n/g)
- {
- if(s/\/\w*\S*?/ /g)
- {
- s/\{\w+\d\}//g;
- s/]\w+/]/g;
- print "$_";
- }
-
- }
- }
二○○○年/t 贺词/n
———/wp 在/p 首都/n 各界/r 迎接/v 新/a 世纪/n 和/c 新/a 千年/t 庆祝/vn 活动/vn 上{shang5}/f 的/ud 讲话/n
(/wkz 一九九九年/t 十二月/t 三十一日/t )/wky
江/nrf 泽民/nrg
女士/n 们/k ,/wd 先生/n 们/k ,/wd 同志/n 们/k ,/wd
朋友/n 们/k :/wm
二○○○年/t 到来/vi 的/ud 钟声/n ,/wd 就要/d 鸣响/vi 在/p 我们/rr 这个/r 星球/n 的/ud 寥廓/z 上空/s 。/wj 人类/n 文明/n 的/ud 发展/vn ,/wd 即将/d 进入/v 一个/mq 新/a 世纪/n ,/wd 开启/v 一个/mq 新/a 千年/t 。/wj 今夜/t ,/wd 在/p 世界/n 的/ud 东方/f 与/c 西方/f 、/wu 南方/f 与/c 北方/f ,/wd 各国/r 人民/n 无/df 分/v 民族/n 、/wu 无/df 分/v 信仰/n ,/wd 都/d 在/d 为{wei4}/p 这/r 一/m 历史/n 时刻/n 的/ud 来临/vn 而/c 欢欣鼓舞/iv 。/wj 首先/d ,/wd 我/rr 向/p 全国/n 各族/r 人民/n 和/c 海外/s 侨胞/n ,/wd 祝贺/v 新年/t 快乐/a !/wt 并/c 致以/v 新/a 世纪/n 、/wu 新/a 千年/t 的/ud 最/dc 良好/a 祝愿/vn !/wt
处理后输出数据:
二○○○年 到来 的 钟声 , 就要 鸣响 在 我们 这个 星球 的 寥廓 上空
人类 文明 的 发展 , 即将 进入 一个 新 世纪 , 开启 一个 新 千年
今夜 , 在 世界 的 东方 与 西方 、 南方 与 北方 , 各国 人民 无 分 民族 、 无 分 信仰 , 都 在 为 这 一 历史 时刻 的 来临 而 欢欣鼓舞
首先 , 我 向 全国 各族 人民 和 海外 侨胞 , 祝贺 新年 快乐
并 致以 新 世纪 、 新 千年 的 最 良好 祝愿
作者: sunhanghe 发布时间: 2011-04-27
- #!/usr/bin/perl
-
- use strict;
- use warnings;
- while(<DATA>)
- {
- chomp;
- s/。|!/\n/g;
- if(s/\/\w*\S*?/ /g)
- {
- s/\{\w+\d\}//g;
- s/]\w+/]/g;
- }
- s/\s//g; #我加的一行,去空格
- print "$_\n";
- }
作者: iamlimeng 发布时间: 2011-04-27
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28