字符串关键信息词提取,很有挑战,涉及知识很多
时间:2010-09-21
来源:互联网
输入两个字符串:
比如说:
百度-----》就是一个字符串,还可以为空
百度网 百度文库 百度知道 百度框计算--------》相当于一个字符串组,每个字符串之间以一个特殊符号(比如:空格,\t)分割;
要提取两者的主要信息(比如上面就是“百度”或者“百度网”),
还有一个情况就是第一个字符串可能跟第二个字符串组没有联系,
比如:
text
百度网 百度文库 百度知道 百度框计算
那么提取信息就要靠第二个字符串组来处理,得到的结果应该是与第一种情况大致相同的,不应该有太大的差别;
现在的问题是如何获得这个主要信息;
我想了一个最笨的办法,就是从一个字开始一直到最后的多个字 在这两个字符串中逐一比较,看谁的个数最多关键信息就是哪个,但是这样的话要去掉“的”“了”之类的,而且感觉效率很低,想了好几天了没有什么好的思路,发个帖子问问大家的看法,不用写代码,只要说出你的想法,给我一些提示就好,小弟谢过各位了~
比如说:
百度-----》就是一个字符串,还可以为空
百度网 百度文库 百度知道 百度框计算--------》相当于一个字符串组,每个字符串之间以一个特殊符号(比如:空格,\t)分割;
要提取两者的主要信息(比如上面就是“百度”或者“百度网”),
还有一个情况就是第一个字符串可能跟第二个字符串组没有联系,
比如:
text
百度网 百度文库 百度知道 百度框计算
那么提取信息就要靠第二个字符串组来处理,得到的结果应该是与第一种情况大致相同的,不应该有太大的差别;
现在的问题是如何获得这个主要信息;
我想了一个最笨的办法,就是从一个字开始一直到最后的多个字 在这两个字符串中逐一比较,看谁的个数最多关键信息就是哪个,但是这样的话要去掉“的”“了”之类的,而且感觉效率很低,想了好几天了没有什么好的思路,发个帖子问问大家的看法,不用写代码,只要说出你的想法,给我一些提示就好,小弟谢过各位了~
作者: powerwei_li 发布时间: 2010-09-21
google 中文分词
作者: phy0077 发布时间: 2010-09-21
分词,然后计算每个词的个数,
个数最多的,就是关键词了。
个数最多的,就是关键词了。
作者: lenovo 发布时间: 2010-09-21
哥们,玩得够深的啊
作者: starzhestarzhe 发布时间: 2010-09-21
GFW?
作者: prolj 发布时间: 2010-09-21
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28