+ -
当前位置:首页 → 问答吧 → 字符串关键信息词提取,很有挑战,涉及知识很多

字符串关键信息词提取,很有挑战,涉及知识很多

时间:2010-09-21

来源:互联网

输入两个字符串:

比如说:
百度-----》就是一个字符串,还可以为空

百度网 百度文库 百度知道 百度框计算--------》相当于一个字符串组,每个字符串之间以一个特殊符号(比如:空格,\t)分割;

要提取两者的主要信息(比如上面就是“百度”或者“百度网”),


还有一个情况就是第一个字符串可能跟第二个字符串组没有联系,

比如:

text

百度网 百度文库 百度知道 百度框计算

那么提取信息就要靠第二个字符串组来处理,得到的结果应该是与第一种情况大致相同的,不应该有太大的差别;

现在的问题是如何获得这个主要信息;


我想了一个最笨的办法,就是从一个字开始一直到最后的多个字 在这两个字符串中逐一比较,看谁的个数最多关键信息就是哪个,但是这样的话要去掉“的”“了”之类的,而且感觉效率很低,想了好几天了没有什么好的思路,发个帖子问问大家的看法,不用写代码,只要说出你的想法,给我一些提示就好,小弟谢过各位了~

作者: powerwei_li   发布时间: 2010-09-21

google 中文分词

作者: phy0077   发布时间: 2010-09-21

分词,然后计算每个词的个数,
个数最多的,就是关键词了。

作者: lenovo   发布时间: 2010-09-21

哥们,玩得够深的啊

作者: starzhestarzhe   发布时间: 2010-09-21

GFW?

作者: prolj   发布时间: 2010-09-21