+ -
当前位置:首页 → 问答吧 → 搜索引擎之形成网页中词项的基本权重

搜索引擎之形成网页中词项的基本权重

时间:2011-01-06

来源:互联网

网页信息和正文文本最重要的差别就是在网页中含有大量的 HTML 标签(tag)。因此,我们在天网中提出了一个改进的 TF*IDF[Baeza-Yates and Ribeiro-Neto,1999],[Church and Hanks,1990]算法用于检索和相关度评价算法。相 对传统的 IR 而言,增加了对 HTML 标签和网页的可索引文本长度。可索引文本 长度表示用户通过浏览器窗口看到的一个网页的文本内容长度

考虑被 HTML 标签包围的一段文本内容,到底这些标签应该如何影响这段内 容呢?天网将所有的标签分为两类:一类是影响文本权值的标签,如<FONT>、 <H1>等;另一类是不影响文本权值的标签,如<IMG>、<FRAME>等。在此我们 选择表 10-2 中的标签作为影响文本权值的标签。
对于一个网页,首先给予该网页中的每个特征项一个缺省的权值W0。
..............

本帖为摘要,原帖地址:http://www.seomimic.com/758.html

作者: 小排777   发布时间: 2011-01-06

自己沙发了先!

作者: 小排777   发布时间: 2011-01-06

支持下

作者: ttyy2012   发布时间: 2011-01-06