【基础】搜索引擎不喜欢重复的东西

如果以偏文章在多个网站上出现,不管对于搜索引擎还是用户来说 都是很不喜欢的。所以搜索引擎再进行页面处理的时候还会进行去重复的操作。

去重的基本方法是对页面特征关键字(通常是出现频率最高的词,在分词,去除语气词,噪声后)计算指纹,一般会选取10个左右的特征词来计算指纹。所以现在有些伪原创是简单增加“的”,“得”,“吗”,或者换段落了的方法 是基本没效果的。 好一些的做法是使用同义词替换,替换通常也要选取频率最高的10个词进行替换。

作者: 瓦卡   发布时间: 2011-06-16