+ -
当前位置:首页 → 问答吧 → 搜索引擎的原理到底是什么?

搜索引擎的原理到底是什么?

时间:2011-07-13

来源:互联网

比如百度搜索新闻,它能够得到别的网站新闻的标题、时间、作者、来源、内容、那是一字不差,
我这样想,如果是一个网站,可以写规则,那么多网站不可能写那么多规则吧,
比如标题,有的用
<h3>标题</h3>
<h3 class="*">标题</h3>
<h3 id="*">标题</h3>
<p>标题</p>
...
标签不一样规则就不一样吧,百度如何做到的呢,那么准确,不可能写出万能的正则,要么那些网站提供了api,我觉得可能性很小,要么手动编辑内容,可能性更小。

作者: xxfaxy   发布时间: 2011-07-13

搜索引擎找的是html页面head里面的title,meta。。。。
换句话,title是写给搜索引擎看的,h1,h2,h3是写给人看的。。。。

作者: xyzbo01   发布时间: 2011-07-13

搜索引擎想采集新闻也是要看站的质量的,好站是方便采集的.

作者: chenyachao   发布时间: 2011-07-13

这个问题确实想不通啊。搜索引擎不仅搜索了title中的内容,还探测了网页上的内容。另外还实现了如此快速。

作者: lei_2050   发布时间: 2011-07-13

快速,应该是空间换时间的做法。就是不管你搜没搜,对应关键字的网站,标题,内容,排序就已经确定好了。你搜,显示出来就是了。

作者: xyzbo01   发布时间: 2011-07-13

爬虫采集+分词系统

作者: kyzy_yy_pm   发布时间: 2011-07-13

热门下载

更多