搜索引擎的原理到底是什么?
时间:2011-07-13
来源:互联网
比如百度搜索新闻,它能够得到别的网站新闻的标题、时间、作者、来源、内容、那是一字不差,
我这样想,如果是一个网站,可以写规则,那么多网站不可能写那么多规则吧,
比如标题,有的用
<h3>标题</h3>
<h3 class="*">标题</h3>
<h3 id="*">标题</h3>
<p>标题</p>
...
标签不一样规则就不一样吧,百度如何做到的呢,那么准确,不可能写出万能的正则,要么那些网站提供了api,我觉得可能性很小,要么手动编辑内容,可能性更小。
我这样想,如果是一个网站,可以写规则,那么多网站不可能写那么多规则吧,
比如标题,有的用
<h3>标题</h3>
<h3 class="*">标题</h3>
<h3 id="*">标题</h3>
<p>标题</p>
...
标签不一样规则就不一样吧,百度如何做到的呢,那么准确,不可能写出万能的正则,要么那些网站提供了api,我觉得可能性很小,要么手动编辑内容,可能性更小。
作者: xxfaxy 发布时间: 2011-07-13
搜索引擎找的是html页面head里面的title,meta。。。。
换句话,title是写给搜索引擎看的,h1,h2,h3是写给人看的。。。。
换句话,title是写给搜索引擎看的,h1,h2,h3是写给人看的。。。。
作者: xyzbo01 发布时间: 2011-07-13
搜索引擎想采集新闻也是要看站的质量的,好站是方便采集的.
作者: chenyachao 发布时间: 2011-07-13
这个问题确实想不通啊。搜索引擎不仅搜索了title中的内容,还探测了网页上的内容。另外还实现了如此快速。
作者: lei_2050 发布时间: 2011-07-13
快速,应该是空间换时间的做法。就是不管你搜没搜,对应关键字的网站,标题,内容,排序就已经确定好了。你搜,显示出来就是了。
作者: xyzbo01 发布时间: 2011-07-13
爬虫采集+分词系统
作者: kyzy_yy_pm 发布时间: 2011-07-13
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28