当前位置: 首页 > SEO教程 > 轻度优化技术 > 搜索引擎原理-百度蜘蛛

搜索引擎原理-百度蜘蛛

 

   搜索引擎要知道网上新的信息,就得出去收集起来,而几乎每天都有新的网站产生,每天都有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。

  探测器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Google 把它的探测器叫做Googlebot,百度就叫Baiduspider,Yahoo 称为Slurp,无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。


    搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。

  在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。

  目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。

转载请注明:http://www.hetuiseo.com/p/qingdujishu/64.html

上一篇:网站标题、关键词、描述

下一篇:搜索引擎的目标