当前位置: 首页 > SEO教程 > 中度优化技术 > 预处理分析

预处理分析

 

  蜘蛛在爬取了我们的网站,并收录了,下个过程是否就是等待被搜索?不是的,收录后,系统还得对收录的页面进行-预处理。

  蜘蛛抓取了千万亿个网站,如果不进行处理,单单在用户进行搜索时再去匹配,所用的时间太长了,影响用户体验。所以系统的先对收录了的页面进行处理,也就是人们常说的“索引”。通过预处理后的页面才会被存进数据库,等在被搜索。

  众所周知,蜘蛛看到的只是我们的网页代码,预处理首先就是要把那些标签和程序处理掉,只提取里面的文字。提取出来的中文文字会进行一个分词,根据词典和统计(google是没有词典的),网页内容中的一段话分成很多的词语,方便搜索的时候进行计算匹配。词典就是我们平时所用的汉语词典,统计则是根据所有用户搜索的大数据进行计算分析出来的词语。将词典和统计结合起来,就是搜索引擎对页面词语的分析。当我们用搜索引擎的时候,打入关键字,搜索引擎就会在所有页面词语分析用找出需要的那个词语。

   当然我们还必须知道搜索引擎爱预处理的时候还会把的、地、得之类的没用重复次数太多的词语去掉,一方面可以方便计算,一方面去掉一些太过伪原创的伪原创,所以各位SEO们要注意。
  
   合推网是广州搜浪网络科技有限公司旗下专业提供seo优化培训的平台,依靠公司多年的seo优化经验,针对想要学习seo优化的学员,为他们提供最专业的优化知识培训,真人实战讲解,打造专业的seo优化培训平台。

 

 

转载请注明:http://www.hetuiseo.com/p/zhongdujishu/73.html

上一篇:搜索页面布局

下一篇:双引号指令