扫二维码手机阅读乔选红网络营销博客

当前位置:首页 » SEO优化 » 正文

关于搜索引擎蜘蛛的误区

641 人参与  2018年07月19日 20:36  分类 : SEO优化  点这评论

  蜘蛛也就是大家所说的爬虫或者机器人,是处于整个搜索引擎最上游的一个模块,用来爬行和访问网站页面程序。只有蜘蛛抓回来的页面或者URL才能被索引和参与排名。

搜索引擎蜘蛛的误区

  而人们对于蜘蛛的误区集中在“降权蜘蛛”。由于蜘蛛抓取的网页太多,如果只有一只蜘蛛进行抓取作业,需要的计算量太大,同时也会耗费太多的时间。所以搜索引擎引进了分布式计算的概念,把庞大的抓取作业分割成多个部分,使用合理计算的服务器承载这一任务,完成对网页的快速抓取。 现在大型搜索引擎都使用分布式计算技术,同样,蜘蛛也会进行分布式计算,这种蜘蛛就是分布式蜘蛛,它遵循分布式计算的主要规则,根据这些规则也就可以理解“降权蜘蛛”的工作方式。

  整个分布式蜘蛛系统要保证所有的蜘蛛不能重复抓取,就要使每个蜘蛛都有自己抓取的范围,抓取指定类型的网页,而常规网页一般按照质量等级分为优秀站点,普通站点,垃圾站点,降权站点和屏蔽站点等。

  按照这种分类方式,会出现某一IP段的蜘蛛只会抓取权重高的网站,某一IP段的蜘蛛只会抓取已经被降权的网站,这就是“降权蜘蛛”,不过并不是因为这只蜘蛛使得网站降权,而是因为网站已经被百度降权,这只所谓的“降权蜘蛛”才会出现。如果百度真的使用这种分布方式,那么对于百度蜘蛛IP段特性的总结就是很有价值的,不过还是不能非常肯定,因为百度分配任务的方式不可能只有这一种。 由于搜索引擎对网站及网页的分类有多个纬度,每次抓取都可能会使用不同的纬度,多个纬度的出现,导致了问题的不确定性。

来源:乔选红博客(微信/QQ号:1072540791),转载请保留出处和链接!

本文链接:https://qiaoxuanhong.com/712.html

本文标签:搜索引擎蜘蛛  

微信公众号:qiaoxuanhong1989

新浪微博:乔选红

加入【互联网精英创享联盟】QQ群: 176737370(加群验证:乔选红博客)

欢迎收藏本站,每天更新高质量网络营销干货。

<< 上一篇 下一篇 >>

相关文章

  • 关于本站 - 免费声明 - 广告服务 - 链接出售 - 网站招聘 - 投稿中心 - 联系我们 - 认识博主 - 标签列表 - 网站地图 - 百度统计
  • Copyright © 2016-2020 乔选红博客 版权所有 苏ICP备14049827号-2
  • 我们提供网络营销推广网络营销策划网络营销培训服务