8年
SEO网站优化推广经验

haizr.站内优化技巧

站内SEO优化设置技巧分享

填写您的业务需求

完美解决搜索引擎爬虫重复抓取网站页面的问题

来源: http://www.haizr.cn | 时间:2019.04.30 | 浏览数:204

         对于做SEO的从业者来讲,想要解决爬虫重复抓取的问题,就要了解搜索引擎为什么重复抓取的原因,在聊这个问题之前,我们需要理解一个概念。首先爬虫本身是无序的抓取,他不知道先抓什么再抓什么,只知道看到了什么,且计算后认为有价值就进行抓取。

完美解决搜索引擎爬虫重复抓取网站页面的问题

而对于我们而言,抓取的整个过程中,我们最要解决是如下几类:

         1.新产生的页面,没有被抓取过的

         2.产生了一段时间,迟迟不被抓取的

         3.产生了一段时间,却一直没收录的

         4.产生很久的页面,但最近更新了

         5.包含内容更多的聚合页面,如首页、列表页

         6.如上几类,按照顺序我们定义哪一类最需要被爬虫抓取。

         针对大型网站,搜索引擎爬虫抓取资源过剩,而针对小网站,抓取资源稀缺。所以在这里我们强调一下,我们不是要解决搜索引起爬虫重复抓取的问题,而是要解决搜索引擎爬虫最快的抓取我们希望抓取的页面。要把这个思路纠正!

         下面,我们聊一下怎么让搜索引擎爬虫最快的抓取我们希望被抓取的页面。

         爬虫是抓取到一个网页,从这个网页在找到更多的链接,周而复始的过程,那么这个时候我们就要知道要想被爬虫更大概率抓取,就要给更多的链接,让搜索引擎爬虫发现我们希望被抓取的网页。这里我拿上述的第一种情况举例说明一下:

新产生的页面,没有被抓取过的

         这类一般都会是文章页,针对于这类我们的网站每天都会大量产生,所以我们就要在更多的网页给予这部分链接。例如首页、频道页、栏目/列表页、专题聚合页、甚至文章页本身,都需要具备一个最新文章板块,以此等待爬虫抓取到我们的任何网页时,都能发现最新的文章。

         同时,试想一下,这么多页面都有新文章的链接,连接传递权重,那这新文章,既被抓取了,权重也不低。被收录的速度会明显提升。那针对那些长时间不收录的,也可以考虑是不是权重太低了,我多给一些内链支持,传递一些权重。应该会有收录的可能。当然也有可能不收录,那你就要靠内容本身的质量了。之前有一篇文章是专门说内容质量的也欢迎大家阅读:什么内容容易被百度判断为优质内容?。  

         所以,我们为了解决搜索引擎爬虫重复抓取问题不是我们最终要解决的。因为本质上搜索引擎爬虫是无序的,我们只能通过针对网站的架构、推荐算法、运营策略等进行干预。使爬虫给予我们更理想的抓取效果。如果你不会根据爬虫的自身抓取效果进行优化网站,也可以联系我。

文章标签:网站建设,网站制作,网站推广,搜索引擎,海之睿
30 总评论数
留言列表
Loading...
页 共30
海之睿无锡网站SEO优化推广营销公司

—— 海之睿微信公众号 ——

海之睿SEO优化推广申请

  • 公司名称
  • 姓名
  • 手机号
  • 联系邮箱
  • 推荐人

    无推荐人的话写:无

*为了准确获取解决方案,请注意填写有效信息!