Code前端首页关于Code前端联系我们

抓取预算:优化预算以获得更好的 SEO 健康的 8 种方法

terry 1年前 (2024-01-16) 阅读数 351 #SEO
文章标签 预渲染

爬行预算是SEO和数字营销中经常被误解的术语。这很大程度上源于对搜索引擎如何工作缺乏了解。

目前,万维网上大约有一万亿个页面。组织这些页面并评估它们的相对价值是搜索引擎面临的最具挑战性的任务之一。

当 Googlebot 无法抓取其网站上的每个网页时,这对网站所有者来说是一个问题。发生这种情况时,通常是由于以下两个原因之一:

  1. 谷歌的资源有限,因此开发了过滤低质量页面和垃圾邮件的机制。

  2. Google 通常会限制它将抓取的页面数量,以便您的服务器不会崩溃。

因此,如果 Google 花费资源试图抓取您网站上的每个页面,包括低质量的页面,您更有价值的页面可能不会被抓取。因此,优化抓取预算是必要的。

在本文中,我们将介绍抓取预算优化的基础知识,并解决网站所有者在提高网页可抓取性时遇到的常见问题。

什么是抓取预算?

抓取预算是爬虫在一定时间内将在网站上执行的预定请求数。

这个数字表示 Googlebot 会在您网站上抓取的网页数量和网页数量。

抓取预算完全由搜索引擎决定。一旦预算用完,网络爬虫会自动停止访问您网站的内容并转到下一个网站。

为网站分配抓取预算的原因是,像谷歌这样的搜索引擎只能抓取这么多网页。为了准确地管理互联网上数以百万计的网站,谷歌尽可能平均地在它们之间分配资源。每个网站的抓取预算都不同,取决于以下几个因素:

  1. 网站大小:较大的网站通常会分配更大的抓取预算。

  2. 服务器设置和站点性能:在爬网预算分配期间,还会考虑服务器加载时间和网站性能。

  3. 您网站上的链接:内部链接结构起着至关重要的作用,死链接或重定向链会耗尽您的抓取预算。

  4. 您网站上的内容更新频率:Google 会为定期更新内容的网站分配更多抓取时间。

抓取预算对SEO的重要性

抓取预算管理对于只有几页的相对较小的网站来说并不那么重要,但对于中等大小或较大的网站来说却是一个问题。

SEO涉及进行许多微小但集体重大的更改,这些更改会影响您网站随着时间的推移而增长,而不是为了快速获得结果而进行重大更改。作为 SEO 专业人士或网络管理员,您的工作是尽可能多地优化数千个小东西。

搜索引擎的资源有限,无法抓取和索引他们在庞大且不断变化的互联网上找到的每个网页。这就是为什么抓取预算变得如此重要的原因,尤其是对于拥有许多页面的大型网站。

虽然对于网站规模较小的网站站长来说,可抓取性并不那么重要,但即使是乍一看看起来很小的网站也可能包含数千个网址。分面导航在许多在线商店和电子商务网站中很常见,可以轻松地将 100 个页面转换为 10,000 个唯一 URL,这在被抓取和索引时可能会成为一个问题。此外,CMS 中存在错误可能会产生不需要的结果。

对于SEO最佳实践,通常建议所有网站站长评估其网站的抓取预算,无论其大小或结构如何。

了解爬网过程

了解什么是抓取预算以及为什么它很重要是一回事,但网站所有者和 SEO 团队还必须了解 Google 如何抓取网站。

搜索引擎如何工作

像谷歌这样的搜索引擎使用三个基本过程来对网页进行分类:抓取、索引和排名。

爬网:查找信息

搜索引擎爬虫首先从过去的抓取和站点地图中获得的网址列表中访问网站,这些网站由各种网站管理员通过 Google Search Console 等工具提供。然后,爬虫使用网站上的链接来发现其他页面。

索引:组织信息

接下来,爬虫通过索引来组织访问的页面。网络本质上是一个巨大的图书馆,在没有任何中央文件系统的情况下,它每分钟都在增长。搜索引擎在页面上呈现内容,并寻找告诉他们网页内容的关键信号(例如关键字)。他们使用该信息为页面编制索引。

排名:服务信息

一旦网页被抓取和索引,搜索引擎就会根据索引页面的排名算法提供用户查询的结果。

爬行的细节

Google 网站站长趋势分析师 Gary Illyes 在 2017 年的一篇博文中向我们更清楚地介绍了 Googlebot 的抓取过程。据他介绍,抓取预算主要基于两个组成部分:抓取速率限制和抓取需求

爬网速率限制

抓取速度限制是指抓取网站的频率。

爬网会耗尽服务器资源和主机分配给站点的带宽限制。这就是为什么像谷歌这样的搜索引擎有适当的系统来确定它访问网站的频率,以便可以可持续地抓取网站。

这意味着特定网站被抓取的次数是有限制的。抓取速率限制可防止爬虫通过HTTP请求使网站过载来破坏网站性能。这使搜索引擎能够确定他们访问您的网站的频率,而不会导致性能问题。

这个过程也有缺点。手动设置抓取速度限制可能会导致网站出现以下问题:

  • 低抓取率:当您网站上的新内容长时间未编入索引时

  • 高爬网率:当每月爬网预算因重复爬网不需要爬网的内容而不必要地耗尽时。

这就是为什么通常建议 Web 管理员将抓取率优化留给搜索引擎的原因。

抓取需求

抓取需求决定了爬网程序在单次抓取期间将访问的网站上的网页数。它主要受以下因素影响:

  • URL受欢迎程度:页面获得的流量越多,被编入索引的可能性就越大。

  • 过时:内容定期更新的网页被视为新网址,与内容很少更新或“过期网址”的网页相比,它们更有可能被编入索引。

影响抓取预算的因素

很多因素决定了您的抓取预算,其中许多因素会导致网站所有者反复出现问题。

分面导航

电子商务网站通常有数十种相同产品的变体,并且需要为用户提供一种过滤和排序的方法。他们通过分面导航来做到这一点——为每种产品类型创建系统化、唯一的 URL。

虽然分面导航对用户非常有用,但它可能会给搜索引擎带来许多问题。应用的过滤器通常会创建动态网址,这些网址在网络爬虫看来是单独的网址,每个网址都需要被抓取和编入索引。这可能会不必要地耗尽您的抓取预算,并在您的网站上创建重复的内容。

会话标识符和重复内容

会话 ID 或跟踪 ID 等网址参数最终都会创建同一网址的多个唯一实例。这也会产生重复的内容问题,从而损害您网站的排名并耗尽您的抓取预算。

404 页

当损坏的网页使用 200 OK HTTP 状态代码而不是 404 Not Found 响应代码进行响应时,会发生404。这会导致抓取工具尝试对该损坏的网页进行抓取,并消耗您的抓取预算。

糟糕的服务器和托管设置

糟糕的服务器和托管设置结果可能会导致您的网站经常崩溃。抓取速率限制限制爬虫访问容易崩溃的网站。因此,他们通常会避免托管在服务器设置不佳上的网站。

渲染阻塞 CSS 和 JavaScript

网络爬虫在呈现网页时获取的每个资源都包含在您的抓取预算中,不仅包括 HTML 内容,还包括 CSS 和 JS 文件。

网站管理员需要确保所有这些资源都由搜索引擎缓存,并最大限度地减少性能问题,并且外部样式表不会导致代码拆分等问题。

断开的链接和重定向

断开的链接是一个 Ahref 超链接,它将用户或机器人重定向到不存在的页面。断开的链接可能是由链接中的错误 URL 或已删除的页面引起的。当 301 重定向链接按顺序相互链接时,它可能会使人类用户感到沮丧并使搜索引擎机器人感到困惑。

每次机器人遇到重定向的 URL 时,它都必须发送额外的请求才能到达最终目标 URL。网站越大,这个问题就越严重。至少有 500 个重定向的网站为爬虫提供了至少 1,000 个页面可供抓取。重定向的链接可能会通过重定向链发送爬网程序,从而耗尽无用的重定向跳转的抓取预算。

网站速度和 hreflang 标签

您的网站需要加载得足够快,网络爬虫才能有效地访问您的页面。当这些爬虫遇到加载速度太慢的页面时,他们通常会完全移动到不同的网站;例如,如果它的服务器响应时间超过两秒。

使用 hreflang 标记定义的备用网址也可能会耗尽您的抓取预算。

XML 站点地图

Google 等搜索引擎始终会优先抓取站点地图中包含的网址,而不是 Googlebot 在抓取网站时发现的网址。这意味着创建网站的XML站点地图并将其提交给Google网站管理员对其SEO健康至关重要。但是,将每个页面添加到站点地图也可能是有害的,因为爬虫必须优先考虑您的所有内容会耗尽抓取预算。

如何计算抓取预算

跟踪和计算您的抓取预算很棘手,但它可以为您提供有关您网站的一些非常有价值的见解。

首先,你需要知道你有多少页。您可以从XML站点地图中获取该数字,方法是使用site:yourdomain.com在Google上运行网站查询,或者使用Screaming Frog等工具抓取您的网站。一旦您知道您拥有多少个网页,请打开您网站的 Google Search Console,然后在“设置”部分下找到“抓取统计信息”报告。

这会显示 Googlebot 在过去 90 天内在您的网站上的活动。在这里,您可以找到每天抓取的平均页面数。假设该数字保持一致,您可以使用以下公式计算抓取预算:

30 天×每天抓取的平均网页数=抓取预算

当您需要优化抓取预算时,此信息非常有用。将网站上的页面数除以每天抓取的平均页面数。

如果结果大于 10,则表示您网站上的网页数量是 Google 每天抓取的网页数的 10 倍,这意味着您需要优化抓取预算。如果该数字小于 3,则您的抓取预算已经达到最佳状态。

抓取预算优化

优化网站的抓取预算仅意味着采取适当的步骤来增加预算。通过改进影响它的一些关键因素,例如分面导航、过时的内容、404 错误和 301 重定向链,您可以很好地增加网站的抓取预算。方法如下:

优化分面导航

如果实施不当,分面导航可能会占用您的爬网预算,但这不应限制您使用它。您只需要进行一些调整即可对其进行优化。

  • 您可以添加一个“noindex”标记,通知机器人有关未编入索引的页面的信息。这将从索引中删除这些网页,但仍会浪费您的抓取预算。

  • 向任何分面导航链接添加“nofollow”标记都会限制抓取工具将其编入索引,从而通过立即删除这些网址来释放抓取预算。

删除过时的内容

删除过时的内容将释放大量抓取预算。您不需要物理删除包含该内容的页面,只需阻止爬虫访问它,就像使用分面导航链接一样。

这样可以减少索引中可抓取网址的数量,并增加抓取预算。

减少 404 错误代码

要减少您网站上的 404 错误代码数量,您需要清理损坏的链接,并向网络爬虫发送 404 Not Found 响应代码。这有助于抓取工具避免访问这些链接,并再次通过减少您网站的可抓取网址数量来增加您的抓取预算。

解决 301 重定向链

断开的链接和 301 重定向链也会不必要地耗尽您的抓取预算,清理它们应该是您定期网站维护的一部分。为了避免此问题并增加抓取预算,您需要改进内部链接并解决任何未解决的重定向链:

  • 使用 Screaming Frog 等工具对您的网站进行全面抓取。

  • 抓取完成后,确定重定向的 URL 以及放置特定链接的源页面。

  • 最后,更新这些链接,以便所有链接都直接指向目标 URL。

您还应该避免使用孤立页面,这些页面存在于站点地图中,但没有内部链接,从而有效地将它们搁浅在网站的架构中。

清理和更新您的站点地图

定期检查您的站点地图,查看包含的不可编入索引的网址以及被错误地排除在站点地图之外的可编入索引的网址。

提高网站速度和 hreflang 标签

提高网站的速度不仅可以提供更好的导航体验,还可以提高网站的抓取速度。加载速度较慢的网站通常会被 Googlebot 完全避开。优化页面速度涉及许多技术 SEO 因素,但执行它们有助于您的抓取预算

在网页标题中使用 <link rel=“alternate” hreflang=“lang_code” href=“url_of_page” /> 有助于向抓取工具指出网页的本地化版本,并避免耗尽抓取预算。

尽可能使用 HTML

尽管 Googlebot 在抓取 JavaScript 文件以及索引 Flash 和 XML 方面变得更加高效,但 Bing 或 DuckDuckGo 等其他流行的搜索引擎并非如此。这就是为什么始终建议尽可能使用 HTML,因为所有搜索引擎机器人都可以轻松抓取 HTML 文件。

使用机器人 .txt 抓取重要网页

利用您网站的机器人 .txt 文件是优化抓取预算的一种非常有效的方法。您可以管理漫游器 .txt 以允许或屏蔽您网域的任何网页。对于需要频繁校准的大型网站,建议使用网站审核工具执行此操作。

使用预渲染优化抓取预算

抓取预算优化是一门不精确的科学,涉及许多活动部件和正在进行的网站维护任务,这些任务可能非常繁琐。

使用 Prerender 可以让 Google 轻松抓取您的网站并将其编入索引,无论它是使用 HTML 还是 JavaScript 制作的,也无论它有多少网页。当您优化抓取 Google 的预算时,您可以腾出精力来执行更重要的任务,这些任务专注于更高级别的 SEO 策略。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门