03 Sep

Crawl Budget: todo lo que siempre quisiste saber y no te atrevías a preguntar

Carlos
imagen de un ordenador con datos sobre la red de búsqueda

En nuestro post de hoy pretendo explicarte someramente qué es el Crawl Budget o “presupuesto de rastreo”, cómo influye a nivel de posicionamiento orgánico y cómo puedes optimizarlo para mejorar la visibilidad y rentabilidad de tus proyectos web. ¿Preparad@? ¡Vamos a ello!

Google es una empresa muy grande, enorme, factura con su matriz de Alphabet más de 140.000 millones de dólares (datos de 2019), que le generan unos beneficios aproximados de 31.000 millones anuales, y creciendo. Sin embargo sus recursos no son infinitos.

La Internet rastreable (hay otra parte que no lo es, que conocemos como la dark web que no sólo es TOR o similares) posee un tamaño aproximado de 1.700 millones de páginas web que, como bien entenderás, no es fácil rastrear en tiempo real. Para que te hagas una idea, solo Google consume más del 0,1% de toda la energía mundial, más o menos lo mismo que consumen todos los habitantes de una ciudad como Valladolid. ¿Increíble verdad?

Ante esta enorme cantidad de datos y consumo, Google tiene una estrategia de optimización de sus recursos de tal forma que los robots del buscador ofrecen más atención a quién más lo necesita. Esto, en palabras sencillas significa que los que más dedicación reciben son aquellas páginas más grandes y que más veces se actualizan al día. Esto significa que es posible que Google, si eres nuevo o pequeño tarde días, semanas e incluso meses en rastrear tu web.

¿Qué es el “Crawl Budget” o “Presupuesto de Rastreo”?

Es Crawl Budget es el tiempo que asigna Google para rastrear tu web y actualizar sus registros, que acaba concretándose en un número de páginas. Aunque este presupuesto no es fijo, sino que varía dependiendo de la carga de trabajo de Google, su disponibilidad y el día de la semana, sí que suele ser bastante estable. Y este número depende del tamaño de tu web y su frecuencia de actualización, su autoridad (el número de enlaces entrantes) así como su “salud”. Lógicamente, no va a dedicar el mismo tiempo en rastrear una landing page de un pequeño despacho de abogados, que tiene mucho contenido estático y corporativo, que una agencia global de noticias que actualiza su web varios centenares de veces al día con miles de nuevas noticias. Tampoco va a dedicar el mismo “esfuerzo” a una web con muchos errores 404 o 500 que a una con un desarrollo impecable.

¿Qué es el rastreo?

Ya te hemos explicado cómo funciona un buscador en otras entradas del blog de Vital Innova, pero vamos a recordarlo brevemente: Cada robot de rastreo recibe un listado de URL que tiene que visitar. Si hablamos de Google, el robot es conocido como “Googlebot”. Y como buen robot que es, lo hace metódicamente y periódicamente. Es decir, va a pasar por todas ellas cada cierto tiempo. Además, añadirá a esa lista de deberes todos los enlaces salientes contenidos que encuentre en cada URL para ir ampliando su índice.

Además, como es muy bien «mandao», revisará antes cómo comportarse y en qué entrar y en qué no en las instrucciones contenidas en el archivo conocido como robots.txt.

🤔  Te puede interesar: ¿Qué es y para qué sirve el archivo Robots.txt?

¿Cómo saber qué y cuánto está rastreando Google en mi web?

Hay varias herramientas para hacerlo, pero sin duda la más fiable y única real es revisar los logs de tu servidor. Si tu web es muy grande esta revisión puede ser demasiado trabajosa así que puedes utilizar herramientas del tipo Logstash, Datadog o Prometheus.

Además tienes una buena herramienta de información sobre rastreo que te asigna el propio Google Search Console, de la que te hablaré en otro post.

¿Cómo influye el Crawl Budget en la visibilidad de mi proyecto web y cómo puedo optimizarlo?

El rastreo (o fase de crawling) es una conditio sine qua non. Es decir, o Google rastrea tu web o no aparecerás en sus resultados. Parece la típica frase del Capitán Obvio, pero no lo es. Ni te imaginas la cantidad de proyectos que encontramos donde la configuración impide rastrear total o parcialmente la web.

Sitemap y Robots.txt

Asegúrate que Google dispone de un buen índice estructurado de contenidos de tu web (lo que conocemos como sitemap.xml) de donde pueda partir Googlebot, e indícaselo en el robots.txt. Ambos archivos (Sitemap.xml y Robots.txt) deben estar en la raíz de tu dominio, que es donde el robot mirará primero.

Allow & Disallow

Además, asegúrate de que todo lo que debe ser rastreado esté permitido. ¿Significa eso que se puede impedir el acceso de los robots a ciertas partes rastreables de tu web? Exacto. Eso es justo lo que significa (Google dice que “por lo general”, el robot respeta estas indicaciones del Disallow). De esta forma, puedes impedir que el robot “pierda el tiempo” rastreando URL que no son interesantes para tu negocio como aquellas de funcionamiento, backend, etc. y se dedique con mayor esmero a aquellas que te interesa que aparezcan sí o sí. Tus “money pages” es decir, aquellas que te dan negocio. Que meten pasta en tu cuenta de resultados o te ayudan a hacerlo.

Errores 404 y 501

Tener una web impoluta y perfecta es muy complicado. Especialmente si tiene mucho contenido dinámico y se actualiza con relativa frecuencia. Cuando un robot (o un navegador) llega correctamente a una web recibe un código 200 (OK). Si el servidor falla, recibirá un 500 (Server Error) o si el contenido ya no está en esa URL, recibirá un 404 (Not Found).

Cuando revises tus logs asegúrate que estos errores no se producen (especialmente los 404, los 500 a veces no pueden solucionarse). Si has eliminado algún contenido o cambiado de sitio, asegúrate de que rediriges al robot y a los usuarios a un lugar parecido mediante una redirección temporal (302) o una redirección definitiva (301). Si quieres saber cuáles son esos errores que encuentra Google, también te lo va a indicar en Search Console.

Tampoco te pases con las redirecciones, que al final generan cadenas que tampoco son muy beneficiosas. Por ejemplo, los http a https, o las del dominio con www o sin www, que son errores muy habituales. Imagina que en el índice de Google está indexado tu dominio http://ejemplo.com y en realidad tu web está en https://www.ejemplo.com. Estarías obligando al rastreador a pasar por 3 pasos antes de llegar al verdadero contenido: Primero visitaría http://ejemplo.com, después el ssl le redirigiría a https://ejemplo.com, y por último a https://www.ejemplo.com. Una buena forma de malgastar el presupuesto de rastreo y de ralentizar la carga de la web…
Velocidad de Carga

Otra aparente obviedad que no lo es tanto. Si tu web tarda mucho en cargar, el rastreo se va a ver ralentizado con lo que el número de URL que Googlebot va a rastrear en el tiempo que se ha asignado a tu web va a ser menor y eso puede perjudicar tu visibilidad. Para ello puedes realizar acciones de WPO. Si quieres saber más sobre ello, te dejamos un post aquí.

Autoridad vía enlaces entrantes

Es un aspecto que no solo afecta a tu Crawl Budget, sino a todo tu SEO en general por lo que debes cuidarlo y aumentarlo de manera natural (o artificialmente pero con mucho cuidado mediante linkbuilding) por numerosas razones. Evidentemente, cuanta mayor sea tu autoridad más tiempo de rastreo merecerás para Google.

Espero que esta introducción te haya dejado un poquito más claro qué es el Crawl Budget y te haya mostrado el camino para mejorarlo. En Vital Innova somos expertos en SEO y Marketing Digital, así que si quieres que te ayudemos a ello, no dudes en contactar con nosotros, ¡estaremos encantados de atenderte!