28 Sep
Archivo robots.txt

¿Qué es y para qué sirve el archivo robots.txt?

Guerrero (y superviviente) de mil batallas. Ahora, Director de marketing online @ Vital Innova

Muchas veces hemos hablado en este blog de la importancia que tiene para el SEO el contenido y las optimizaciones OnPage. Sin embargo, antes de esta fase existen dos que son igual o más importantes que estas. Se trata de las fases de rastreo e indexación.

El archivo robotx.txt es, como su extensión indica, un fichero de texto simple que gracias a una sintaxis particular, le dirá a Google en su idioma qué queremos que mire e indexe de nuestro sitio web.

Muchas veces al realizar auditorías SEO y presentar este problema, algunas personas se pueden llegar a preguntar ¿por qué yo habría de prohibirle a Google que rastree o indexe algo? ¿Siempre es mejor que indexe todo, no?

Pues, no. No siempre es bueno para el posicionamiento de tu web que Google indexe todo. Aunque existen diferentes alternativas para definir qué partes de mi web debe ver y cómo debe verlas Google; hoy vamos a hablar del fichero robots.txt.

Traducido de forma sencilla sería “qué quiero que Google sepa y rastree de mi web”.

Hasta hace muy poco tiempo, si accedíamos al archivo robots de la Casa Real de España, nos podíamos encontrar con algo así.

archivo Robots.txt de la Casa Real

Básicamente el webmaster de la Casa Real le estaba diciendo a Google que si alguien buscaba “Urdangarín” (o algo relacionado), en sus resultados orgánicos, no muestre ninguna URL de http://www.casareal.es/

Una de las principales causas por las que no es bueno que Google rastree todo el sitio es porque si esas páginas tienen poca o ninguna importancia de cara al posicionamiento de cara a los objetivos de negocio, dejarle que “entre” en todo tu sitio puede hacerte perder “crawl budget”.

¿A qué ficheros afecta el archivo robots.txt?

En principio, aunque no de forma concluyente (porque pone algunas excepciones); la documentación oficial de Google acerca del robots.txt dice que este archivo afecta a todo tipo de ficheros.

Además, es importante destacar que si el archivo está cargado en la raíz del dominio (www.tudominio.com/robots.txt), éste afecta sólo a los ficheros dentro del dominio principal. Si necesitas limitar el rastreo en un subdominio necesitarás otro fichero en ese subdominio. (shop.tudominio.com/robots.txt).

Por esto último, hay que tener muchísimo cuidado al meter otro robots en el subdominio, y que este no pise ninguna directiva del dominio principal, porque esto puede provocar conflictos graves de indexación o en el menor de los males, que Google no haga ni caso al robots dentro del subdominio.

¿Puedo quitar de Google con el archivo robots.txt contenido antiguo de mi web?

Pues no. El robots no sirve para desindexar contenido que ya no quiero que aparezca en Google. O mejor dicho, es recomendable no usarlo para ese efecto. Aunque muchas veces se hace.

El “Disallow” del robots, no permite a los bots de Google leer el HTML de la página. Pero todavía puede leer la URL. Por lo tanto, esta puede aparecer en búsquedas de otros sitios webs. Esto es exactamente lo que ocurría con la web de Casa Real.

Como dijimos anteriormente también, esto no desindexa las URL que ya estuviesen apareciendo en las SERP. Incluso, estas URL pueden seguir apareciendo en Google por meses o años después de haber incluído la URL en el robots.

Si queremos hacer esto, lo mejor es incluir en la URL individual una etiqueta “NoIndex” en el meta-robots, ya que esto si deja rastrear el contenido pero impide que este salga en Google.

Usos comunes del Robots.txt

User-agent: *
Disallow: /

Bloquea toda la indexación del sitio. Imprescindible su uso cuando la web está en fase de creación para evitar que se indexen URL y contenido que luego no estarán en la versión final.

User-agent: *
Disallow: /admin*
Disallow: /checkout*

Excluir todo el contenido de una carpeta particular de mi web (y todas las subcarpetas que estén dentro también).

User-agent: *
Allow: /blog
Allow: /wp-content/uploads

Al igual que le podemos decir que no queremos indexar, podemos indicarle al robots que ficheros o carpetas queremos que priorice a la hora de indexar.

User-agent: *
Disallow: /admin*
Disallow: /checkout*
Allow: /blog
Allow: /wp-content/uploads
Sitemap: https://www.tudominio.com/sitemap.xml

Aunque no es estrictamente necesario y se puede hacer desde Google Search Console, Google recomienda incluir la línea de ubicación absoluta del sitemap.xml dentro del robots.
Como podéis ver, la sintaxis de este fichero no es complicada de dominar. Sin embargo, a los efectos de SEO, puede hacer mucha diferencia entre tener o no tener un robots bien optimizado.

Para finalizar, os dejamos algunos ejemplos curiosos de archivos Robots.txt

https://www.google.com/robots.txt
https://store.nike.com/robots.txt
https://www.last.fm/robots.txt
https://yelp.com/robots.txt
https://www.tripadvisor.es/robots.txt
http://www.vodafone.es/robots.txt

 

 

 

Solicitamos tu permiso para obtener datos estadísticos de la navegación en esta web, en cumplimiento del Real Decreto-ley 13/2012. Si continúas navegando consideramos que aceptas el uso de cookies.

AceptarMás información