Google convierte robots.txt en un estándar web

Más allá de todo lo que hace Google, todos sabemos que su negocio principal está en las búsquedas. Y como tal, la compañía ha decidido que es la hora de realizar varios cambios en una de las partes fundamentales de las mismas: el protocolo de robots.txt, el cual convertirán en un estándar web.

El Protocolo de Exclusión de Robots, más conocido como robots.txt, permite que los webmaster puedan excluir a los rastreadores web (crawlers) del acceso a un sitio. O en el caso de motores de búsqueda como Google, para indexar el contenido web.

Google pretende así que no haya más confusiones al crear la sintaxis estándar para establecer y analizar reglas, y por ello ha hecho que el parser de robots.txt sea ahora de código abierto (GitHub de robots.txt).

Fecha límite de robots.txt: 1 de septiembre

Google ha anunciado todo esto a través de su blog de Webmaster, donde explica que GoogleBot dejará de obedecer el protocolo robots.txt a partir del 1 de septiembre:

Con el fin de mantener un ecosistema saneado y prepararnos para futuras versiones de código abierto, retiramos todo el código que contenga reglas no soportadas e inéditas (como el noindex) el 1 de septiembre de 2019.

Webmaster Central Blog

Las alternativas a noindex

Como no podía ser de otra forma, la compañía ha compartido una serie de alternativas para aquellos webmasters que se basaban en el directorio noindex:

  • Metaetiqueta noindex: Con soporte tanto en las cabeceras (heathers) HTTP como en HTML, la directiva noindex es la forma más efectiva de eliminar URLs del indexado cuando se permite el rastreo.
  • Códigos de estado HTTP 404 y 410: Ambos códigos de estado significan que la página no existe, por lo que estas URL se eliminarán del índice de Google una vez que rastreadas y procesadas.
  • Protección con contraseña: A menos que el marcado se utilice para indicar que es contenido de suscripción o de pago, ocultar una página detrás de un inicio de sesión la eliminará, por lo general, de la indexación de Google.
  • Deshabilitar robots.txt: los motores de búsqueda solo pueden indexar las páginas que conocen, por lo que bloquear la página para que no sea rastreada hará que, por lo general, el contenido no sea indexado. Desde Google afirman que aunque el motor de búsqueda también pueda indexar una URL basada en enlaces de otras páginas, sin ver el contenido en sí mismo, su objetivo es hacer que esas páginas sean menos visibles en el futuro.
  • Herramienta para eliminar URLs de Search Console: esta herramienta es un método rápido y sencillo para eliminar temporalmente una URL de los resultados de búsqueda de Google.

Han pasado 25 años…,¿por qué ahora?

Google ha querido cambiar esto durante mucho tiempo. Se han centrado en buscar las implementaciones no compatibles del Internet draft, como el crawl-delay, el nofollow y el noindex. Al ser reglas que nunca fueron documentadas por Google, su relación con Googlebot es bastante limitada.

De esta manera, lo que Google espera es que lo principal sea crear buenas experiencias en Internet en lugar de preocuparse por cómo controlar los rastreadores.

Consejo

Lo más importante ahora es asegurarse de que no utilizar la directiva noindex en el archivo robots.txt. Si es así, toma nota de los cambios sugeridos antes del 1 de septiembre. Del mismo modo, comprueba si utilizas el nofollow o crawl-delay y si es así, busca el método soportado para esas directivas en el futuro.

Compartir   Compartir en twitter
Mauro D.
Suministro tu placebo diario de información digital.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *