Bloquear un robot de rastreo / buscador

2013-06-22

Javier Casares

Hay varias formas de bloquear la aparición de páginas en los resultados de búsqueda, pero no todas ellas sirven para lo mismo. Y todo viene porque hacemos un mal uso de las palabras [rastrear] e [indexar].

En base a todo esto hay que diferenciar varias opciones: bloquear por robots.txt, usar el meta-noindex (y su respectiva cabecera HTTP), usar el rel-nofollow…

El sistema de bloqueo por robots.txt es el más restrictivo. La idea es que un robot se encuentre en una especie de pasillo y haya puertas a su alrededor. El robot sabe que hay puertas, pero en este caso estas puertas están tapiadas. El robot podría llegar a saber qué hay detrás de esas puertas porque otras puertas o gente de otros pasillos le dicen lo que hay, pero no puede entrar a comprobarlo porque para él esa puerta está tapiada. Esto, en resumen, es que si uno (o varios) elementos están bloqueados por Disallowno deben tenerse en cuenta en absoluto para nada a la hora de organizar los resultados.

El uso del meta-robots (o su cabecera HTTP, que hace exactamente lo mismo) tiene otro objetivo. Siguiendo con el ejemplo de las puertas, esta puerta está disponible para entrar, chafardear pero el robot no le puede decir a nadie lo que ha visto dentro de esa habitación. La diferencia con el punto anterior es que, en este caso el robot sí que conoce lo que hay dentro y lo puede utilizar a la hora de ordenar los resultados, pero con una condición: no le puede decir a nadie lo que hay. Esto significa que se puede rastrear el contenido, que se puede usar a tener en cuenta a la hora de generar el índice pero no puede estar en el índice. Por lo tanto, los elementos con noindexhan de estar bien pensados porque sí que afectan a SEO (aunque no se vean en los SERP).

Para acabar, con respecto al rel-nofollowme gustaría dejar claro que los robots sí que siguen estos enlaces (si quieren) y que, en este caso, son ellos los que deciden qué peso darles. Esto viene por lo que el estándar dice y no lo que Google dice:

The nofollow keyword indicates that the link is not endorsed by the original author or publisher of the page, or that the link to the referenced document was included primarily because of a commercial relationship between people affiliated with the two pages.

Como bien dice el texto, el rel-nofollow significa que el enlace de destino no tiene que ver con el autor original del artículo o del soporte o que se ha incluido como parte de una relación comercial entre las dos páginas. En ningún caso indica que los enlaces no se tengan que seguir.

En este último caso no se puede confundir con el meta-nofollow. En este caso sí que los robots deberían no seguir los enlaces que hay en toda esa página:

The NOFOLLOW directive only applies to links on this page. It’s entirely likely that a robot might find the same links on some other page without a NOFOLLOW (perhaps on some other site), and so still arrives at your undesired page.

Para acabar, algunos buscadores (como Google) tienen en sus herramientas para webmasters una zona en la que poder “sacar” determinadas páginas de los resultados. Hay que ener en cuenta que un buscador no puede eliminar contenidos de su índice a menos que esté bloqueado anteriormente, y esta es la razón por la que antes de eliminar nada te solicita que esté bloqueado el contenido o que de un código de error 4xx. Si se cumple esto (para que en un siguiente rastreo no se añada el contenido) se realiza un trabajo que, una vez listados los resultados de búsqueda se filtran estos contenidos que se le han indicado para que no aparezcan, aunque, se podría decir, que es “un apaño” temporal hasta la siguiente actualización del índice.

Comments

Deja una respuesta Cancelar la respuesta

Últimas entradas

WordPress no necesita un MCP: usa la REST API2026-07-06
QUERY como nuevo método HTTP (RFC 10008)2026-07-03
Detective para los bots de IA2026-07-01
Por qué mi código ya no vive en GitHub2026-06-29
Baremetal virtualizado vs. VPS2026-06-26