El ansia de indexarlo todo

De un tiempo a esta parte que me estoy encontrando con algunas cosas que no me gustan de Google. Sí, ya sé que es muy fácil meterse con el gigante de Mountain View, pero creo que a alguien de la parte de búsquedas se le ha ido un poco la cabeza.

Todo ha comenzado con el cambio de diseño de mi blog, o sea, de esta página, y de paso con la instalación del nuevo WordPress 3.2. Revisando mis “plugins de SEO” me he dado cuenta de que se estaba indexando más de lo debido. hace meses que decidí que si quería tener unos buenos resultados en Google y Bing sólo tenía que indexar las entradas del blog y las pocas páginas que tengo (como la Guía SEO). Con esto eliminaba un montón de combinatoría y lo hacía gracias a el All in One SEO Pack que le pone un “noindex” a aquellas páginas que le digo. Como decía, todo aquello del estilo “categoría” o “etiqueta”, fechas y paginaciones.

Ahora me he puesto a darle una ojeada a otros elementos que había filtrado semanas atrás. Entre estos elementos están las páginas de feed que se generan por cada entrada del WordPress y que incluyen los comentarios. Esto al final lo tuve que eliminar de forma radical desde el robots.txt mediante un Disallow: /blog/*/feed y Disallow: /blog/*/trackback. Gracias a esto mi Webmaster Tools se ha llenado de “errores” diciendo que no puede indexar un montón de estas URL.

Si alguno le dedica unos minutos a revisar de dónde salen esas URL detectará que en los enlaces normales de las entradas no aparecen, aunque sí que se pueden conseguir a través de enlaces como <link> o comentarios HTML. Y ahora viene la gran pregunta: ¿por qué Google sigue estos enlaces?

Este tipo de URL, sumadas a otras tantas, están generando una serie de errores y de contenidos duplicados en mi sitio que no son normales, algo por lo que luego Google se quejará y dirá que “tenemos contenidos de baja calidad”.

Dedicándole un rato a los paneles del resto de buscadores, como el de Bing me he dado cuenta que estos errores no aparecen, es decir, que Bing me indexa, por ejemplo, el feed principal, pero no el resto. No sé si es que Bing no revisará los enlaces que se generan en la cabecera de la página o es que detecta que son ficheros XML y por tanto “no comprensibles” por el usuario y los pasa por alto. Y es que… ¿tiene sentido mostrar en los resultados de búsqueda contenidos en un MIME-type que no es comprensible? está claro que un text/html o un text/plain son básicos, incluso los tipos correspondiente a los multimedia y que los buscadores informan, ¿pero un XML?

Esto me lleva a revisar los ratios de conversión de ambos buscadores. Y es que si reviso los datos de Bing, el CTR es del 10%. Es cierto que Bing me trae pocas visitas (un 15% quizá) pero lo que queda claro es que ese poco tráfico que me trae es de mucha más calidad que el que me envía Google. De la misma forma, aunque aquí ya sí que hay poco o nada de tráfico, el ratio de CTR de Yahoo! es del 12%, siendo de casi el 50% cuando el resultado está en primera posición y de un 25% cuando está en segunda.

En muchas ocasiones he comentado que WordPress me parece un gran gestor de contenidos, pero que la base no está bien construida de cara al crecimiento, y cada vez me doy más cuenta de que la gente que construye plugins de SEO para WordPress no acaba de tener muy claro la extensibilidad del mismo. Mientras tanto, habrá que seguir “parcheando” las cosas de la mejor manera posible…

PostData: Si alguien quiere hacer un plugin de SEO bueno para WordPress que me lo diga que le doy ciertas indicaciones de las cosas que debería tener y muy agradecido ejerceré de conejillo de indias.

Categorías Javier, SEO

6 comentarios en “El ansia de indexarlo todo”

  1. Si tu quieres que Google no rastree una parte de tu sitio (lo indicas como dices en el post mediante el robots.txt), ¿G se enfada (lo indica marcando todas esas url´s como Errores de rastreo) y te resta “puntos” para el posicionamiento?

  2. Javier: quizás es un pregunta un poco básica para ti, y que seguro ya habéis verificado, pero en el caso que mencionabas de que GWT te mostraba errores por no poder indexar páginas bloqueadas en el robots.txt, puede ser que dichas páginas bloqueadas en el robots.txt sí estuvieran incluidas en el sitemap.xml?
    Es decir, si quieres que Google no indexe o deje de indexar una página, tengo entendido que debes quitarla de tu sitemap, además de generar un error 404 para la misma, o bien, agregarle el meta noindex. Estoy en lo correcto?

  3. Hola Martin!

    Pues no, porque en esas páginas bloqueadas del robots hay cosas como los ficheros de la carpeta de descargas (PDF y similares) que no se envían a través del sitemap.

Deja un comentario