Arreglando una penalización

Con mucha frecuencia me llegan correos de personas que tienen un sitio web pequeño y que han sido penalizados (o degradados) por Google de alguna manera. Hoy, tomando como ejemplo uno de estos correos, voy a explicaros cómo se puede arreglar una penalización (de las más sencillas) con tan sólo utilizar Google como herramienta (sin Webmaster Tools o Analytics). Esto significa que lo único que necesitamos es un navegador y un poco de imaginación.

El sitio en cuestión es juegostt.com y su problema es que ha caído el tráfico mucho. Lo primero que he hecho es darle una ojeada al sitio para ver si había algún error garrafal o simplemente es un sitio spam, pero básicamente tiene casual games. Hasta aquí todo bastante correcto, sin entrar muy en detalle.

El siguiente paso ha sido revisar el robots.txt:

User-agent: *
Allow: /
Disallow: /ver/
Disallow: /page/0/
User-agent: Mediapartners-Google
Allow: /

Pero antes se hacer una propuesta de robots.txt, vamos a hacer unas cuantas consultas de búsqueda. Para empezar la que nos muestre cuántas páginas hay indexadas del sitio:

site:juegostt.com

Podemos ver que hay 6.610 páginas indexadas y una serie de combinaciones de carpetas y ficheros. Los siguientes pasos son establecer la idea de arquitectura de URLs que hay (sin entrar en el propio sitio web). Para ello voy a hacer las siguientes consultas:

site:juegostt.com -inurl:juegos-de

site:juegostt.com -inurl:juegos-de -inurl:juegos-mas

site:juegostt.com -inurl:juegos-de -inurl:juegos-mas -inurl:tag

site:juegostt.com -inurl:juegos-de -inurl:juegos-mas -inurl:tag -inurl:page

site:juegostt.com -inurl:juegos-de -inurl:juegos-mas -inurl:tag -inurl:page -inurl:swf

En este momento ya vemos que al final de la página nos indica que hay “elementos no relevantes” por lo que pulsaremos y veremos el 100% de los ficheros indexados:

site:juegostt.com -inurl:juegos-de -inurl:juegos-mas -inurl:tag -inurl:page -inurl:swf

¿Qué hacer en este momento? Pues ir revisando cada uno de estos “bloques” o “carpetas” o “ficheros” de forma autónoma. Por ejemplo, y empecemos por el final… los ficheros SWF, en este caso que son juegos, no hace falta que Google los rastree, por lo que eliminaremos la indexación de esa carpeta a través del robots.txt. De la misma forma, las paginaciones sólo hacen que generar contenidos duplicados y no sirven para “posicionarse” bien, así que, aunque sirven para el rastreo de los contenidos, lo mejor es eliminarlo.

En los resultados de Google que habían quedado nos encontramos con algunas páginas que aunque legalmente han de estar en la web, no hace falta que estén en los resultados de búsqueda. Estas páginas como proteccion-de-datos.html, aviso-legal.php, aviso-legal.html, enlaces/, webmasters/ o toda la carpeta sitemaps/data/ no influyen negativamente en los resultados de búsqueda, pero tampoco sirve de nada que estén, así que vamos a incorporarles una meta etiqueta de noindex.

<meta name="robots" content="noindex">

Ahora nos quedan las carpetas siguientes: juegos-de, juegos-mas y tag. Si “activamos” el filtro en la búsqueda, quedando algo como esto:

site:juegostt.com -inurl:juegos-de -inurl:juegos-mas inurl:tag -inurl:page -inurl:swf

sólo deberíamos ver lo que hay en esas carpetas. Debemos revisar dos cosas, la primera que estas páginas no tengan paginación… y en caso de que la tuvieran deberíamos filtrarlas a través del fichero de robots.txt; la segunda es revisar aquellas páginas que tienen 0 resultados (en las que debemos devolver un código de error 404) y las que tienen 1 o 2 resultados (en las que, de nuevo, usaremos la meta-etiqueta de noindex) que hemos de filtrar para que no se consideren contenidos duplicados, ya que es muy probable que varias tags acaben dando resultados de las mismas páginas.

Si ahora hacemos lo mismo con “juegos-mas” tendremos algo como:

site:juegostt.com -inurl:juegos-de inurl:juegos-mas -inurl:tag -inurl:page -inurl:swf

y en este caso esta página sólo es una paginación de casi 200 páginas que no aportan nada (y que tienen títulos duplicados, al igual que descripciones. Es por ello que, excepto la primera página el resto las eliminaremos a través del robots.txt.

Y para acabar, la revisión de donde más contenidos hay, la categorización de las fichas de juegos. Ejecutaremos una consulta similar a la anterior…

site:juegostt.com inurl:juegos-de -inurl:juegos-mas -inurl:tag -inurl:page -inurl:swf

Aquí tenemos una estructura compleja (no es la que yo usaría, pero eso ahora no toca). Tenemos por un lado las carpetas “raíz” que corresponden a las categorías propiamente dichas, de las que cuelgan dos tipos de contenido, los juegos y las paginaciones. Como ya hemos quedado anteriormente, las paginaciones no las vamos a indexar, pero hemos de buscar la forma de filtrar todo en el fichero de robots sin fastidiar el resto de elementos.

Mi propuesta de fichero de robots.txt es la siguiente:

Sitemap: http://juegostt.com/sitemap.xml
User-Agent: *
Disallow: /swf/
Disallow: /page/
Disallow: /juegos-mas-jugados/
Allow: /juegos-mas-jugados/
Disallow: /juegos-de-*/*/
Disallow: /ver/
User-Agent: Mediapartners-Google

A parte de todo esto hay un detalle que hay que añadir, que es el uso del rel=canonical en todas las páginas (excepto en aquellas que tienen el noindex). Con esto conseguiremos que, además de eliminar los contenidos duplicados de las páginas existentes, no se puedan generar contenidos duplicados de páginas nuevas que puedan aparecer por error.

Que conste que esto es una revisión MUY básica pero que es muy recomendable hacer en todos los sitios. Esto no es SEO, es HACER LAS COSAS BIEN, pero es un ejercicio que muchas veces no hace nadie cuando se plantea un proyecto y que es básico tanto para los usuarios como para los motores de búsqueda.

Categorías Javier, SEO

28 comentarios en “Arreglando una penalización”

  1. Estupendo como siempre. Actualmente no tengo ese problema pero es para guardar bien el post y revisarlo en cuanto pueda.

    Lo que no termino de comprender es el por qué de esto:

    Disallow: /juegos-mas-jugados/
    Allow: /juegos-mas-jugados/

    Saludos

  2. Buen aporte. Voy a ponerlo en práctica porque de un dia para otro hace 2 dias que el tráfico ha caído aproximadamente un 60% y sin hacer nada raro :-| Tengo que investigar más.

    Un saludo

  3. Gracias Javier!

    Qué raro, rarísimo, es ver hoy en día alguien que publique cómo se deben hacer las cosas y menos aún con ejemplos. Esto es contenido de calidad ;)

    Saludos!

  4. Buenas Javi… como siempre de gran utilidad tus consejitos.. seo o no seo como este caso.

    Aun leyendo tu explicación en la respuesta.. sigo si entender lo del allow y disallow de la MISMA CATEGORIA.. sin * ni nada que diferencia una de otra. No se.. algo me he perdido o desconozco… puedes explicarlo mejor?

    Gracias!

  5. Es como funciona el estándar del robots.txt…

    Si pones Disallow: /algo/ filtra ese /algo/*

    Si pones Allow: /algo/ permite ese /algo/*

    En caso de tener ambos códigos prima el Disallow sobre el Allow, de forma que el Allow es sólo para esa página en concreto siempre que no haya ninguna otra que lo bloquee… Lo dicho, esto siempre ha sido así…

  6. En el primer comentario indiqué que había perdido el tráfico que me enviaba google. Ahora observo en WT que al intentar recuperar como googlebot el sistema me responde: Web Inaccesible !!

    A qué se puede deber esto ? La web es pc-sobremesa.com

    Gracias anticipadas.

  7. Un muy buen artículo.

    Pero me surgen varias preguntas sobre la paginación. En varias ocasiones dices que puede provocar contenido duplicado, yo no comparto esta afirmación al 100%. Lo considerarías duplicado si tanto el title como description tienen un elemento diferenciador en su contenido? algo como “libros de segunda mano pag.2” en title y algo similar en la description. En ocasiones he visto paginados de la misma web ocupando posiciones consecutivas en los SERP´s lo que implica mucha visibilidad.

    Además por lo que parece G ha hecho recientemente recomendaciones para este tipo de situaciones:
    http://searchengineland.com/five-step-strategy-for-solving-seo-pagination-problems-95494
    http://www.humanlevel.com/articulos/indexacion-de-contenidos-paginados-google-cambia-las-reglas.html/comment-page-1#comment-524

    Mantendrías la solución de no indexar? piensas o crees que no son adecuadas las acciones propuestas en estos artículos? Cuando no indexas los listados pones pones canonical a la primera página? Quizás un post sobre el tema no esté mal ;)

    Como puedes ver son muchas preguntas sobre el mismo tema pero por lo que estoy viendo en la red no hay unanimidad ante este tema.

    Muchas gracias.

  8. Mi experiencia haciendo “inventos” con el canonical la verdad es que dan unos resultados muy extraños y peligrosos… de forma personal prefiero filtrar esas páginas a través de robots… otra opción es la del noindex, aunque por un tema de “meterle basura a los buscadores” no me mola tampoco mucho.

    Yo cuando busco no suelo encontrarme con paginaciones… si tú consideras qe tus paginaciones son útiles, las indexas, sino, es mejor no llegar el buscador con “mierda” no útil, aunque cuando el usuario esté en la web y le sirva como usabilidad.

    No hemos de olvidar nunca que hay que tratar a los buscadores como si fueran un usuario, pero un usuario que “navega a su manera por tu web”.

  9. Google se pasa por el forro el estándar del W3C… lo del PREV y NET lo usaría para los POSTS, las entradas, las noticias, no para las paginaciones…

  10. Curiosamente en Google suelen insistir en que no usemos robots.txt para impedir el rastreo de páginas, pero como apunta Javier con el ejemplo que ha dado suele ser una buena vía para arreglar problemas. Saludos.!

  11. A mi me gustaría saber como limitar la indexación de los SWF pero no de su contenido. Por ejemplo si yo tengo una web en FLASH me parece lógico que el buscador indexe los contenidos del SWF (por ejemplo el texto) pero que en el resultado de búsqueda de google debería aparecer http://www.mipagina.com/index.html y no http://www.miagina.com/index.swf... Si yo pongo Disallow: (*).swf que voy a lograr? que no indexe index.swf o tampoco va a indexar su contenido? Espero respuesta de algún experto para ver como lo soluciono. Muchas gracias!!!

  12. Te han metido un gol por toda la escuadra, esa web nunca ha estado penalizada, simplemente nunca tuvo visitas por que no es una buena web de juegos flash

  13. Hola, soy el dueño de juegostt.com, quiero agradecer publicamente el tiempo empleado por javier casares en revisar mi web. Por otra parte:

    @Domainer: Te han metido un gol por toda la escuadra, esa web nunca ha estado penalizada, simplemente nunca tuvo visitas por que no es una buena web de juegos flash

    ¿En que te basas para decir eso? Solo tienes que mirar el historial de la web….nunca tuvo gran cantidad de tráfico pero si 2.000 visitas al dia.

    En opensiteexplorer verás la autoridad de la web, ahora tiene rank 600k en alexa, ha bajado algo por una fuerte penalizacion hacia keys que posicionaba que espero vaya recuperando con el tiempo…hubo un cambio de programacion y urls, no le gustó nada eso a google, pero son errores de los que se aprende.

    Un saludo

  14. Hola Javier, ha pasado más de un mes y todo sigue igual, crees que todavía estoy penalizado? es muy raro lo que le está pasando a esta web…por si acaso ya me estoy centrando en otras webs. Saludos

  15. Normalmente han de pasar entre 6 y 8 semanas… de todas formas lo verás en Webmaster Tools si la cosa cambia (y sobre todo en Analytics)… A parte, habría que mirar cómo lo lleva Google, si está actualizando bien, si no, etc… no tengo acceso a WT, así que no te puedo decir mucha cosa…

  16. Hola Javier,

    Felicidades por el artículo, es muy bueno e instructivo, yo también tengo una penalización de aupa. En mi caso es un buscador de productos y dejé que decidiese Google que indexaba y que no, el resultado es que ya tenía indexadas 1.600.000 páginas y subiendo. De repente Google me ha penalizado y estoy perdiendo páginas indexadas, posición en los resultados y las búsquedas desplomadas.

    He estado investigando y ahora ya soy consciente de que los resultados de búsqueda con sus paginaciones y sus filtros no deberían de haber aparecido en Google. Acabo de bloquear la página de búsqueda y todo el contenido duplicado posible, en el robots.txt aunque también lo voy ha hacer por nofollow. Lo único que dejo es una página por cada búsqueda, la primera, sin paginación ni filtros y con url amigable. Espero bajar el número de páginas indexadas a menos de 100.000

    ¿Debo de hacer algo más? ¿Hay que usar el cuestionario de google de reconsideración?

    Saludos y muchas gracias,

  17. En una primera fase lo mejor es dejar trabajar a Google, piensa que al menos debes dejar un mes y analizar cómo ha ido la reindexación de los contenidos, si está tardando mucho en eliminar los contenidos que no quieres que aparezcan, etc… dependiendo de eso hay que tomar más o menos medidas en cuanto a avisar a Google o no.

  18. Muchas gracias,
    La verdad es que el problema apareció ayer a las 10 de la mañana, como ves soy rápido haciendo cambios :). También es cierto que hace casi una semana por un error se perdieron varias miles de imágenes (de un total de varios millones, algo menos del 1%), ya he creado un script para detectar las imágenes perdidas y otro para recuperarlas. ¿Crees que esa cantidad de imágenes perdidas (no se si computan como enlaces rotos) puede haber contribuido? O eso no afecta en absoluto.

  19. Aviso a navegantes, Google está realizando un cambio de aupa, no solo yo estoy perdiendo las paginas listadas y el posicionamiento, otros buscadores de productos también.

    Parece que es un cambio importante (¿para quitarse competencia en la búsqueda de productos?).

    Saludos y gracias por la info.

  20. Hola Javier, sigo rastreando lo que hace google con mi web y bueno…sigue rastreando unas 1.000-1500 páginas diarias, pero acabo de ver que todavía no ha eliminado todo el paginado, aún faltan unas 500 páginas…Y lo peor, que no respeta mi metadescripción…cuando le añado un juego, pasan varios dias y todavía sigue sin indexarlo, pero cuando lleva ya 5 o 6 dias vuelvo a mirar y dice que lo indexó el mismo día de publicación ( por lo que deduzco que si indexa, pero no lo muestra en los resultados, tal vez siga penalizada…). Haciendo esta búsqueda:

    http://www.google.es/#sclient=psy-ab&hl=es&source=hp&q=site:juegostt.com+pagina&pbx=1&oq=site:juegostt.com+pagina&aq=f&aqi=&aql=&gs_sm=s&gs_upl=0l0l0l131494l0l0l0l0l0l0l0l0ll0l0&bav=on.2,or.r_gc.r_pw.,cf.osb&fp=8ec60baf6182ed69&biw=1366&bih=610

    …en páginas 2,3,4….se ve que son páginas de juegos que no respeta la metadescripción. Ya nosé que más hacer, si abandonarla un tiempo más o que…En webmasters tools, ya solo faltan 1000 paginas Not Found, de un total de 20 mil, cuando cambié de programación y url (ahi la rematé xD)

    Pd: Hice una web siguiendo tus consejos de SEO para wordpress para android, a ver que te parece: androidsdk .es

    Saludos y Gracias!

  21. Arreglando sólo lo que puse en el post no será suficiente, es sólo un principio y como dije es información que saqué de forma pública, sin herramientas de webmasters ni nada parecido. Seguramente habrá que hacer ya una segunda fase de revisión teniendo en cuenta la limpieza de lo que ha habido y detectando cosas nuevas…

Deja un comentario