Contenidos duplicados por idiomas

Según va pasando el tiempo cada vez me encuentro con clientes (y no clientes) que quieren hacer versiones internacionales de sus sitios. En algunos casos lo hacen bien, ya que usan los TLD de cada país, con la interfaz y los contenidos traducidos a lo que ese país utiliza, pero no siempre es así.

Aunque algunos digan y repitan que el contenido duplicado no existe, la propia Google da algunos consejos para evitar que eso ocurra (un artículo muy interesante, la verdad) y, aunque para mi falta chicha en ese artículo, sobre todo hablando de los contenidos dplicados off-site (ahí se habla principalmente de los importantes, que son los contenidos duplicados on-site), es cierto que los idiomas, a priori, no se contemplan.

Es por eso que Google ha aprovechado una de las novedades de HTML 5 para ¿inventarse? un nuevo meta-dato que ayudará a comprobar si los contenidos parecidos entre idiomas están bien trabajados y, en el caso que toque, no se consideren duplicados.

¿Y por qué está haciendo esto? Básicamente porque mucha gente está abusando de su traductor automático para conseguir tráfico en varios idiomas, y ya han dejado claro que aquellos que usen contenidos traducidos automáticamente serán penalizados (NOTA: esta penalización aun no se aplica, pero parece ser que lo haría antes de finales de 2010).

¿Qué sugiere Google? Aprovechar el metadato que antes comentaba que es tal que así:

<link rel="alternate" hreflang="fr" href="http://fr.javiercasares.com/">

Como muchos ya sabréis, los “link” son unos elementos que se incluyen en la cabecera de la página y que, gracias al atributo “rel” permite distintas actuaciones. En este caso el rel-alternate indica que existe otra versión alternativa de la página (y que según los parámetros que le siguen se puede deducir si es una versión para imprimir, una versión en PDF o una versión en otro idioma).

El elemento “href” hace referencia a la dirección URL que sería “duplicada” (o mejor dicho, alternativa) a la actual, y, el elemento interesante, el hreflang que indica, en este caso, el idioma de la página alternativa.

Tal y como avisa Google, esto está pensado para sitios que podrían tener la estructura base de la página en idiomas distintos, pero los contenidos en el mismo idioma.

Que conste que no recomiendo en absoluto usar lo que Google, mezclando rel-canonical con rel-alternate, sino que habría que ver cada caso y decidir, para evitar generar aun más contenidos duplicados. Pero bueno, es un punto de inicio para gestionar mejor los distintos idiomas de un sitio web.

Categorías Javier, SEO

2 comentarios en “Contenidos duplicados por idiomas”

  1. El atributo hreflang existe como tal desde HTML4 (http://www.w3.org/TR/html401/struct/links.html#h-12.1.5) y ya se recomendaba su uso de la manera que comentas, es decir, para indicar un enlace hacia la versión en otro idioma de la página que se estaba visualizando.

    También se hacía ya mención a la característica de usar la etiqueta para este cometido de cara a los buscadores (http://www.w3.org/TR/html401/struct/links.html#h-12.3.3)

    Aunque particularmente prefiero asegurarme que los contenidos estarán correctamente traducidos y dentro de sus dominios ccTLD como tu comentas ya que así creo que gana el administrador de la web y los buscadores ya son capaces de hacer esta distinción por ellos mismos aunque no tengas relacionadas las páginas mediante la etiqueta

    En el caso de contenido “incrustado” dentro de layouts en diferentes idiomas ¿crees importante hacer esta distinción que comenta Google (canonical + link)? ¿o mejor optar por no mostrar dichos contenidos si no están traducidos?

    Un saludo

  2. Si los contenidos son en el mismo idioma, yo personalmente no los indexaría si sólo cambia “la interfaz”… en el caso de traducciones automáticas, tampoco lo haría… en el caso de traducciones manuales, que es para lo que se hizo en su día, sí que usaría lo del idioma.

    En el caso de usar canonicals y demás… mi experiencia dice que sólo hay que enlazar “lo correcto”… si hay varios idiomas “repetidos” casi mejor usar el noindex que no el canonical.

Deja un comentario