Google Quality Rater: WebSpam

Hace unos días comencé a explicar sobre cómo los Google Quality Rater validan la utilidad de los documentos. Ahora que ya sabemos cómo se valida un documento, queda que veamos los «flags» que pueden recibir; esto significa que independientemente de la utilidad del documento podemos marcar determinados elementos (como spam, malware, …) para que se investigue más sobre él.

Spam

Aunque luego entraré en más detalle en este punto, el webspam se puede marcar con 3 niveles distintos: not-spam, mayby-spam y spam.

Una página correcta, en la que no hay ningún intento de engañar al buscador ni al usuario se marca como no spam, es decir, se marca como correcta. En el caso en el que haya ciertas sospechas de que puede incluir alguna técnica extraña, pero no queda claro si es algo hecho a propósito o es algo que se ha hecho por desconocimiento se puede marcar la página como «puede que spam». El último caso es marcarla claramente como «spam» en base a los elementos que, como antes decía, luego explicaré.

Pornografía

El «flag» de pornografía siempre hay que marcarlo en caso de que la página lo sea, independientemente de la utilidad o del webspam o de lo que sea. Una página que tenga imágenes, textos, enlaces, publicidad, popups… será marcada con este atributo.

En estos casos, la utilidad de la página vendrá marcada por la intención del usuario, es decir, si un usuario está buscando o no pornografía. En el caso de que la consulta de búsqueda no tenga ningún tipo de intención, todos los resultados que contengan un mínimo de contenido serán marcados como Useless. Pero a veces nos encontramos con consultas de búsqueda que pueden tener varias interpretaciones posibles. En estos casos en los que no queda clara la interpretación, siempre se tenderá a valorar la búsqueda como si no tuviera la intención. En el caso de que alguien haga una búsqueda clara, las páginas se valorarán de forma normal (incluso puede algún resultado Vital para alguna búsqueda) y se marcarán con el flag Porn.

Malicioso

Por último nos encontramos el flag de código o sitio malicioso. Este elemento se deberá marcar principalmente en dos casos.

El primero de ellos es cuando el navegador no se puede cerrar de forma normal, por mucho que lo intentes, es decir, la página «te ha secuestrado» y no te deja ir. El otro caso es cuando el sitio intenta o te incita a descargar algún tipo de virus, troyano o cualquier otro sistema que se puede considerar malicioso.

Un detalle importante es que las páginas que incluyen popups o similares, aunque haya que pulsar un par de veces para cerrarlos, pero se cierran, no se consideran de este tipo.

Vale… pero ¿qué es WebSpam?

Pues WebSpam es el término que se usa a aquellas páginas desarrolladas por los webmasters para engañar a los motores de búsqueda y que pretenden atraer a los usuarios. Hay que tener en cuenta que aquellas páginas que puedan ser molestas o tener muchos popups no tienen porqué ser marcadas con esta etiqueta. Las páginas que están desarrolladas únicamente para ganar dinero y no ayudar al usuario son spam.

Es curioso que Google obliga a sus Quality Raters a utilizar únicamente el navegador Firefox para hacer todas las pruebas y que incita a instalar la Web Developer. Sobre todo sorprende porque Chrome, en la fecha en la que se data el documento ya iba por su versión 12, bastante estable y segura.

Texto y Enlaces ocultos

El texto oculto es visible por los buscadores pro no por los usuarios. Para aceptarlo como tal debe:

Ser invisible completamente al ojo humano.
Tener el mismo color que el fondo de pantalla, o muy cercano de forma que sea inapreciable.
Tener un tamaño de letra muy muy pequeño (fuente 1, 6 pixels…).
Suele estar situado en zonas en las que no parece haber más que un bloque en blanco, sin contenido, normalmente al pie de página.
Puede haber tan sólo una o dos líneas escondidas, pero también páginas enteras.
La mayoría de veces el texto oculto es spam, pero puede darse que se oculte por un tema de diseño o maquetación.

El texto oculto normalmente se puede observar aplicando Control+A (Manzana+A), desactivando CSS, desactivando JavaScript, viendo el código fuente…

Keyword Stuffing

En ocasiones los desarrolladores cargan las páginas con palabras relacionadas con la consulta de búsqueda.

Las palabras están repetidas en multitud de ocasiones en la página.
Palabras relacionadas con las palabras de la página también en exceso.
Múltiple mispelling de las palabras de la página.

Para decidir si hay un exceso o no se debe mirar la forma en la que el usuario lo puede percibir, sobre todo en el momento en el que eso lo puede distraer. En caso de duda no se marcará como spam.

De la misma forma que puede haber exceso de palabras clave en el contenido de una página, podemos encontrarlo en la propia URL. En estos casos suele verse porque la URL viene generada por muchas de las palabras clave de la consulta del usuario y por el exceso de cantidad de guiones entre ellas.

Sneaky Redirects

En algunas ocasiones podemos encontrarnos que cuando un usuario entra en una página se le reenvía a otra página que la URL no coincide con la original. En aquellos casos en los que esta redirección se haga desde un punto de vista de intento de spam se marcará como tal.

Cuando se produce la redirección se observa que hay varias redirecciones intermedias hasta llegar a la definitiva.
Cuando se accede a una página la redirección cada vez nos manda a una dirección distinta.
En ocasiones se manda al usuario a sitios de venta habituales como Amazon, eBay, Zappos…

Para reconocer esto podemos usar varias técnicas. Para empezar la más sencilla es la de comparar ambas direcciones URL y comparar por ejemplo las páginas principales del dominio para ver si se parecen. Otra forma de verlo es analizando el whois del dominio; en este caso si los datos del propietario son iguales no suele ser spam.

Cloaking

El cloaking es el sistema que permite que se muestren páginas distintas a un usuario y a un motor de búsqueda. Suele haber dos técnicas para generarlo: JavaScript y Frames (yo añadiría la programada que detecta el User-Agent y las IPs de los crawlers).

Para detectar la de JavaScript tan sólo hay que activar y desactivar el JavaScript y comparar los resultados que muestra la página. En el caso de los frames lo mejor es analizar la dirección que aparece cuando vemos la información del propio frame.

Publicidad PPC

Algunas páginas ofrecen únicamente enlaces de publicidad PPC, o en su gran mayoría, conocidas como páginas PPC puras. Lo que hay que analizar es si estas páginas ofrecen algún tipo de ayuda a los usuarios o no. Por ejemplo:

Comparadores de precios: Estos sitios ofrecen un valor añadido a los usuarios, aún llevando a sitios de venta por afiliación.
Reseñas de productos: Se hacen reseñas de productos originales, aunque luego manden a comprarlo vía estos enlaces. Esto incluye el Pay-per-Post.
Recetas: Aquellos sitios que incluyen recetas originales (aunque se mezclen con otras no tanto) no se marcan como spam.
Letras de canciones, frases, poemas, etc: Si la página está creada para ayudar a los usuarios a encontrar la información y no con exceso de publicidad.
Información de contacto: Hay páginas en las que se ofrece información sobre empresas en las que hay direcciones, teléfonos, etc…
Descuentos, cupones, etc: Si la información que se provee es interesante y no sólo el enlace por en enlace.

Copia de contenidos

En ocasiones hay sistemas de scrapper que leen contenidos de otras fuentes (como Wikipedia, DMOZ…) e incluso te incitan a ello siguen siendo páginas con contenido copiado. En estos casos no tiene porqué ser una técnica ilegal, ni tan siquiera plagio.

Hay páginas que generan contenidos y que cuentan con herramientas de sindicación (RSS, XML… y que después, de una forma automática se les añade publicidad. En estos casos en los que la única función de la página es la de no agregar valor y sólo ganar dinero, se considera spam.

Páginas puerta

Son aquellas páginas creadas principalmente para los motores de búsqueda y que derivan a los usuarios a otras páginas de destino habituales. Las páginas suelen tener un aspecto muy similar entre ellas pero no proveen ningún tipo de valor a los usuarios. Las landing pages podrían entrar en este apartado si no se tratan bien.

Plantillas y Páginas autogeneradas

Muchos sitios utilizan plantillas que incluyen contenidos copiados de otras fuentes. En estos casos se pueden observar estas plantillas porque suelen tener un formato bastante genérico. Además, suelen darse páginas similares a las que llegar con distintas palabras clave.

Foros

En muchas ocasiones existen foros que únicamente copian contenidos de otros foros y les añaden publicidad. También, en la mayoría de estos, no se puede realizar la entrada de un comentario o respuesta.

Aquellos foros que por algún tipo de problema de sofware o de malware tienen inyección de spam no deben ser marcados como tales.

Cómo reconocer contenido copiado

Buscar alguna frase del contenido en el buscador, añadiéndole comillas al principio y final. En este momento aparecerán otras páginas donde se incluye esa misma frase. Aquí puedes investigar cuál es el contenido original.
Buscar enlaces de publicidad alrededor del texto; Wikipedia y DMOZ no incluyen enlaces de publicidad.
Buscar gramática computerizada sospechosa, es decir, intentar buscar texto que no tenga mucha lógica y que pueda parecer generado de forma más o menos automática.
Formato de la dirección URL, en la que aparece un exceso de palabras clave y que sugiere una plantilla que las genera.
Piensa si la página ha sido creada por un ser humano o por una máquina de una forma automática.

Páginas de resultados falsas

Una página de resultados falsa es aquella que muestra resultados de búsqueda como si fueran reales, pero que en realidad no lo son. La página tiene un cajetín de búsqueda pero si tu realizas la misma consulta de búsqueda sueles obtener resultados diferentes. Si pulsas en los resultados de búsqueda verás que te envían a sitios de PPC.

Blogs falsos

Son blogs en los que los contenidos son copiados de otras páginas o fuentes. En muchas ocasiones disponen de sistemas de comentarios que no funcionan.

Hay que diferenciar estos blogs de aquellos que han sufrido ataques de spammers, es decir, que los contenidos son reales pero que en comentarios o por errores de software / malware sufren un ataque de spam. En estos casos no hay que marcar la página como spam.

Intención comercial

La mayor parte de las páginas de spam tienen una intención comercial, y se crean para generar ventas a través de páginas de afiliación o mediante clics de PPC. Si una página existe únicamente para generar dinero esa página es spam.

Botones con textos como «más información o «realizar compra» que acaban llevándote a un sitio en otro dominio suelen ser sistemas de afiliación spam.
Si las propiedades de las imágenes llaman a direcciones URL de terceros (normalmente de la página real de venta) también se ha de marcar.
Si existe contenido original propio, además del creado por el afiliador, esa página no se puede marcar como spam.

No todos los sistemas de afiliación son negativos, ya que muchos pueden ofrecer un valor añadido a los originales, como comparativa de precios, sistemas de ordenación, mejoras de búsqueda, etc…

Se pueden reconocer a los vendedores verdaderos por elementos como:

El carrito de la compra está en el mismo dominio que los productos.
El carrito de la compra se actualiza cuando añades un producto.
La política de privacidad tiene una dirección postal real.
La calculadora de gastos de envío funciona.
Existe una «lista de deseos» para recuperar elementos posteriormente.
Existe un sistema para poder hacer seguimiento de los pedidos.
Existe un foro de usuarios que funciona.
Te puedes registrar y acceder.

Parking de Dominios

Muchos spammers compran dominios que han caducado para incluir sus propios contenidos en dichos dominios, la mayoría de ocasiones para aprovechar la cantidad de enlaces que apuntan a dicho dominio. Estos dominios también pueden ser nombres de dominio que se parecen muchos a otros reales, con typos o mispellings. Además, estas páginas suelen tener un listado de enlaces patrocinados, categorías «populares» o una cantidad elevada de palabras clave.

Para reconocer este tipo de dominios podemos analizar los enlaces salientes del mismo y comprobar si pueden ser enlaces patrocinados, además de no tener contenido original en la página. Como detalle podemos visitar el Internet Archive donde podemos ver el histórico de dicha página a lo largo del tiempo.

Phishing

El phishing es un sistema mediante el que se roban datos personales a los usuarios haciendo creer al mismo que está navegando por un sitio que no es el real. El caso más habitual es el de los bancos, en páginas que se parecen estéticamente y donde has de introducir datos personales que ellos almacenan. Hay que tener en cuenta que algunas páginas pueden ser phising pero no spam, por lo que han de macarse correctamente.

¿No estás seguro si una página es spam?

Pues entonces hazte estas preguntas:

¿Ofrece la página una buena experiencia al usuario?
¿Tiene la página contenido original que puede ser útil al usuario?
¿Piensas que la página debería ser incluida en los resultados de búsqueda?
¿Está la página pensada para los usuarios¿ ¿Hay elementos humanos en la misma?
Si eliminas la publicidad y el texto copiado de la página, ¿sigue siendo útil?

Personalmente estos sistemas se quedan cortos en muchos casos, aunque sí que creo que son una buena base para informar a Google de qué elementos y páginas son perjudiciales y tomarlo como punto de partida para aprender y analizar el resto de forma automática. Esto es lo que Google Panda ha introducido, un sistema que hasta ahora era relativamente paralelo al de las búsquedas (el del spam o de la calidad) y que ahora forma parte del algoritmo propiamente dicho… Y ahora que sabes todo esto, ¿piensas que tu sitio puede parecer spam o lo es de cara a los ojos de Google?v

Google Quality Raters:

Comments

Una respuesta a «Google Quality Rater: WebSpam»

vinosyrecetas

2011-11-07

Yo estuve hablando con colaboradores de google quejándome de esto:
—-
Resultado google:
http://www.google.com/search?client=safari&rls=en&q=Atun+a+las+finas+hierbas+de+Provenza&ie=UTF-8&oe=UTF-8
Página que me copia:
http://blog.lumarseafood.com/?page_id=449
Y la original y destino de la anterior:
http://www.vinosyrecetas.com/atun-a-las-finas-hierbas-de-provenza
—-
y sus comentarios fueron , «que como la otra página es un blog corporativo de un empresa relacionada con alimentos, podría tener más peso que la mía….» No encuentro que sea muy justo todo esto. Pero lo más fuerte es que se supone que es la mía la que dicen que es una copia. Porque antes estaba la primera y ahora ya ni aparezco. Y la verdad me hago estas preguntas que formulas y creo que todas son que no hago spam de ninguna de las manearas, vamos creo yo… Salute!!!

Responder

Comments

Una respuesta a «Google Quality Rater: WebSpam»

Deja una respuesta Cancelar la respuesta

Últimas entradas