Search Ranger AntiSpam de Bing

Los sistemas para detectar el web-spam es lo que estos últimos años más de cabeza trae a todos los motores de búsqueda, principalmente Bing y Google que se enfrentan a grandes cantidades de basura que rastrean por la red de redes. Y sin duda Microsoft nos da ciertas pistas de algo que solicitó hace menos de un lustro en lo que a sistemas antispam se refiere, y lo hace a través de una patente con un título un poco complejo: Search ranger system and double-funnel model for search spam analyses and browser protection.

El sistema básicamente describe un proceso de ingeniería inversa relacionado con el abuso sobre los enlaces, de forma que todos aquellos enlaces que se han creado artificialmente sean descubiertos de una forma relativamente sencilla, según algunos patrones. Hay varios procesos analizados… uno de ellos sería similar al siguiente: se realiza una consulta de búsqueda, se analizan las distintas URL de los propios resultados y se visitan. Después se vuelven a visitar las páginas si hacer uso de las URL de los propios resultados de búsqueda (supongo que para evitar el «referrer») y se comparan los resultados para buscar diferencias. Otro sistema es el de recuperar las distintas páginas de formas distintas y analizar los resultados y la navegación dentro de los sitios. Este sistema se concentra bastante en técnicas de cloaking pero que dependen principalmente de la fuente de procedencia del usuario.

Quizá entre las cosas interesantes de este sistema se habla de verificaciones manuales de estas detecciones, además de un detalle quizá más importante de lo que parece, y es que este sistema afectaría a todo el dominio en caso de detectarse contenido de spam.

Un detalle que me hace gracia, por parte de Microsoft es lo que pone en este párrafo:

As mentioned in the background section, the problem of search spam is not new. Search spam has traditionally been modeled as an information retrieval and relevance ranking problem. For example, conventional search engine ranking techniques that rely on analysis of content of each web page and hyperlinking relationships between pages simply hope that spam pages will naturally have lower ranks and thus appear in search results after all non-spam pages.

Entre líneas podemos leer cómo «ponen a caer de un burro» el sistema del PageRank-Google con eso de que los buscadores convencionales se basan en los contenidos y relaciones de enlaces entre páginas.

Algunas de las técnicas de las que se habla son un poco baratas. Por ejemplo comentan que muchos spammers utilizan contenidos que aparecen en páginas de los primeros resultados de búsqueda y luego les añaden los enlaces que les interesan. Además, que para crear enlaces se generan «link farms» (i.e., large number of websites artificially linking to each other) o enlaces ocultos en sitios clonados, además de campos públicos en blogs, foros…

Otro de los sistemas para detectar spam sería la comparación de páginas entre sí, detectando variaciones en palabras claves e inclusión de elemento como Adsense (sí, habla concretamente de Adsense). La idea es analiza una primera página, compararla con la siguiente y ver si son iguales y cambia, por ejemplo, la palabra Google por Viagra, y además, entre párrafos, se le añaden códigos de publicidad.

Por parte del propio buscador también hay sistemas de autodefensa. Según parece existen las llamadas Spammer-Targeted Keywords (STKs), una serie de consultas de búsqueda que se realizan de forma frecuente a los buscadores y que, gracias a estas, se podría analizar el interés que se tiene por determinados contenidos que, posteriormente, serían analizados con las técnicas que os comentaba.

El sistema Search Ranger (SR) implementaría técnicas para identificar y defenderse de ataques a gran escala, muchos de ellos relacionados entre sí. Este sistema sería eficaz en los tres grandes buscadores tal y como ellos mismos mencionan. Supongo que analizar los resultados de búsqueda de Bing, Google y Yahoo! (antes de que se pasase a Bing) sería una sistemática bastante habitual.

Este sistema lo que intenta es lo siguiente:

By analogy to the physical world, no attempt is made to separate criminals from the innocent majority by lining up billions of people and trying to identify how today’s criminals typically dress themselves. Instead, intelligence gathering identifies problem neighborhoods and places those who are particularly active in those neighborhoods under surveillance. Once under surveillance, the perpetrators may be captured as they conduct criminal acts in the crime scene. Further, the perpetrators may be interrogated to collect more information about their networks. With a network map, upstream and downstream miscreants involved in business transactions with the perpetrators can be hunted down.

Es decir, no se analiza a los individuos (enlaces) por su aspecto, sino que se tiene en cuenta lo que les rodea, analizando los vecindarios para encontrar elementos más detallados y no generalizar. Al fin y al cabo, lo que decía al inicio, se intenta encontrar al responsable y todo lo que éste genera alrededor. Como los patrones no se basan únicamente en redes, se pueden encontrar sitios similares de un mismo autor aunque estén en Sistemas Autónomos independiente (lo que significa que tener IPs de muchas clases no serviría de gran cosa).

Otra forma de analizar sistemas que generan spam es el análisis de tráfico que redirige a sitios de afiliación, es decir, si tienes una dirección URL en un dominio que acaba haciendo una redirección a un sitio de afiliación. Lo que no deja claro es si estos sistemas están pensados para dominios propios que usan los spammers o si se podría hacer uso de herramientas externas de redirección (como los acortadores más conocidos).

The use of redirection is becoming essential to a big part of the search spam business that includes (i) traffic-affiliate spammers that participate directly in affiliate programs of merchant sites («affiliate model») and (ii) syndication-based spammers that participate in pay-per-click schemes, advertising syndication programs and display ads-portal pages («syndication model»). In the affiliate model, the need for spam pages to redirect to their target merchant sites is clear. In the syndication model, many large-scale spammers have moved to the practice of setting up «throw-away» doorway pages on legitimate websites to avoid exposing their own domains to blacklisting by search engines. With respect to such aversion tactics, consider free blog-hosting sites such as blogspot.com and free web-hosting sites such as hometown.aol.com, which are popular among syndication model spammers. Since spammers do not own these exploited servers, the spammers typically use client-side scripts to redirect browsers to fetch ads from redirection domains that the spammers own or otherwise control, as opposed to exploit.

El análisis que se hace de la diferenciación entre los dos grandes tipos de webspam es bastante curioso: Syndication-Based Spammers vs. Traffic-Affiliate Spammers. El primero básicamente lo que genera es un sistema de contenidos de baja calidad que se posiciona, crea un sistema de puertas que acaban enlazando a las páginas de las que se obtiene el beneficio. El segundo es similar, pero se basan en enviar tráfico a sitios de afiliación. La diferencia básica es que el primer caso el usuario acaba pulsando en un anuncio de publicidad y en el segundo acaba llegando al sitio web donde se acaba realizando el proceso.

Quizá, de todo lo que se explica, lo más importante es que el sistema es autónomo, por lo que va analizando la información y, si detecta alguna cosa avisa para que sea revisado, por lo que permite a la gente que lo controla ser reactivo. Además, el sistema aprende de los nuevos métodos y, una vez lo ha aprendido utiliza la información para detectar las nuevas entradas, pero también es retroactivo, es decir, permite que esos nuevos sistemas de detección se apliquen sobre los contenidos que ya están indexados para hacer una nueva limpieza del índice.

Este sistema que presenta Microsoft del que se supone se aplica en Bing sin duda lo veo como la herramienta clave que ha hecho que la calidad de los resultados desde MSN, pasando por Windows Live, haya evolucionado de una forma tan rápida que puede alcanzar a Google en poco tiempo. Y es que Google lleva desde 1997 rastreando información y analizándola, algo que nadie dispone, ya que los índice son relativamente más nuevos, muchos de ellos de 2003-2005, por lo que los sistemas de detección son claves a la hora de alcanzar al gigante de Mountain View. Eso sí, si este ritmo tan elevado de Bing sigue así, en poco tiempo habrá alcanzado a Google en contenidos en idioma inglés y más adelante en otros idiomas, donde ahí sí que Google parece llevar bastante más ventaja.

Comments

Una respuesta a «Search Ranger AntiSpam de Bing»

Deja una respuesta Cancelar la respuesta

Últimas entradas