Yahoo! Workshop: Spam Detection

·

Bueno, mientras siguen las ininteligibles charlas sobre algoritmos extraños, yo voy a por lo que realmente interesa y los datos buenos:

La charla de Carlos se centraba en qué cantidad de spam detecta cada uno de los diferentes algoritmos existentes.

En la red hay dos tipos de cosas: información y spam.

El spam se suele detectar porque tiene una lisa de palabras clave y enlaces. Hay páginas bien formadas que son menos detectables. Se pueden encubrir como si el sitio fuera un buscador, o en simple páginas normales que pueden encubrir dicho spam.

Yahoo! Workshop

Hay muchos tipos de algoritmos simétricos como el Pagerank, el TrustRank, HITS, Salsa…

El 35% de los enlaces son recíprocos y es habitual que se enlace gente con temas similares o sitios similares. De esta forma es cómo se puede detectar spam.

En principio el Pagerank puede detectar un 72,6% de spam con un 3,1% de falsos positivos.

El Pagerank no sirve para detectar spam ya que las páginas con spam tienen un Pagerank muy similar.

Es mejor tener enlaces de pageranks muy variados que no tener enlaces de pagerank muy similar.

Yahoo! Workshop

Con el Trustrank se detecta un 74,4% del spam pero con un 2,6% de falsos positivos. Aunque se detecta más claramente el spam, puedes penalizar a muchos sitios que no lo son.

Otra opción es la de usar un Pagerank Truncado, que limitará el control del Pagerank de los sitios más cercanos y relacionados, haciéndoles perder su valor en relación a este sitio en concreto. Con este sistema detectaríamos una gran cantida de spam que habitualmente no se puede detectar.

Gracias a él conseguiríamos detectar un 76,9% del spam con sólo un 2,5% de falsos positivos.

Si utilizásemos el algoritmo de Ntoulas (basado en el análisis de contenidos) podríamos llegar a detectar un 86,2% del spam con tan sólo un 2,2% de falsos positivos. Esto se presentará la semana que viene.

Conclusiones:

  • Mediante los enlaces se puede detectar cerca del 80% del web-spam
  • Saber la cantidad de host desde los que se enlaza, ayuda
  • Hay que tener en cuenta el valor del Pagerank de la página principal y de las páginas interiores para saber si es spam o no.
  • El antispam de los servicios de correo está mucho más depurado y es mucho mejor.

Os dejo con algunas capturas:

Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop

Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop