WebPerf Barcelona: WordPress

En unos minutos comenzará el primer #WebPerf en España, organizado desde WebPerf.es por mi mismo y donde yo voy a ser el primer ponente (por las cosas del directo, ya sabéis).

Aunque las carreras de última hora son siempre previsibles, tengo un rato para comentar varias cosas sobre el evento que, como bien dice el título habla de WordPress, de cómo conseguir que el WordPress consiga un alto rendimiento. Os dejo con la presentación para descargar y dejo el canal en directo aunque es una prueba piloto, por lo que si hay algún problema, lo siento de ante mano, seguramente poco podré hacer, aunque intentaré que sea posible que se vea (y sobre todo, que se oiga)…

Reconozco que estoy un poco nervioso, no tanto por la charla (no es ni la primera ni la última, aunque como siempre la he preparado pero improvisaré algo) sino por el hecho de organizar un evento después de tantos años sin hacer nada. Prácticamente desde el congreso OJObuscador 2007 que no llevaba a la realidad algo como esto. Además, gente a la que aprecio mucho va a estar ahí, y, no puedo fallar 🙂

Hala, ¡mucha mierda!

Plugin para WordPress y Varnish

Acabo de parir… han sido 9 meses largos (en serio, he estado, ahora que lo pienso, 9 meses desarrollando cosas sobre este tema) pero han valido la pena porque hoy he subido al repositorio oficial mi primer plugin: WordPress Varnish as a Service.

Aunque en la página del repositorio no hay mucha información, he preparado una página interna sobre este mismo tema en el que hay algo más de información, como por ejemplo algunas funcionalidades, los idiomas a los que está traducido…

Hace unas semanas ya os comenté que estábamos preparando un servicio de Varnish para WordPress como Servicio que básicamente multiplica enormemente la velocidad de carga de las páginas (el WPO y el SEO, vamos). Y como contra prestación ha salido un bonito plugin.

Aunque ha habido varias versiones anteriores 8a lo mejor algún día las subo por tenerlas ahí almacenadas) la versión 1.0.1 funciona bien, es estable y hace lo que tiene que hacer. De todas formas en mi cabeza tengo bastante claro el roadmap hasta la versión 2.0. Además, seguramente lance otro plugin (complementario al del Varnish) para que WordPress funcione perfectamente sin problemas, ya que Varnish es un proxy y eso implica cosas…

Además, he tenido el gusto de poder presentárselo a la gente de Varnish Software y junto a ellos y otras personas lo iré evolucionando al máximo.

Si alguien tiene sugerencias, quiere probar el Varnish como Servicio o cualquier otra cosa, buscad en el menú que pone “contacto” y os aparecerá mi correo 😉

El PageRank ha muerto

No sé si sabes que desde hace unos años Google ya no ostenta en exclusiva la patente del PageRank; me explico. Cuando Larry Page, por aquellos 1997-1998 patentaba el PageRank, la fórmula que básicamente dice que el peso de los enlaces hace que una página tenga relevancia lo hizo no para él o para Google Inc. sino para la Universidad de Stanford.

Hace unos años la patente quedó fuera de los ámbitos de uso exclusivo por parte de Larry y su compañía, lo que supone que, aunque tienen derechos de uso, el objetivo a muy corto plazo es no usar dicha estrategia ya que hoy en día ya no es totalmente suya.

Ahora en 2012 todos los buscadores utilizan el concepto de que un sitio con enlaces cobra relevancia pero no como hasta ahora lo teníamos entendido, lo que significa que algo está cambiando. Es decir, tanto Bing, como Baidu o Yandex utilizan el concepto del PageRank (adaptado a su manera) pero no con las bases propias del PageRank.

Estos días que he estado en el www2012, en el que estaba Bing, Google, Baidu, Yandex, Yahoo! y seguramente otros tantos que ni fui capaz de cruzarme, ninguno de ellos hacía referencia a ese tema de dar relevancia a los buscadores en base a los enlaces, sino que todos comentaban que su trabajo estos últimos años ha sido y sigue siendo el de dar relevancia en base a la calidad. El problema es definir qué se entiende por calidad en Internet (algo en lo que Ricardo Baeza hizo mención en varias ocasiones su charla). En general la calidad va definida por cosas muy elementales como simplemente escribir bien, tener los menores errores ortográficos, semánticos y gramaticales. Por otro lado cada vez más y más se habla de la personalización, ese elemento que hace que el SEO dependa de los usuarios y no de las máquinas.

El SEO en general es algo que los buscadores tienen presente y se premia si se hace todo correctamente. El SEO “de la antigua escuela” ya no tiene por dónde evolucionar más que no sea “hacer las cosas bien”. Si sigues las normas, generas contenidos, aportas valor a tus usuarios y, de rebote, generas un buzz suficiente en la red no necesitas más. El problema (y la solución), una vez más, es hacer las cosas bien.

En muchos proyectos en los que estoy trabajando no se aprecian los detalles, esas excepciones que los programadores intentamos tratar en el día a día de un producto (que si un if por aquí que si un if por allá). Hace poco he tenido la posibilidad de comparar un desarrollo que hice hace algunos años del que estoy más que orgulloso (en el sentido de que creé un producto que lo que hacía lo hacía bien y que desde el punto de vista SEO era genial) con el mismo producto desarrollado por otra gente que hace lo mismo pero se ha hundido en la miseria a la hora de compararlo desde el punto de vista SEO; los contenidos son los mismos, se supone que tienen ahora mejores enlaces y de más calidad que antes, pero pequeños fallos de desarrollo han impedido que eso en vez de ir para arriba vaya para abajo. Y como digo con “pequeños”, pero con gran impacto. Esa es la diferencia de “hacer las cosas bien”.

Es posible que muchos penséis que una vez más se me ha ido la cabeza (algo que, por otra parte, me la resbala bastante), o que el título del artículo es amarillista o lo que queráis, pero soy viejo, llevo muchos años trabajando por y para la red de redes y las veo venir de lejos. Otros de los pre-2000 también opinan como yo. Internet está en su plena adolescencia como red mundial, estamos en un punto de efervescencia en cuanto a proyectos, desarrollo y estándares. Hacía 10 años que no teníamos una nueva versión de HTML, que viene con muchísimos añadidos alrededor como los microdatos, los canvas, navegadores que intentan ir por delante del ritmo oficial…

Al final, como ya decía en la Guía SEO y como debería poner en la Guía WPO todo es Sentido Común, es adaptarse a las necesidades de cada proyecto, de cada cliente, tener una base bien preparada y sobre todo hacer las cosas con dos dedos de frente. La “crisis” ha hecho que mucha gente haya venido a Internet y haya entrado como un elefante en una cacharrería, haciendo mucho ruido, pero pocas nueces… Así que simplemente paciencia, todo llegará y volverá a sus cauces. Eso sí, no esperéis que los buscadores vuelvan a la tecnología de hace 10 años, porque eso es agua pasada.

#WWW2012: Resumen de estos días

Se acaba mi viaje a Lyon (aunque aún me quedan unas cuantas horas por aquí hasta la vuelta a Barcelona) y me gustaría hacer un pequeño resumen de lo que me ha parecido esta edición (la única en la que he estado) del WWW2012.

El planteamiento de venir al www2012 fue básicamente por los workshops. Había asistido a otras ediciones de los que he estado (con otros nombres y otras cosas, pero básicamente años atrás) y quería seguir en la línea. Además, los que he estado (que consideraba que serían los que más me iban a aportar de todos los que había, que no eran pocos) los organizaban gente que conozco y en la que confío, así que poco podía fallar. Y así ha sido, me han servido para, una vez más, abrir mi mente “versión SEO” y poder ver ligeramente hacia dónde van los buscadores los próximos años. Sí, cuando la gente me pregunta que qué va a pasar dentro de 2-4 años en el mundillo de los buscadores en general no me equivoco porque, en eventos como estos aprender en lo que se está trabajando y se trabajará los próximos años.

Eso sí, una vez más, en algunas ocasiones me veo como el tonto de la clase. A estas charlas en general asisten los ponentes y otros cuantos “freaks” más de la temática… yo ni soy freak ni soy ponente, sino un simple espectador que no cuadra para nada en ello. Y digo esto porque los ponentes suelen ser estudiantes universitarios que exponen de forma más o menos científica trabajos interesantes. Por poner un ejemplo, en 2008-2009 asistí a un par de eventos en los que se hablaba de los microformatos cuando nadie los usaba ni sabía nada de ellos… ahora a todo el mundo se le hace la boca grande hablando de ello…

Quizá la parte negativa es el precio. No es barato asistir al www2012, aunque quizá eso le de cierto nivel, ya que la organización es simplemente gigantesca. Hay gente de todos los países, colores y gustos. A la hora de la comida debíamos de estar más de 2.000 personas tranquilamente. Simplemente espectacular. Eso sí, españoles no he visto ninguno.

Para acabar con respecto al evento propiamente dicho, me voy con una decena de ideas que no sé si podré aplicar por falta de tiempo. Esta es quizá la peor parte ya que si uno viene aquí y aprende cosas es para aplicarlas. Supongo que lo podré hacer en el momento en el que me encuentre frente a la situación, pero no podré probarlo con tiempo antes. También me voy con algunas conversaciones y ojeadas a los asistentes… hoy he podido mantener una conversación con una persona que trabaja en uno de los grandes buscadores que me ha confirmado (con silencios) mis teorías SEO. Sé que mi forma de trabajar el SEO es la correcta desde hace años, trabajando a medio-largo plazo, eso sí, y cada vez se confirma más y más. Por otro lado los gigantes de las búsquedas me dan cada vez más miedo: Microsoft Research, Google Research, Baidu y Yandex estaban por todos lados… y eso dice mucho. Sobre todo he tenido la oportunidad de darme cuenta hacia dónde va Yandex, porque han asistido la mayoría del grupo a las mismas charlas que yo, así que creo que no voy por mal camino…

Fuera del evento, me he dado cuenta de que mi inglés sigue flojo en algunos casos… para empezar hablándolo… aunque creo que casi ya hablo mejor inglés que catalán, lo que no sé si dice mucho o poco de mi (más bien lo segundo). Por otro lado he aprendido que el inglés-francés y el inglés-japonés son mucho más difícil que el inglés-afroamericano. Lo siento, pero soy incapaz de entender el francés, no consigo pillar ni una (y que nadie me diga que se parece al catalán, porque no es un tema de escritura, sino de pronunciación así con boquita de piñón que no se les entiende nada (si hay algún francés en la sala que no se lo tome a mal, es que simplemente no me empano de nada).

Y para acabar Lyon… aysh, Lyon… si no fuera por el francés (es coña…). Es un sitio que está bien… pero que en días grises no mola nada… hay mucho verde, pero las nubes lo ponen todo muy feo, y lo del viendo cerca del río es que no tiene nombre… ayer paseaba al lado de la Interpol (¡sí, señores, existe!). Hoy por suerte está haciendo un muy decente, con solecito y un poco de fresco y la verdad es que esto luce mucho mejor, y muy distinto. Además, estar cerca del Parc de la Tête d’Or, el mayor parque (dentro de una ciudad de Francia), es algo que también se agradece.

En fin, como resumen, me vuelvo con un buen sabor de boca, con la experiencia de uno de los eventos de Internet más importantes del mundo y con otro punto en el mapa en el que ya puedo situar una marca de visitado.

#WWW2012: CrowdSearch 2012, crowdsourcing for multimedia applications

Último bloque de presentaciones del día, en este caso va a ir relacionado con la inteligencia colectiva en contenidos y temas multimedia.

Para comenzar tenemos PodCastle and Songle: Crowdsourcing-Based Web Services for Retrieval and Browsing of Speech and Music Content de Masataka Goto, Jun Ogata, Kazuyoshi Yoshii, Hiromasa Fujihara, Matthias Mauch y Tomoyasu Nakano).

Existen los sitios PodCastle (para voz hablada) y Songle (para música) que se usan para el reconocimiento multimedia. El primero, por ejemplo, permite la lectura de un contenido e interpretar sus textos. Los usuarios pueden ayudar y colaborar corrigiendo las palabras que sean erróneas, eligiendo, por ejemplo, entre distintas palabras o simplemente corrigiéndolas. Entre las cosas interesantes son las interfaces que este sistema ofrece con formas alternativas. Además, tras corregir, el sistema aprende por lo que se mejora el performance del sistema.

Una de las razones por las que los usuarios entran en este sitio es por la interfaz que se propone y por el altruismo de los usuarios. Otra razón es que en algunos casos aparecen personajes famosos y los usuarios no pueden tolerar que haya errores en sus traslaciones a texto.

A diferencia de los cambios en la Wikipedia, un cambio es sólo para un contenido; en este caso un cambio implica una mejora en toda el sistema que mejora los trabajos futuros.

La otra herramienta, Songle, permite el análisis musical con un sistema visual de pistas, tempos, etc… Con este sistema se pueden detectar coros, melodía, tempos… gracias a esto es fácil encontrar partes de una canción por similitud.

La siguiente presentación es A Framework for Crowdsourced Multimedia Processing and Querying (de Alessandro Bozzon, Ilio Catallo, Eleonora Ciceri, Piero Fraternali, Davide Martinenghi y Marco Tagliasacchi)

En general las máquinas no tienen la capacidad para entender el material multimedia, lo que provocan baja fiabilidad, principalmente en vídeo. Un sistema que se ha probado es por ejemplo el de la detección de logos (marcas registradas) dentro de un vídeo, por ejemplo para detectar problemas de patentes o de usos indebidos.

Una de las cosas que se ha trabajado a nivel de inteligencia colectiva es la selección de logos dentro de una imagen, y por otra parte la separación de posibles versiones de logos.

Continuamos con An Evaluation of Search Strategies for User-Generated Video Content (de Christopher G. Harris)

Hacer búsquedas en vídeos generados y subidos por los usuarios es complejo. Por ejemplo, los tags no están penadas para la búsqueda, sólo hay 13 categorías, los comentarios son encontrables pero tienen pocas visualizaciones (0,16%, 1 de cada 600 deja un comentario) y en general no son útiles… en resumen: hay mucho ruido.

Una de las cosas que se estudian es la posibilidad de realizar una consulta y que estudiantes, usuarios en general o los resultados directos de Youtube ofrecen. Una vez esto, hay que plantearse si analizar o no los resultados también mediante inteligencia colectiva para corregir los vídeos propuestos.

Para acabar tenemos Discovering User Perceptions of Semantic Similarity in Near-duplicate Multimedia Files (de Raynor Vliegendhart, Martha Larson y Johan Pouwelse)

¿Son estas dos canciones la misma? ¿O estos dos vídeos? Dos vídeos son similares si generan el mismo propósito para un usuario. Una forma de analizarlo pdoría se poniendo a prueba a los usuarios haciendo que elijan, o si creen que varios vídeos de capítulos de series descargables por Torrent son los mismos o no en base a sus nombres.

#WWW2012: CrowdSearch 2012, methods and tools for crowdsearching

Seguimos con las charlas de inteligencia colectiva (más concretamente con su uso en temas relacionados con las búsquedas).

Retomamos las charlas con Crowd Sourcing Literature Review in SUNFLOWER (de Sihem Amer-Yahia). La idea es generar contenidos de forma automática en base a resumir otros contenidos junto a la inteligencia colectiva.

La primera parte lo que intenta es encontrar contenidos y buscar contenidos relacionados, generando distintos grupos y palabras clave. La segunda parte es la de generar un resumen de los contenidos (procesar, clasificar, reescribir…). La última parte es la que afecta a las personas. La idea es que en esta parte los usuarios acaben verificando y reescribiendo la documentación.

Para sacar los documentos se buscan contenidos similares y se basa también en los autores. Gracias a distintas herramientas ya existentes (como MEAD) se pueden extraer los principales conceptos y generar un resumen. La parte más relacionada con los usuarios tiene mucho trabajo por delante, ya que se pueden ajustar mucho los puntos para conseguir mejores contenidos finales. Como ejemplo de este sistema podríamos poner una base de la Wikipedia (podemos ver datos analíticos).

Para sacar los datos primero hay que encontrar documentos bien tratados, con temas y sub-temas. Además, han de estar bien relacionados, ya sea mediante palabras clave, información de autoría, sistemas de citas u otra metainformación.

Seguimos con la siguiente charla Human Computation Must Be Reproducible (de Praveen Paritosh).

La idea de lo que se ha comentado hasta ahora es sacar si los datos que se extraen de forma colaborativa son fiables. Freebase es una especie de Wikipedia pero pensada para máquinas con 23 millones de entidades y 500 millones de relaciones. En general el mayor problema de detección es el de las entidades. Por ejemplo, hay 8 ciudades llamadas San Francisco y hay que discernir de cuál de ellas se trata.

Hoy en día ¿para qué se usan las “computadores humanas”? Para etiquetar imágenes, para determinar relevancia en buscadores, moderar contenidos ofensivos… Estas personas pueden ser gente pagada (por ejemplo Mechanical Turks) o voluntarios, gente a través de oDesk o incluso empleados de la propia compañía (lo ideal es que sea una mezcla de todos ellos).

Los problemas del Crowd son, por definición, los spammers.

Además encontramos problemas en cuanto a las especificaciones de las tareas, a las guías de estilo de cómo han de responder. Aunque el problema mayor es la fiabilidad de la inteligencia colectiva, que requiere respuestas fiables y una serie de bases representativa.

A continuación tenemos Mechanical Cheat: Spamming Schemes and Adversarial Techniques on Crowdsourcing Platforms (de Djellel Eddine Difallah, Gianluca Demartini y Philippe Cudré-Mauroux).

¿Cómo se puede saber si una respuesta generada por los usuarios es spam? Por ejemplo que se haya contestado de forma aleatoria, que se haya generado de forma artificial o que sea duplicada de otra fuente. Para verificar esto es necesario el uso de algoritmos de selección y filtrado. En general las herramientas colaborativas tienen un bajo sistema de control del spam.

Para acabar, A Model-Driven Approach for Crowdsourcing Search (de Alessandro Bozzon, Marco Brambilla y Andrea Mauri).

La idea es cómo sacar información de la gente cuando se realizan búsquedas. En general se hace una búsqueda y se va refinando hasta conseguir la respuesta. pero en algunos casos puede que la respuesta nos e ala óptima. Para esto se puede usar un sistema añadido que se basa en datos anónimos de otros usuarios.

La idea es que, tras extraer datos de distintas API, se permita enviar la consulta a tus amigos de diferentes plataformas sociales (tipo facebook) y demás que, en un tiempo limitado, decidan las respuestas para mejorar la consulta.

#WWW2012: CrowdSearch 2012, crowdsearching on textual and linked data

Seguimos con las presentaciones… ahora empiezan las charlas más formativas y técnicas. Comienza la charla Social-Textual Search and Ranking (de Ali Khodaei y Cyrus Shahabi).

En los últimos años las redes sociales se han disparado, y tenemos una serie de relaciones como los intereses similares que podemos conseguir gracias a nuestros amigos o a grupos. Todo esto básicamente conseguido gracias a la llamada Web 2.0.

Una pregunta importante a hacernos es “qué es la relevancia social”. Cómo podemos relacionarla con la relevancia textual (la que usan los buscadores). Esto también va unido a la relación entre pares de documentos.

Para todo esto debemos presentar el concepto “Social-textual Query”, o sea una consulta textual que implícitamente lleve una parte social. Esta lleva una parte de relevancia textual y una parte de relevancia social (además de las acciones sociales que se pueden realizar).

Hay 3 grandes factores:

  1. La relevancia de cada usuario según la búsqueda, es decir, si la temática que tiene este usuario sobre unos temas particulares son relevantes o no lo son.
  2. La relevancia del usuario en el grupo, en la propia red social, que se podría medir por los seguidores, los que sigues, su importancia…
  3. Por último tenemos las acciones del usuario; por ejemplo tener un vídeo en Youtube es más relevante que comentar un vídeo.

El cálculo de los valores y pesos es dinámico, es decir, variará según vaya pasando el tiempo con bastante frecuencia ya que las redes sociales evolucionan.

Los análisis “en laboratorio” dicen que si combinamos los resultados textuales con los sociales los primeros resultados de búsqueda mejorarían ligeramente pero que el resto de resultados mejoraría bastante más, lo que en general daría una calidad mayor a los resultados de búsqueda, eso sí, en determinados tipos de búsqueda y dependiendo de tu red social.

La siguiente charla es A semantically enabled architecture for crowdsourced Linked Data management (de Elena Simperl, Maribel Acosta y Barry Norton).

El Linked Data básicamente son nodos relacionados la mayoría por RDFa y su sistema de consulta es SPARQL. En general los usuarios no saben buscar de forma concreta, por lo que las consultas de búsqueda, aunque se quieran interpretar son difíciles de calcular. Para ello primero hay que corregir internamente las consultas.

La idea es la de crear un escenario híbrido en el que se tenga en cuenta las consultas y datos establecidos (con SPARQL) junto a elementos de inteligencia colectiva.

Otro de los objetivos es el análisis de la relación entre DataSets, de forma que se podría mejorar la cantidad y calidad de los contenidos de forma automática.

La última presentación es Exploiting Twitter as a Social Channel for Human Computation (de Ernesto Diaz-Aviles y Ricardo Kawase).

En general se pueden usar herramientas como Mechanical Turk para encontrar computación humana, pero ¿por qué no utilizar algo del estilo Twitter? Twitter tiene más de 300 millones de usuarios y 200 millones de tweets diarios.

Para ello lo primero que habría que crear es una especie de framework para poder trabajar con los usuarios de la plataforma.

El sistema de preguntas y respuesta se haría mediante tweets, enviando la pregunta, un identificador y las respuestas, teniendo el usuario que contestar con el identificador y la respuesta seleccionada.

#WWW2012: CrowdSearch 2012, bienvenida

Y comienza un nuevo día en Lyon en el evento WWW2012, en este caso con el Workshop CrowdSearch 2012: First International Workshop on Crowdsourcing Web Search
. Si ayer los temas iban más enfocados a la calidad de los contenidos, a combatir el web-spam y similares, hoy toca el día a los enlaces, a su calidad y, sobre todo, a su socialización dentro de la red de redes.

Para comenzar Loretta Anania, la que era responsable de buscadores de la Unión Europea comienza explicando la importancia sobre los buscadores y sobre la innovación que han llevado a cabo. También presenta un evento llamado Search Computing: The Search Computing Project que se llevará a cabo a finales de septiembre. Es un momento de grandes cambios, venimos aquí a tomar ideas.

La primera de las charlas (en este caso como invitado) será Using the Crowd to Solve Database Problems (por Donald Kossman). Va a hablar de un concepto como CrowdDB, que básicamente es la colaboración entre máquinas y humanos en relación a las bases de datos. Podéis decargar el paper CrowdDB: Answering Queries with Crowdsourcing.

El sistema de Google es el de tener más datos y para ello añadir más sistemas de proceso. Con esto tenemos búsquedas, traducción… En cambio, el sistema del resto del mundo es el de usar la inteligencia colectiva. El objetivo es conseguir lo mejor de ambos sistemas. Con esto conseguiremos un sistema más inteligente.

Comenta la idea de J. C. R. Licklider, que básicamente hablaba de lo que ha conseguido Google pero hace muchísimos años atrás.

¿Por qué ahora?, porque se puede usar de forma sistemática y porque existen herramientas que lo permiten, como por ejemplo Mechanical Turk u oDesk. Pero debemos tener en cuenta que no podemos usar a la gente como máquinas.

Pero hay ciertas cosas buenas y cosas malas… en general las cosas en las que las máquinas son buenas, la gente es mala, y en lo que las máquinas son malas la gente es buena. Por ejemplo a la gente hay que entrenarla, hay temas legales, la posibilidad de uso depende de horarios y otros factores…

Las dudas que se generan son cómo se desarrolla un sistema para lo colectivo y, sobre todo, cómo puede ayudar esto a resolver problemas de IT. El objetivo sería hablar SQL con las personas… las aplicaciones hace consultas SQL hacia unos sistemas… pero, ¿y si en vez de haber datos almacenados por debajo hay personas que responden? Los problemas para ello son que hoy en día queremos resolver problemas que antes no se querían resolver, y el SQL se queda “corto” para ello. Hoy en día hay un problema de resolución de entidades. Por mucho que le hagamos una petición por SQL con el nombre de “IBM”, si en la base de datos tenemos “International Business Machines”, la respuesta va a ser cero. Otro problema es que no haya datos en la base de datos para responder.

El primer paso para conseguir este tipo de cosas es el de cambiar ligeramente el SQL para hacerlo más comprensible, pero no mucho. Además, hay que decidir qué parte responderá el sistema y qué parte responderá la inteligencia colectiva. La gente puede encontrar datos de una forma rápida y correcta, incluyendo comparaciones sencillas (por ejemplo encontrar un perro en una serie de fotos). En cambio ordenar contenidos, relacionar contenidos de distintas tablas… en general, todo lo que las máquinas saben hacer bien.

El CrowdSQL podría ser algo parecido a esto:

Un elemento básico es el almacenamiento de la información resultante de la inteligencia colectiva, algo básico en Google, ya que no hacerlo tiene un coste excesivamente elevado. Al fin y al cabo, si los usuarios te dan la respuesta, cuando otro usuario la consulte, ya la tienes. Pero para esto hay que añadir pesos, ya que la cantidad de veces que la inteligencia colectiva da la misma respuesta a una misma pregunta esa respuesta tiene más peso que cualquier otra respuesta.

#WWW2012: WebQuality 2012, Abuse Detection and Prevention Session

Y para acabar el día, tras las presentaciones sobre Web Quality, y las de credibilidad y confianza, ahora le llega el turno a la detección y prevención de abusos (y spam).

La primera charla es Detecting Collective Attention Spam (de Kyumin Lee, James Caverlee, Krishna Kamath y Zhiyuan Cheng).

Aparecer en la página principal de Youtube, eventos como el Año Nuevo generan marketing viral y atención colectiva, consiguiendo ser “trend” (Google Trends o Twitter Trending Topic). En general los spammers van a por momentos de atención que se convierten en fenómenos.

Primero se consigue información de los temas con tendencia y se generan contenidos para twitter, afcebook, youtube, foursquare… eso genera atención por parte de los usuarios.

En general los spammers en Twitter, a diferencia de lo que se podría suponer en Social media, suelen tener 0 seguidores y siguen a 0 personas, con una media de 9 mensajes. En general, las cuentas de spam suelen tener un pico de mensajes, otro pico al cabo de un mes, y otro pico dos meses después (a los 3 meses). Es interesante un 75% de las cuentas spam son suspendidas por parte de twitter en menos de 24 horas (principalmente en las 6 primeras horas).

Los scammers suelen usar nombres de famosos para generar spam. Además, se suelen usar redirectores tipo BitLy, a los que añaden parámetros y que son utilizados a lo largo del tiempo cada vez más.

Un 75% de los mensajes de spam pueden detectarse en las primeras 2 horas según se lanzan los primeros ataques. Los falsos positivos rondan el 2 por mil.

Lo que se analiza es todos los conceptos que entran como Trending Topic como sistema de muestreo. En resumen se puede detectar los mensajes de spam al poco tiempo con una alta detección (cerca del 99% en 3 horas).

Las siguientes charla es Identifying Spam in the iOS App Store (de Rishi Chandy y Haijie Gu) en la que se analiza cómo detectar spam en las aplicaciones de la Apple Store.

Entre 2008 y 2012 se han añadido más de medio millón de aplicaciones a la App Store. Las grandes aplicaciones tienen un problema, ye s que no se sabe bien cómo gestionan los datos privados. Por ejemplo el caso Path.

Algunos spammers (desarrollaodres) pagan a usuarios para que hagan reseñas positivas en la App Store.

Por ahora lo que se analiza es el valor de las reseñas, la cantidad de las reseñas, cuántas reseñas tienen cada usuario y sus valores y cuántas reseñas tiene el desarrollador y sus valores.

La última presentación es kaPoW Plugins: Protecting Web Applications Using Reputation-based Proof-of-Work (de Akshay Dua, Wu-Chang Feng y Tien Le).

El spam funciona. En twitter, por ejemplo, funciona el doble mejor que en el caso del correo, si los comparamos. Uno de los sistemas que se usan para parar el spam son los captchas, pero cada vez tienen más problemas ya que son más sencillos de hackear. También existen los filtros antispam, pero tienen falsos positivos. Otro elemento es la opción de reporting del usuario (como por ejemplo hace Twitter) aunque puede llegar tarde.

Una opción para mejorar este sistema podría ser el imponer un coste por cada mensaje. Una opción podría ser la de jugar con puzzles. Esto reduciría la velocidad del spam. Por ejemplo a los usuarios nuevos se les pueden poner puzzles más complejos y a los que llevan tiempo cada vez más sencillos para mejorar la velocidad.

Esto se podría organizar con un sistema de plugins, por ejemplo para WordPress o phpBB. Los usuarios tendrían una puntuación que permite que la dificultad del puzzle sea mayor o menos.

En el correo sería algo más complejo de aplicar. Además, los puzzles tienen una limitación de tiempo. Lo primero que se ha de establecer es la dificultad del puzzle. La dificultad se basa en la reputación. Esto vendría de una mezcla de pesos entre puntuaciones locales y globales, por ejemplo, si la IP está en listas negras, si la cuenta es nueva o no…

Se puede ver más información sobre este sistema en kaPoW: Web-based Client Puzzles.

#WWW2012: WebQuality 2012, Online Credibility and Trust Session

Y tras las presentaciones sobre Web Quality, ahora tocan las de credibilidad y confianza.

La primera charla es Game-theoretic Models of Web Credibility (de Thanasis Papaioannou, Katarzyna Abramczuk, Paulina Adamska, Adam Wierzbicki y Karl Aberer).

Uno de los mayores problemas hoy en día es la creciente dificultad de detectar la credibilidad de los contenidos en Internet. Puede haber factores económicos que pueden incluir en la calidad o neutralidad, por ejemplo. Los primeros acercamientos hacen referencia a estudios empíricos, a mecanismos de repitación /pero hay que tener en cuenta la información histórica, que es muy relevante) y, lo que se nos propone, que es un juego entre los contenidos producidos y los consumidos.

A la hora de tener elementos en cuenta debemos distinguir entre el contenido producido por los generadores y por los consumidores. Además hay que distinguir la calidad y presentación del mismo y finalmente la experiencia de los usuarios, además del incentivo económica. En el caso de los lectores de los contenidos hay que tener en cuenta dos opciones, que acepten o que rechacen dicho contenido.

Los generadores de contenidos han de ir a buscar la honestidad hacia los buenos contenidos y decidir entre la inversión o no en la presentación de dichos contenidos.

Hay que tener también en cuenta los usuarios… hay una gran diferencia entre los usuarios ingenuos y los expertos. Los usuarios ingenuos necesitas una gran inversión en diseño y en la presentación de los contenidos, en cambio los usuarios expertos dejan un poco de lado esto, ya que se centran más en el contenido propiamente. Los usuarios ingenuos siempre rechazan una mala apariencia y aceptan una buena apariencia.

La siguiente presentación es An Information Theoretic Approach to Sentimental Polarity Classification (de Yuming Lin, Jingwei Zhang, Wang Xiaoling y Aoying Zhou).

En la red hay muchos temas, que provocan efectos sentimentales que pueden ser positivos o negativos. En base a esto podemos hacer una clasificación. Esta información la podemos extraer de elementos que marquen detalles positivos o negativos (me gusta, no me gusta). Para ello hay que sacar y analizar frases y no palabras sueltas. Una de las formas para establecer la tendencia es la cantidad de veces que aparecen dichos elementos en el documento.

Un ejemplo de DataSet para realizar un experimento lo podemos encontrar en Multi-Domain Sentiment Dataset.

La última charla es Content-Based Trust and Bias Classification via Biclustering (de David Siklosi, Balint Daroczy y Andras A. Benczur).

La idea es la de encontrar a las instituciones a seleccionar los contenidos fiables de la red de redes. Esto también ayuda a detección del spam y a clasificar la escalabilidad según el tamaño de la Web. En este caso se han seleccionado 3 categorías para diferenciar los contenidos: credibilidad, neutralidad y parcialidad.

El biclustering es un sistema de clustering bidireccional, que analiza sitios web y los términos que incluyen los mismos. Gracias a esto se pueden encontrar sitios similares con contenidos similares y analizarlos en la misma situación y calidad. Además, con este sistema también podemos extraer dominios relacionados con temáticas relacionadas, de forma que se puedan categorizar de forma sencilla.