WebPerf Barcelona: WordPress

En unos minutos comenzará el primer #WebPerf en España, organizado desde WebPerf.es por mi mismo y donde yo voy a ser el primer ponente (por las cosas del directo, ya sabéis).

Aunque las carreras de última hora son siempre previsibles, tengo un rato para comentar varias cosas sobre el evento que, como bien dice el título habla de WordPress, de cómo conseguir que el WordPress consiga un alto rendimiento. Os dejo con la presentación para descargar y dejo el canal en directo aunque es una prueba piloto, por lo que si hay algún problema, lo siento de ante mano, seguramente poco podré hacer, aunque intentaré que sea posible que se vea (y sobre todo, que se oiga)…

Reconozco que estoy un poco nervioso, no tanto por la charla (no es ni la primera ni la última, aunque como siempre la he preparado pero improvisaré algo) sino por el hecho de organizar un evento después de tantos años sin hacer nada. Prácticamente desde el congreso OJObuscador 2007 que no llevaba a la realidad algo como esto. Además, gente a la que aprecio mucho va a estar ahí, y, no puedo fallar 🙂

Hala, ¡mucha mierda!

Plugin para WordPress y Varnish

Acabo de parir… han sido 9 meses largos (en serio, he estado, ahora que lo pienso, 9 meses desarrollando cosas sobre este tema) pero han valido la pena porque hoy he subido al repositorio oficial mi primer plugin: WordPress Varnish as a Service.

Aunque en la página del repositorio no hay mucha información, he preparado una página interna sobre este mismo tema en el que hay algo más de información, como por ejemplo algunas funcionalidades, los idiomas a los que está traducido…

Hace unas semanas ya os comenté que estábamos preparando un servicio de Varnish para WordPress como Servicio que básicamente multiplica enormemente la velocidad de carga de las páginas (el WPO y el SEO, vamos). Y como contra prestación ha salido un bonito plugin.

Aunque ha habido varias versiones anteriores 8a lo mejor algún día las subo por tenerlas ahí almacenadas) la versión 1.0.1 funciona bien, es estable y hace lo que tiene que hacer. De todas formas en mi cabeza tengo bastante claro el roadmap hasta la versión 2.0. Además, seguramente lance otro plugin (complementario al del Varnish) para que WordPress funcione perfectamente sin problemas, ya que Varnish es un proxy y eso implica cosas…

Además, he tenido el gusto de poder presentárselo a la gente de Varnish Software y junto a ellos y otras personas lo iré evolucionando al máximo.

Si alguien tiene sugerencias, quiere probar el Varnish como Servicio o cualquier otra cosa, buscad en el menú que pone “contacto” y os aparecerá mi correo 😉

El PageRank ha muerto

No sé si sabes que desde hace unos años Google ya no ostenta en exclusiva la patente del PageRank; me explico. Cuando Larry Page, por aquellos 1997-1998 patentaba el PageRank, la fórmula que básicamente dice que el peso de los enlaces hace que una página tenga relevancia lo hizo no para él o para Google Inc. sino para la Universidad de Stanford.

Hace unos años la patente quedó fuera de los ámbitos de uso exclusivo por parte de Larry y su compañía, lo que supone que, aunque tienen derechos de uso, el objetivo a muy corto plazo es no usar dicha estrategia ya que hoy en día ya no es totalmente suya.

Ahora en 2012 todos los buscadores utilizan el concepto de que un sitio con enlaces cobra relevancia pero no como hasta ahora lo teníamos entendido, lo que significa que algo está cambiando. Es decir, tanto Bing, como Baidu o Yandex utilizan el concepto del PageRank (adaptado a su manera) pero no con las bases propias del PageRank.

Estos días que he estado en el www2012, en el que estaba Bing, Google, Baidu, Yandex, Yahoo! y seguramente otros tantos que ni fui capaz de cruzarme, ninguno de ellos hacía referencia a ese tema de dar relevancia a los buscadores en base a los enlaces, sino que todos comentaban que su trabajo estos últimos años ha sido y sigue siendo el de dar relevancia en base a la calidad. El problema es definir qué se entiende por calidad en Internet (algo en lo que Ricardo Baeza hizo mención en varias ocasiones su charla). En general la calidad va definida por cosas muy elementales como simplemente escribir bien, tener los menores errores ortográficos, semánticos y gramaticales. Por otro lado cada vez más y más se habla de la personalización, ese elemento que hace que el SEO dependa de los usuarios y no de las máquinas.

El SEO en general es algo que los buscadores tienen presente y se premia si se hace todo correctamente. El SEO “de la antigua escuela” ya no tiene por dónde evolucionar más que no sea “hacer las cosas bien”. Si sigues las normas, generas contenidos, aportas valor a tus usuarios y, de rebote, generas un buzz suficiente en la red no necesitas más. El problema (y la solución), una vez más, es hacer las cosas bien.

En muchos proyectos en los que estoy trabajando no se aprecian los detalles, esas excepciones que los programadores intentamos tratar en el día a día de un producto (que si un if por aquí que si un if por allá). Hace poco he tenido la posibilidad de comparar un desarrollo que hice hace algunos años del que estoy más que orgulloso (en el sentido de que creé un producto que lo que hacía lo hacía bien y que desde el punto de vista SEO era genial) con el mismo producto desarrollado por otra gente que hace lo mismo pero se ha hundido en la miseria a la hora de compararlo desde el punto de vista SEO; los contenidos son los mismos, se supone que tienen ahora mejores enlaces y de más calidad que antes, pero pequeños fallos de desarrollo han impedido que eso en vez de ir para arriba vaya para abajo. Y como digo con “pequeños”, pero con gran impacto. Esa es la diferencia de “hacer las cosas bien”.

Es posible que muchos penséis que una vez más se me ha ido la cabeza (algo que, por otra parte, me la resbala bastante), o que el título del artículo es amarillista o lo que queráis, pero soy viejo, llevo muchos años trabajando por y para la red de redes y las veo venir de lejos. Otros de los pre-2000 también opinan como yo. Internet está en su plena adolescencia como red mundial, estamos en un punto de efervescencia en cuanto a proyectos, desarrollo y estándares. Hacía 10 años que no teníamos una nueva versión de HTML, que viene con muchísimos añadidos alrededor como los microdatos, los canvas, navegadores que intentan ir por delante del ritmo oficial…

Al final, como ya decía en la Guía SEO y como debería poner en la Guía WPO todo es Sentido Común, es adaptarse a las necesidades de cada proyecto, de cada cliente, tener una base bien preparada y sobre todo hacer las cosas con dos dedos de frente. La “crisis” ha hecho que mucha gente haya venido a Internet y haya entrado como un elefante en una cacharrería, haciendo mucho ruido, pero pocas nueces… Así que simplemente paciencia, todo llegará y volverá a sus cauces. Eso sí, no esperéis que los buscadores vuelvan a la tecnología de hace 10 años, porque eso es agua pasada.

#WWW2012: Resumen de estos días

Se acaba mi viaje a Lyon (aunque aún me quedan unas cuantas horas por aquí hasta la vuelta a Barcelona) y me gustaría hacer un pequeño resumen de lo que me ha parecido esta edición (la única en la que he estado) del WWW2012.

El planteamiento de venir al www2012 fue básicamente por los workshops. Había asistido a otras ediciones de los que he estado (con otros nombres y otras cosas, pero básicamente años atrás) y quería seguir en la línea. Además, los que he estado (que consideraba que serían los que más me iban a aportar de todos los que había, que no eran pocos) los organizaban gente que conozco y en la que confío, así que poco podía fallar. Y así ha sido, me han servido para, una vez más, abrir mi mente “versión SEO” y poder ver ligeramente hacia dónde van los buscadores los próximos años. Sí, cuando la gente me pregunta que qué va a pasar dentro de 2-4 años en el mundillo de los buscadores en general no me equivoco porque, en eventos como estos aprender en lo que se está trabajando y se trabajará los próximos años.

Eso sí, una vez más, en algunas ocasiones me veo como el tonto de la clase. A estas charlas en general asisten los ponentes y otros cuantos “freaks” más de la temática… yo ni soy freak ni soy ponente, sino un simple espectador que no cuadra para nada en ello. Y digo esto porque los ponentes suelen ser estudiantes universitarios que exponen de forma más o menos científica trabajos interesantes. Por poner un ejemplo, en 2008-2009 asistí a un par de eventos en los que se hablaba de los microformatos cuando nadie los usaba ni sabía nada de ellos… ahora a todo el mundo se le hace la boca grande hablando de ello…

Quizá la parte negativa es el precio. No es barato asistir al www2012, aunque quizá eso le de cierto nivel, ya que la organización es simplemente gigantesca. Hay gente de todos los países, colores y gustos. A la hora de la comida debíamos de estar más de 2.000 personas tranquilamente. Simplemente espectacular. Eso sí, españoles no he visto ninguno.

Para acabar con respecto al evento propiamente dicho, me voy con una decena de ideas que no sé si podré aplicar por falta de tiempo. Esta es quizá la peor parte ya que si uno viene aquí y aprende cosas es para aplicarlas. Supongo que lo podré hacer en el momento en el que me encuentre frente a la situación, pero no podré probarlo con tiempo antes. También me voy con algunas conversaciones y ojeadas a los asistentes… hoy he podido mantener una conversación con una persona que trabaja en uno de los grandes buscadores que me ha confirmado (con silencios) mis teorías SEO. Sé que mi forma de trabajar el SEO es la correcta desde hace años, trabajando a medio-largo plazo, eso sí, y cada vez se confirma más y más. Por otro lado los gigantes de las búsquedas me dan cada vez más miedo: Microsoft Research, Google Research, Baidu y Yandex estaban por todos lados… y eso dice mucho. Sobre todo he tenido la oportunidad de darme cuenta hacia dónde va Yandex, porque han asistido la mayoría del grupo a las mismas charlas que yo, así que creo que no voy por mal camino…

Fuera del evento, me he dado cuenta de que mi inglés sigue flojo en algunos casos… para empezar hablándolo… aunque creo que casi ya hablo mejor inglés que catalán, lo que no sé si dice mucho o poco de mi (más bien lo segundo). Por otro lado he aprendido que el inglés-francés y el inglés-japonés son mucho más difícil que el inglés-afroamericano. Lo siento, pero soy incapaz de entender el francés, no consigo pillar ni una (y que nadie me diga que se parece al catalán, porque no es un tema de escritura, sino de pronunciación así con boquita de piñón que no se les entiende nada (si hay algún francés en la sala que no se lo tome a mal, es que simplemente no me empano de nada).

Y para acabar Lyon… aysh, Lyon… si no fuera por el francés (es coña…). Es un sitio que está bien… pero que en días grises no mola nada… hay mucho verde, pero las nubes lo ponen todo muy feo, y lo del viendo cerca del río es que no tiene nombre… ayer paseaba al lado de la Interpol (¡sí, señores, existe!). Hoy por suerte está haciendo un muy decente, con solecito y un poco de fresco y la verdad es que esto luce mucho mejor, y muy distinto. Además, estar cerca del Parc de la Tête d’Or, el mayor parque (dentro de una ciudad de Francia), es algo que también se agradece.

En fin, como resumen, me vuelvo con un buen sabor de boca, con la experiencia de uno de los eventos de Internet más importantes del mundo y con otro punto en el mapa en el que ya puedo situar una marca de visitado.

#WWW2012: CrowdSearch 2012, crowdsourcing for multimedia applications

Último bloque de presentaciones del día, en este caso va a ir relacionado con la inteligencia colectiva en contenidos y temas multimedia.

Para comenzar tenemos PodCastle and Songle: Crowdsourcing-Based Web Services for Retrieval and Browsing of Speech and Music Content de Masataka Goto, Jun Ogata, Kazuyoshi Yoshii, Hiromasa Fujihara, Matthias Mauch y Tomoyasu Nakano).

Existen los sitios PodCastle (para voz hablada) y Songle (para música) que se usan para el reconocimiento multimedia. El primero, por ejemplo, permite la lectura de un contenido e interpretar sus textos. Los usuarios pueden ayudar y colaborar corrigiendo las palabras que sean erróneas, eligiendo, por ejemplo, entre distintas palabras o simplemente corrigiéndolas. Entre las cosas interesantes son las interfaces que este sistema ofrece con formas alternativas. Además, tras corregir, el sistema aprende por lo que se mejora el performance del sistema.

Una de las razones por las que los usuarios entran en este sitio es por la interfaz que se propone y por el altruismo de los usuarios. Otra razón es que en algunos casos aparecen personajes famosos y los usuarios no pueden tolerar que haya errores en sus traslaciones a texto.

A diferencia de los cambios en la Wikipedia, un cambio es sólo para un contenido; en este caso un cambio implica una mejora en toda el sistema que mejora los trabajos futuros.

La otra herramienta, Songle, permite el análisis musical con un sistema visual de pistas, tempos, etc… Con este sistema se pueden detectar coros, melodía, tempos… gracias a esto es fácil encontrar partes de una canción por similitud.

La siguiente presentación es A Framework for Crowdsourced Multimedia Processing and Querying (de Alessandro Bozzon, Ilio Catallo, Eleonora Ciceri, Piero Fraternali, Davide Martinenghi y Marco Tagliasacchi)

En general las máquinas no tienen la capacidad para entender el material multimedia, lo que provocan baja fiabilidad, principalmente en vídeo. Un sistema que se ha probado es por ejemplo el de la detección de logos (marcas registradas) dentro de un vídeo, por ejemplo para detectar problemas de patentes o de usos indebidos.

Una de las cosas que se ha trabajado a nivel de inteligencia colectiva es la selección de logos dentro de una imagen, y por otra parte la separación de posibles versiones de logos.

Continuamos con An Evaluation of Search Strategies for User-Generated Video Content (de Christopher G. Harris)

Hacer búsquedas en vídeos generados y subidos por los usuarios es complejo. Por ejemplo, los tags no están penadas para la búsqueda, sólo hay 13 categorías, los comentarios son encontrables pero tienen pocas visualizaciones (0,16%, 1 de cada 600 deja un comentario) y en general no son útiles… en resumen: hay mucho ruido.

Una de las cosas que se estudian es la posibilidad de realizar una consulta y que estudiantes, usuarios en general o los resultados directos de Youtube ofrecen. Una vez esto, hay que plantearse si analizar o no los resultados también mediante inteligencia colectiva para corregir los vídeos propuestos.

Para acabar tenemos Discovering User Perceptions of Semantic Similarity in Near-duplicate Multimedia Files (de Raynor Vliegendhart, Martha Larson y Johan Pouwelse)

¿Son estas dos canciones la misma? ¿O estos dos vídeos? Dos vídeos son similares si generan el mismo propósito para un usuario. Una forma de analizarlo pdoría se poniendo a prueba a los usuarios haciendo que elijan, o si creen que varios vídeos de capítulos de series descargables por Torrent son los mismos o no en base a sus nombres.

#WWW2012: CrowdSearch 2012, methods and tools for crowdsearching

Seguimos con las charlas de inteligencia colectiva (más concretamente con su uso en temas relacionados con las búsquedas).

Retomamos las charlas con Crowd Sourcing Literature Review in SUNFLOWER (de Sihem Amer-Yahia). La idea es generar contenidos de forma automática en base a resumir otros contenidos junto a la inteligencia colectiva.

La primera parte lo que intenta es encontrar contenidos y buscar contenidos relacionados, generando distintos grupos y palabras clave. La segunda parte es la de generar un resumen de los contenidos (procesar, clasificar, reescribir…). La última parte es la que afecta a las personas. La idea es que en esta parte los usuarios acaben verificando y reescribiendo la documentación.

Para sacar los documentos se buscan contenidos similares y se basa también en los autores. Gracias a distintas herramientas ya existentes (como MEAD) se pueden extraer los principales conceptos y generar un resumen. La parte más relacionada con los usuarios tiene mucho trabajo por delante, ya que se pueden ajustar mucho los puntos para conseguir mejores contenidos finales. Como ejemplo de este sistema podríamos poner una base de la Wikipedia (podemos ver datos analíticos).

Para sacar los datos primero hay que encontrar documentos bien tratados, con temas y sub-temas. Además, han de estar bien relacionados, ya sea mediante palabras clave, información de autoría, sistemas de citas u otra metainformación.

Seguimos con la siguiente charla Human Computation Must Be Reproducible (de Praveen Paritosh).

La idea de lo que se ha comentado hasta ahora es sacar si los datos que se extraen de forma colaborativa son fiables. Freebase es una especie de Wikipedia pero pensada para máquinas con 23 millones de entidades y 500 millones de relaciones. En general el mayor problema de detección es el de las entidades. Por ejemplo, hay 8 ciudades llamadas San Francisco y hay que discernir de cuál de ellas se trata.

Hoy en día ¿para qué se usan las “computadores humanas”? Para etiquetar imágenes, para determinar relevancia en buscadores, moderar contenidos ofensivos… Estas personas pueden ser gente pagada (por ejemplo Mechanical Turks) o voluntarios, gente a través de oDesk o incluso empleados de la propia compañía (lo ideal es que sea una mezcla de todos ellos).

Los problemas del Crowd son, por definición, los spammers.

Además encontramos problemas en cuanto a las especificaciones de las tareas, a las guías de estilo de cómo han de responder. Aunque el problema mayor es la fiabilidad de la inteligencia colectiva, que requiere respuestas fiables y una serie de bases representativa.

A continuación tenemos Mechanical Cheat: Spamming Schemes and Adversarial Techniques on Crowdsourcing Platforms (de Djellel Eddine Difallah, Gianluca Demartini y Philippe Cudré-Mauroux).

¿Cómo se puede saber si una respuesta generada por los usuarios es spam? Por ejemplo que se haya contestado de forma aleatoria, que se haya generado de forma artificial o que sea duplicada de otra fuente. Para verificar esto es necesario el uso de algoritmos de selección y filtrado. En general las herramientas colaborativas tienen un bajo sistema de control del spam.

Para acabar, A Model-Driven Approach for Crowdsourcing Search (de Alessandro Bozzon, Marco Brambilla y Andrea Mauri).

La idea es cómo sacar información de la gente cuando se realizan búsquedas. En general se hace una búsqueda y se va refinando hasta conseguir la respuesta. pero en algunos casos puede que la respuesta nos e ala óptima. Para esto se puede usar un sistema añadido que se basa en datos anónimos de otros usuarios.

La idea es que, tras extraer datos de distintas API, se permita enviar la consulta a tus amigos de diferentes plataformas sociales (tipo facebook) y demás que, en un tiempo limitado, decidan las respuestas para mejorar la consulta.

#WWW2012: CrowdSearch 2012, crowdsearching on textual and linked data

Seguimos con las presentaciones… ahora empiezan las charlas más formativas y técnicas. Comienza la charla Social-Textual Search and Ranking (de Ali Khodaei y Cyrus Shahabi).

En los últimos años las redes sociales se han disparado, y tenemos una serie de relaciones como los intereses similares que podemos conseguir gracias a nuestros amigos o a grupos. Todo esto básicamente conseguido gracias a la llamada Web 2.0.

Una pregunta importante a hacernos es “qué es la relevancia social”. Cómo podemos relacionarla con la relevancia textual (la que usan los buscadores). Esto también va unido a la relación entre pares de documentos.

Para todo esto debemos presentar el concepto “Social-textual Query”, o sea una consulta textual que implícitamente lleve una parte social. Esta lleva una parte de relevancia textual y una parte de relevancia social (además de las acciones sociales que se pueden realizar).

Hay 3 grandes factores:

  1. La relevancia de cada usuario según la búsqueda, es decir, si la temática que tiene este usuario sobre unos temas particulares son relevantes o no lo son.
  2. La relevancia del usuario en el grupo, en la propia red social, que se podría medir por los seguidores, los que sigues, su importancia…
  3. Por último tenemos las acciones del usuario; por ejemplo tener un vídeo en Youtube es más relevante que comentar un vídeo.

El cálculo de los valores y pesos es dinámico, es decir, variará según vaya pasando el tiempo con bastante frecuencia ya que las redes sociales evolucionan.

Los análisis “en laboratorio” dicen que si combinamos los resultados textuales con los sociales los primeros resultados de búsqueda mejorarían ligeramente pero que el resto de resultados mejoraría bastante más, lo que en general daría una calidad mayor a los resultados de búsqueda, eso sí, en determinados tipos de búsqueda y dependiendo de tu red social.

La siguiente charla es A semantically enabled architecture for crowdsourced Linked Data management (de Elena Simperl, Maribel Acosta y Barry Norton).

El Linked Data básicamente son nodos relacionados la mayoría por RDFa y su sistema de consulta es SPARQL. En general los usuarios no saben buscar de forma concreta, por lo que las consultas de búsqueda, aunque se quieran interpretar son difíciles de calcular. Para ello primero hay que corregir internamente las consultas.

La idea es la de crear un escenario híbrido en el que se tenga en cuenta las consultas y datos establecidos (con SPARQL) junto a elementos de inteligencia colectiva.

Otro de los objetivos es el análisis de la relación entre DataSets, de forma que se podría mejorar la cantidad y calidad de los contenidos de forma automática.

La última presentación es Exploiting Twitter as a Social Channel for Human Computation (de Ernesto Diaz-Aviles y Ricardo Kawase).

En general se pueden usar herramientas como Mechanical Turk para encontrar computación humana, pero ¿por qué no utilizar algo del estilo Twitter? Twitter tiene más de 300 millones de usuarios y 200 millones de tweets diarios.

Para ello lo primero que habría que crear es una especie de framework para poder trabajar con los usuarios de la plataforma.

El sistema de preguntas y respuesta se haría mediante tweets, enviando la pregunta, un identificador y las respuestas, teniendo el usuario que contestar con el identificador y la respuesta seleccionada.

#WWW2012: CrowdSearch 2012, bienvenida

Y comienza un nuevo día en Lyon en el evento WWW2012, en este caso con el Workshop CrowdSearch 2012: First International Workshop on Crowdsourcing Web Search
. Si ayer los temas iban más enfocados a la calidad de los contenidos, a combatir el web-spam y similares, hoy toca el día a los enlaces, a su calidad y, sobre todo, a su socialización dentro de la red de redes.

Para comenzar Loretta Anania, la que era responsable de buscadores de la Unión Europea comienza explicando la importancia sobre los buscadores y sobre la innovación que han llevado a cabo. También presenta un evento llamado Search Computing: The Search Computing Project que se llevará a cabo a finales de septiembre. Es un momento de grandes cambios, venimos aquí a tomar ideas.

La primera de las charlas (en este caso como invitado) será Using the Crowd to Solve Database Problems (por Donald Kossman). Va a hablar de un concepto como CrowdDB, que básicamente es la colaboración entre máquinas y humanos en relación a las bases de datos. Podéis decargar el paper CrowdDB: Answering Queries with Crowdsourcing.

El sistema de Google es el de tener más datos y para ello añadir más sistemas de proceso. Con esto tenemos búsquedas, traducción… En cambio, el sistema del resto del mundo es el de usar la inteligencia colectiva. El objetivo es conseguir lo mejor de ambos sistemas. Con esto conseguiremos un sistema más inteligente.

Comenta la idea de J. C. R. Licklider, que básicamente hablaba de lo que ha conseguido Google pero hace muchísimos años atrás.

¿Por qué ahora?, porque se puede usar de forma sistemática y porque existen herramientas que lo permiten, como por ejemplo Mechanical Turk u oDesk. Pero debemos tener en cuenta que no podemos usar a la gente como máquinas.

Pero hay ciertas cosas buenas y cosas malas… en general las cosas en las que las máquinas son buenas, la gente es mala, y en lo que las máquinas son malas la gente es buena. Por ejemplo a la gente hay que entrenarla, hay temas legales, la posibilidad de uso depende de horarios y otros factores…

Las dudas que se generan son cómo se desarrolla un sistema para lo colectivo y, sobre todo, cómo puede ayudar esto a resolver problemas de IT. El objetivo sería hablar SQL con las personas… las aplicaciones hace consultas SQL hacia unos sistemas… pero, ¿y si en vez de haber datos almacenados por debajo hay personas que responden? Los problemas para ello son que hoy en día queremos resolver problemas que antes no se querían resolver, y el SQL se queda “corto” para ello. Hoy en día hay un problema de resolución de entidades. Por mucho que le hagamos una petición por SQL con el nombre de “IBM”, si en la base de datos tenemos “International Business Machines”, la respuesta va a ser cero. Otro problema es que no haya datos en la base de datos para responder.

El primer paso para conseguir este tipo de cosas es el de cambiar ligeramente el SQL para hacerlo más comprensible, pero no mucho. Además, hay que decidir qué parte responderá el sistema y qué parte responderá la inteligencia colectiva. La gente puede encontrar datos de una forma rápida y correcta, incluyendo comparaciones sencillas (por ejemplo encontrar un perro en una serie de fotos). En cambio ordenar contenidos, relacionar contenidos de distintas tablas… en general, todo lo que las máquinas saben hacer bien.

El CrowdSQL podría ser algo parecido a esto:

Un elemento básico es el almacenamiento de la información resultante de la inteligencia colectiva, algo básico en Google, ya que no hacerlo tiene un coste excesivamente elevado. Al fin y al cabo, si los usuarios te dan la respuesta, cuando otro usuario la consulte, ya la tienes. Pero para esto hay que añadir pesos, ya que la cantidad de veces que la inteligencia colectiva da la misma respuesta a una misma pregunta esa respuesta tiene más peso que cualquier otra respuesta.

#WWW2012: WebQuality 2012, Abuse Detection and Prevention Session

Y para acabar el día, tras las presentaciones sobre Web Quality, y las de credibilidad y confianza, ahora le llega el turno a la detección y prevención de abusos (y spam).

La primera charla es Detecting Collective Attention Spam (de Kyumin Lee, James Caverlee, Krishna Kamath y Zhiyuan Cheng).

Aparecer en la página principal de Youtube, eventos como el Año Nuevo generan marketing viral y atención colectiva, consiguiendo ser “trend” (Google Trends o Twitter Trending Topic). En general los spammers van a por momentos de atención que se convierten en fenómenos.

Primero se consigue información de los temas con tendencia y se generan contenidos para twitter, afcebook, youtube, foursquare… eso genera atención por parte de los usuarios.

En general los spammers en Twitter, a diferencia de lo que se podría suponer en Social media, suelen tener 0 seguidores y siguen a 0 personas, con una media de 9 mensajes. En general, las cuentas de spam suelen tener un pico de mensajes, otro pico al cabo de un mes, y otro pico dos meses después (a los 3 meses). Es interesante un 75% de las cuentas spam son suspendidas por parte de twitter en menos de 24 horas (principalmente en las 6 primeras horas).

Los scammers suelen usar nombres de famosos para generar spam. Además, se suelen usar redirectores tipo BitLy, a los que añaden parámetros y que son utilizados a lo largo del tiempo cada vez más.

Un 75% de los mensajes de spam pueden detectarse en las primeras 2 horas según se lanzan los primeros ataques. Los falsos positivos rondan el 2 por mil.

Lo que se analiza es todos los conceptos que entran como Trending Topic como sistema de muestreo. En resumen se puede detectar los mensajes de spam al poco tiempo con una alta detección (cerca del 99% en 3 horas).

Las siguientes charla es Identifying Spam in the iOS App Store (de Rishi Chandy y Haijie Gu) en la que se analiza cómo detectar spam en las aplicaciones de la Apple Store.

Entre 2008 y 2012 se han añadido más de medio millón de aplicaciones a la App Store. Las grandes aplicaciones tienen un problema, ye s que no se sabe bien cómo gestionan los datos privados. Por ejemplo el caso Path.

Algunos spammers (desarrollaodres) pagan a usuarios para que hagan reseñas positivas en la App Store.

Por ahora lo que se analiza es el valor de las reseñas, la cantidad de las reseñas, cuántas reseñas tienen cada usuario y sus valores y cuántas reseñas tiene el desarrollador y sus valores.

La última presentación es kaPoW Plugins: Protecting Web Applications Using Reputation-based Proof-of-Work (de Akshay Dua, Wu-Chang Feng y Tien Le).

El spam funciona. En twitter, por ejemplo, funciona el doble mejor que en el caso del correo, si los comparamos. Uno de los sistemas que se usan para parar el spam son los captchas, pero cada vez tienen más problemas ya que son más sencillos de hackear. También existen los filtros antispam, pero tienen falsos positivos. Otro elemento es la opción de reporting del usuario (como por ejemplo hace Twitter) aunque puede llegar tarde.

Una opción para mejorar este sistema podría ser el imponer un coste por cada mensaje. Una opción podría ser la de jugar con puzzles. Esto reduciría la velocidad del spam. Por ejemplo a los usuarios nuevos se les pueden poner puzzles más complejos y a los que llevan tiempo cada vez más sencillos para mejorar la velocidad.

Esto se podría organizar con un sistema de plugins, por ejemplo para WordPress o phpBB. Los usuarios tendrían una puntuación que permite que la dificultad del puzzle sea mayor o menos.

En el correo sería algo más complejo de aplicar. Además, los puzzles tienen una limitación de tiempo. Lo primero que se ha de establecer es la dificultad del puzzle. La dificultad se basa en la reputación. Esto vendría de una mezcla de pesos entre puntuaciones locales y globales, por ejemplo, si la IP está en listas negras, si la cuenta es nueva o no…

Se puede ver más información sobre este sistema en kaPoW: Web-based Client Puzzles.

#WWW2012: WebQuality 2012, Online Credibility and Trust Session

Y tras las presentaciones sobre Web Quality, ahora tocan las de credibilidad y confianza.

La primera charla es Game-theoretic Models of Web Credibility (de Thanasis Papaioannou, Katarzyna Abramczuk, Paulina Adamska, Adam Wierzbicki y Karl Aberer).

Uno de los mayores problemas hoy en día es la creciente dificultad de detectar la credibilidad de los contenidos en Internet. Puede haber factores económicos que pueden incluir en la calidad o neutralidad, por ejemplo. Los primeros acercamientos hacen referencia a estudios empíricos, a mecanismos de repitación /pero hay que tener en cuenta la información histórica, que es muy relevante) y, lo que se nos propone, que es un juego entre los contenidos producidos y los consumidos.

A la hora de tener elementos en cuenta debemos distinguir entre el contenido producido por los generadores y por los consumidores. Además hay que distinguir la calidad y presentación del mismo y finalmente la experiencia de los usuarios, además del incentivo económica. En el caso de los lectores de los contenidos hay que tener en cuenta dos opciones, que acepten o que rechacen dicho contenido.

Los generadores de contenidos han de ir a buscar la honestidad hacia los buenos contenidos y decidir entre la inversión o no en la presentación de dichos contenidos.

Hay que tener también en cuenta los usuarios… hay una gran diferencia entre los usuarios ingenuos y los expertos. Los usuarios ingenuos necesitas una gran inversión en diseño y en la presentación de los contenidos, en cambio los usuarios expertos dejan un poco de lado esto, ya que se centran más en el contenido propiamente. Los usuarios ingenuos siempre rechazan una mala apariencia y aceptan una buena apariencia.

La siguiente presentación es An Information Theoretic Approach to Sentimental Polarity Classification (de Yuming Lin, Jingwei Zhang, Wang Xiaoling y Aoying Zhou).

En la red hay muchos temas, que provocan efectos sentimentales que pueden ser positivos o negativos. En base a esto podemos hacer una clasificación. Esta información la podemos extraer de elementos que marquen detalles positivos o negativos (me gusta, no me gusta). Para ello hay que sacar y analizar frases y no palabras sueltas. Una de las formas para establecer la tendencia es la cantidad de veces que aparecen dichos elementos en el documento.

Un ejemplo de DataSet para realizar un experimento lo podemos encontrar en Multi-Domain Sentiment Dataset.

La última charla es Content-Based Trust and Bias Classification via Biclustering (de David Siklosi, Balint Daroczy y Andras A. Benczur).

La idea es la de encontrar a las instituciones a seleccionar los contenidos fiables de la red de redes. Esto también ayuda a detección del spam y a clasificar la escalabilidad según el tamaño de la Web. En este caso se han seleccionado 3 categorías para diferenciar los contenidos: credibilidad, neutralidad y parcialidad.

El biclustering es un sistema de clustering bidireccional, que analiza sitios web y los términos que incluyen los mismos. Gracias a esto se pueden encontrar sitios similares con contenidos similares y analizarlos en la misma situación y calidad. Además, con este sistema también podemos extraer dominios relacionados con temáticas relacionadas, de forma que se puedan categorizar de forma sencilla.

#WWW2012: WebQuality 2012, Web Quality Session

Y como lo prometido es deuda, comienzo con las charlas de hoy, concretamente las del WebQuality 2012.

Comenzamos con un cambio en el programa, así que toca A Breakdown of Quality Flaws in Wikipedia (Maik Anderka y Benno Stein). La idea es investigar la calidad de la Wikipedia, ya que es muy grande: tiene cerca de 90 millones de páginas, 22 millones de artículos y es la sexta web más visitada del mundo.

Para la calidad hay algunos elementos como que cualquiera puede editarla, los autores son muy distintos y las ediciones nos e revisan antes de la publicación. Esto implica que las mejoras sean de baja calidad y que sea difícil mantener la alta calidad.

Sólo un 0,1% de los artículos de la Wikipedia en inglés son destacados… ¿qué ocurre con el otro 99,99%? Cualquiera puede marcar artículos como incompletos o completos. La idea es intentar hacer un sistema que revise las diferentes plantillas y genere un sistema de organización automático.

La reorganización se hace en base a dos tipos de limpieza: la primera es la de la reorganización por tipo, de las cuales el sistema principal es la verificabilidad.

La segunda revisión hace referencia al alcance de los contenidos, en concreto, a los defectos que tienen. En general los problemas (la mayoría) se encuentra en los artículos enciclopédicos (vamos, las páginas de consulta) aunque se pueden encontrar también muchos errores en los ficheros o incluso en las propias plantillas que se usan para los artículos.

¿Qué tipo de artículos son los que más defectos tendrían? La mitad de los artículos sobre informática contienen defectos, seguidos de los referentes a las creencias. Una cuarta parte de los que hacen referencia a cronología, matemáticas y un 20% de geografía contienen algún tipo de defecto.

¿Cuáles son los tipos de defectos más habituales? Un 20% hacen referencia a la verifiabilidad.

Si se organiza de forma correcta y nos basamos en artículos ya verificados, se podría llegar a detectar un 40% de artículos que tienen algún tipo de defecto hasta corregirlos. Se está organizando una competición para detectar la previsión de errores en la Wikipedia.

Se ha llevado a cabo un trabajo sobre la corrección. Un 25% de los artículos se han corregido, de los cuales un 70% tienen problemas de verificabilidad.

La siguiente presentación es On Measuring the Lexical Quality of the Web (por Ricardo Baeza-Yates y Luz Rello).

Medir la calidad de una página web es el mayor problema de los motores de búsqueda hoy en día, o sea, cómo rankear las páginas. Todo depende de la calidad semántica intrínseca. Para comenzar se analiza la cantidad de palabras que se usan en “el mundo real” y luego su relación con su uso en la red de redes, aunque después se han propuesto también la integración de errores tipográficos y semánticos.

Para medir la calidad del léxico debe ser independiente del tamaño del texto o de las páginas de un sitio y compararlo con cualquier otro tipo de documento y/o tamaño.

La calidad léxica depende de la relación de las palabras con faltas de ortografía y la palabra escrita correctamente. De esta forma se saca un ratio general de cómo escribe la gente. Hay varias condiciones: frecuencia, el ratio más alto de faltas de ortografía y la desambiguación (nombres, acrónimos, palabras en otros idiomas…)

Algunas de las palabras con más errores de ortografía son las siguientes:

Es curioso porque los ratios no se pueden comparar entre idiomas, ya que las curvas entre cantidades de palabras pueden variar significativamente.

La calidad del idioma inglés según Google en marzo de 2011 es de 0,047, en el caso de Yahoo! es de 0,099. Usando una colección web de 28.000 documentos se puede alcanzar una cifra de 0,037. Además, si comparamos Google y Bing con el paso del tiempo (2011 vs. 2012) podemos comprobar que la calidad léxica va empeorando (en los análisis aparece que Bing tiene el doble de peor calidad léxica que Google). Como detalle, los contenidos de la CNN son bastante malos, principalmente por los comentarios (un 50% de baja calidad léxica). En el caso de dominios .EDU o .AC.UK pasa todo lo contrario. Incluso, la Wikipedia o la ODP tienen un ratio de mejor calidad que los sitios académicos.

En el caso del español la calidad es bastante mejor que la inglesa. Aunque en el caso de las redes sociales la calidad está por debajo de la media. Un sitio que tiene una gran calidad léxica es Flickr, aunque tiene poco contenido textual.

Cuanto más acceso a Internet existe, más posibilidades de baja calidad, ya que el acceso a la red llega a todo tipo de niveles culturales y eso empeora la calidad. España está en una calidad media en estos momentos, al igual que Estados Unidos. Es decir, el nivel cultural y la cantidad de conexiones a Internet influyen en la calidad de los contenidos.

La relación, en general, de la calidad de los contenidos y los contenidos de un mismo sitio web es alta. También es básico analizar la calidad léxica de la red cada poco tiempo ya que es bastante cambiante.

La siguiente charla es Measuring the Quality of Web Content using Factual Information (de Elisabeth Lex, Michael Voelske, Marcelo Errecalde, Edgardo Ferretti, Leticia Cagnina, Christopher Horn, Benno Stein y Michael Granitzerg).

Hay que intentar tener presentes algunos puntos: sacar estadísticas simples de hechos de un texto, sacar información relacional de los hechos y buscar relaciones semánticas. Una primera aproximación es mirar las funcionalidades estadísticas del documento, cuñan informativo y qué cantidad de datos abiertos dispone.

Un detalle es que los documentos largos suelen contener mayor cantidad de hechos, y que hay que comparar documentos de una misma longitud y de distintas longitudes para extraer información, algo que en principio no es muy importante. En el caso de sacar cantidad de hechos en documentos de una misma cantidad de palabras sí que influye, ya que la aproximación es más exacta.

La última presentación es A Deformation Analysis Method for Artificial Maps Based on Geographical Accuracy and Its Applications (de Dasiuke Kitayama y Kazutoshi Sumiya). En este caso se analiza la información y fiabilidad de los mapas.

En general los mapas tienen muchas deformaciones (ejemplo claro es el de los mapas del metro) tanto en distancias como en formas, ya que no cuadran geográficamente casi ningún dato. El objetivo de este trabajo es el de extraer la información de un mapa “falso” (poco preciso) relacionarlo con un mapa real (por ejemplo un Google Maps) e intentar trasladar las coordenadas para sacar una idea correcta y precisa.

Para ello se pueden sacar informaciones por OCR (como nombres de estaciones o lugares), de ahí se sacan los datos geográficos, se busca el lugar más preciso para situarlos y finalmente se buscan lugares situados incorrectamente.

Una vez se han situado los puntos, se saca una triangulación para ver el desvío de los mapas. Para analizar el sistema, se ha hecho un proceso automático y luego uno manual que analiza (por personas) si la información situada en los mapas es correcta. Uno de los problemas mayores es la lectura de los lugares del mapa, del que sólo se pueden sacar un 61% de los datos).

En cuanto a la traslación de los lugares a puntos correctos del mapa, la información tiene una precisión del 62%, eso sí, cuando la traslación de datos es correcta, los mapas quedan con muy buenos resultados.

En un futuro, uno de los trabajos a realizar es interpretar líneas tratadas como carreteras o ríos para aumentar la credibilidad y precisión.

#WWW2012: Lyon World Web capital

Esta semana es la semana de Lyon (Francia) ya que, entre otras cosas, se celebra la 21ª edición de la International World Wide Web Conference, en este caso la WWW2012 en el Cité Centre de Congrès de Lyon.

Y aquí estoy ya, en Lyon, sin saber una pizca de francés fuera del “wí”. Y es que, por lo que estoy viendo, a diferencia de París donde estuve hace unas semanas, aquí es mucho más complejo encontrar a alguien que hable inglés. Incluso me ha sorprendido que en los restaurantes que hay en el recinto del Centro de Convenciones los camareros y compañía ni siquiera hagan el esfuerzo de hablarlo… está visto que estos días voy a pasar hambre.

Y por si alguien se pregunta que qué hago aquí más concretamente, vengo a dos workshops que se hacen lunes y martes. En concreto he venido a WebQuality 2012 y al CrowdSearch 2012.

El primero de ellos, el WebQuality 2012 (The Anti-Social Web: Credibility and Quality Issues on the Web and Social Media) lo organiza Carlos Castillo (de Yahoo! Research), al que conozco desde hace tiempo ya que ha colaborado en los Congresos OJObuscador, además de haber asistido yo a algún que otro evento en el que él también participaba hace años. Además, entre los que supervisan este workshop se encuentra Matt Cutts (de Google), al que muchos de los que me seguís también conoceréis y entre los ponentes está Ricardo Baeza (de Yahoo! Research), otro de los grandes que ha participado en los congresos de OJObuscador y al que, personalmente, le tengo un respeto mayúsculo.

Básicamente de lo que se hablará es del análisis de contenidos, de cómo se mide la calidad del mismo, de identificar la reputación de los autores, del rol que juegan las comunidades, de la credibilidad del contenido multimedia, de reducir el web-spam, detectar abusos de publicidad, medidas contra el plagio… en fin, como veis es, en el fondo, la respuesta a “hacia dónde van los buscadores”.

El segundo de los workshops CrowdSearch 2012 (First International Workshop on Crowdsourcing Web Search) me atrajo por eso de la búsqueda “en grupo”. La verdad es que no sé cómo traducir Crowdsourcing Web Search, pero vamos, que la idea es que, como ya he comentado muchas veces, los enlaces hoy en día ya no son lo que eran y hay que darles muchos valores más, entre ellos el factor social. Este workshop lo organizan Ricardo Baeza (de Yahoo! Research) y Stefano Ceri (Politecnico di Milano) entre otros. Entre los avales se encuentra Stefano Mazzocchi, actualmente trabajando en Google pero en la parte de Freebase, de lo que en 2009 ya estaba hablando.

En este caso algunos de los temas que se van a tratar son los de la calidad de los contenidos basados en las comunidades, trabajo de extracción de datos basados en modelos grupales, herramientas para gestionar contenidos basados en redes sociales, técnicas para mitigar el spam de los elementos sociales… en resumen, cómo afectan cosas como Twitter, Facebook y similares (donde se concentra un gran número de “seres humanos”) a los contenidos.

En general me gustan este tipo de charlas porque los que las dan son profesores o estudiantes avanzados de universidades de todo el mundo, aquellos que al final son los que proponen los sistemas para que, una vez aprobados y retocados, se implanten en los buscadores poco tiempo después. Hace unos años (en 2008, 2009 y 2010) pude asistir a los FOWS que organizaba Yahoo! Research en donde entre otras cosas conocí todo el tema de los “microformatos”, o “microdatos”, cosas como Freebase y “cacharros” como Síndice.

Así que nada… mañana, si el tiempo acompaña y hay buena cobertura wifi (y un enchufe cerca) intentaré ir publicando y haciendo seguimiento del workshop.

II Jornada Internet i Empresa

Hoy estoy en Tortosa (Tarragona) en las charlas que la Cambra de Comerç de Tortosa organiza junto a Empatica en las charlas de Internet i Empresa. Me ha tocado estar en la parte de las charlas de SEO, dando una breve charla de poco menos de una hora en la que he explicado un poco todo a nivel introductorio, Buenas Prácticas y cómo evitar penalizaciones.

Tal y como he prometido a los asistentes a la charla, os dejo la presentación que he hecho para descargar.

Agradecer a la organización y a los asistentes sus caras de no entender nada (cosas que pasan), las preguntas (muy interesantes), la conversación a la hora de comer y las discusiones tan interesantes que se han generado.

Por cierto, brutal la estrategia de Internet de MUNICH, tanto en la tienda como en el club y el Facebook.