#WWW2012: CrowdSearch 2012, bienvenida

2012-04-17

Javier Casares

Y comienza un nuevo día en Lyon en el evento WWW2012, en este caso con el Workshop CrowdSearch 2012: First International Workshop on Crowdsourcing Web Search
. Si ayer los temas iban más enfocados a la calidad de los contenidos, a combatir el web-spam y similares, hoy toca el día a los enlaces, a su calidad y, sobre todo, a su socialización dentro de la red de redes.

Para comenzar Loretta Anania, la que era responsable de buscadores de la Unión Europea comienza explicando la importancia sobre los buscadores y sobre la innovación que han llevado a cabo. También presenta un evento llamado Search Computing: The Search Computing Project que se llevará a cabo a finales de septiembre. Es un momento de grandes cambios, venimos aquí a tomar ideas.

La primera de las charlas (en este caso como invitado) será Using the Crowd to Solve Database Problems (por Donald Kossman). Va a hablar de un concepto como CrowdDB, que básicamente es la colaboración entre máquinas y humanos en relación a las bases de datos. Podéis decargar el paper CrowdDB: Answering Queries with Crowdsourcing.

El sistema de Google es el de tener más datos y para ello añadir más sistemas de proceso. Con esto tenemos búsquedas, traducción… En cambio, el sistema del resto del mundo es el de usar la inteligencia colectiva. El objetivo es conseguir lo mejor de ambos sistemas. Con esto conseguiremos un sistema más inteligente.

Comenta la idea de J. C. R. Licklider, que básicamente hablaba de lo que ha conseguido Google pero hace muchísimos años atrás.

¿Por qué ahora?, porque se puede usar de forma sistemática y porque existen herramientas que lo permiten, como por ejemplo Mechanical Turk u oDesk. Pero debemos tener en cuenta que no podemos usar a la gente como máquinas.

Pero hay ciertas cosas buenas y cosas malas… en general las cosas en las que las máquinas son buenas, la gente es mala, y en lo que las máquinas son malas la gente es buena. Por ejemplo a la gente hay que entrenarla, hay temas legales, la posibilidad de uso depende de horarios y otros factores…

Las dudas que se generan son cómo se desarrolla un sistema para lo colectivo y, sobre todo, cómo puede ayudar esto a resolver problemas de IT. El objetivo sería hablar SQL con las personas… las aplicaciones hace consultas SQL hacia unos sistemas… pero, ¿y si en vez de haber datos almacenados por debajo hay personas que responden? Los problemas para ello son que hoy en día queremos resolver problemas que antes no se querían resolver, y el SQL se queda «corto» para ello. Hoy en día hay un problema de resolución de entidades. Por mucho que le hagamos una petición por SQL con el nombre de «IBM», si en la base de datos tenemos «International Business Machines», la respuesta va a ser cero. Otro problema es que no haya datos en la base de datos para responder.

El primer paso para conseguir este tipo de cosas es el de cambiar ligeramente el SQL para hacerlo más comprensible, pero no mucho. Además, hay que decidir qué parte responderá el sistema y qué parte responderá la inteligencia colectiva. La gente puede encontrar datos de una forma rápida y correcta, incluyendo comparaciones sencillas (por ejemplo encontrar un perro en una serie de fotos). En cambio ordenar contenidos, relacionar contenidos de distintas tablas… en general, todo lo que las máquinas saben hacer bien.

El CrowdSQL podría ser algo parecido a esto:

Un elemento básico es el almacenamiento de la información resultante de la inteligencia colectiva, algo básico en Google, ya que no hacerlo tiene un coste excesivamente elevado. Al fin y al cabo, si los usuarios te dan la respuesta, cuando otro usuario la consulte, ya la tienes. Pero para esto hay que añadir pesos, ya que la cantidad de veces que la inteligencia colectiva da la misma respuesta a una misma pregunta esa respuesta tiene más peso que cualquier otra respuesta.

Comments

Deja una respuesta Cancelar la respuesta

Últimas entradas

WordPress no necesita un MCP: usa la REST API2026-07-06
QUERY como nuevo método HTTP (RFC 10008)2026-07-03
Detective para los bots de IA2026-07-01
Por qué mi código ya no vive en GitHub2026-06-29
Baremetal virtualizado vs. VPS2026-06-26