#WWW2012: CrowdSearch 2012, crowdsourcing for multimedia applications

Último bloque de presentaciones del día, en este caso va a ir relacionado con la inteligencia colectiva en contenidos y temas multimedia.

Para comenzar tenemos PodCastle and Songle: Crowdsourcing-Based Web Services for Retrieval and Browsing of Speech and Music Content de Masataka Goto, Jun Ogata, Kazuyoshi Yoshii, Hiromasa Fujihara, Matthias Mauch y Tomoyasu Nakano).

Existen los sitios PodCastle (para voz hablada) y Songle (para música) que se usan para el reconocimiento multimedia. El primero, por ejemplo, permite la lectura de un contenido e interpretar sus textos. Los usuarios pueden ayudar y colaborar corrigiendo las palabras que sean erróneas, eligiendo, por ejemplo, entre distintas palabras o simplemente corrigiéndolas. Entre las cosas interesantes son las interfaces que este sistema ofrece con formas alternativas. Además, tras corregir, el sistema aprende por lo que se mejora el performance del sistema.

#WWW2012: CrowdSearch 2012, crowdsourcing for multimedia applications

Una de las razones por las que los usuarios entran en este sitio es por la interfaz que se propone y por el altruismo de los usuarios. Otra razón es que en algunos casos aparecen personajes famosos y los usuarios no pueden tolerar que haya errores en sus traslaciones a texto.

A diferencia de los cambios en la Wikipedia, un cambio es sólo para un contenido; en este caso un cambio implica una mejora en toda el sistema que mejora los trabajos futuros.

La otra herramienta, Songle, permite el análisis musical con un sistema visual de pistas, tempos, etc… Con este sistema se pueden detectar coros, melodía, tempos… gracias a esto es fácil encontrar partes de una canción por similitud.

La siguiente presentación es A Framework for Crowdsourced Multimedia Processing and Querying (de Alessandro Bozzon, Ilio Catallo, Eleonora Ciceri, Piero Fraternali, Davide Martinenghi y Marco Tagliasacchi)

En general las máquinas no tienen la capacidad para entender el material multimedia, lo que provocan baja fiabilidad, principalmente en vídeo. Un sistema que se ha probado es por ejemplo el de la detección de logos (marcas registradas) dentro de un vídeo, por ejemplo para detectar problemas de patentes o de usos indebidos.

Una de las cosas que se ha trabajado a nivel de inteligencia colectiva es la selección de logos dentro de una imagen, y por otra parte la separación de posibles versiones de logos.

#WWW2012: CrowdSearch 2012, crowdsourcing for multimedia applications

Continuamos con An Evaluation of Search Strategies for User-Generated Video Content (de Christopher G. Harris)

Hacer búsquedas en vídeos generados y subidos por los usuarios es complejo. Por ejemplo, los tags no están penadas para la búsqueda, sólo hay 13 categorías, los comentarios son encontrables pero tienen pocas visualizaciones (0,16%, 1 de cada 600 deja un comentario) y en general no son útiles… en resumen: hay mucho ruido.

#WWW2012: CrowdSearch 2012, crowdsourcing for multimedia applications

Una de las cosas que se estudian es la posibilidad de realizar una consulta y que estudiantes, usuarios en general o los resultados directos de Youtube ofrecen. Una vez esto, hay que plantearse si analizar o no los resultados también mediante inteligencia colectiva para corregir los vídeos propuestos.

Para acabar tenemos Discovering User Perceptions of Semantic Similarity in Near-duplicate Multimedia Files (de Raynor Vliegendhart, Martha Larson y Johan Pouwelse)

¿Son estas dos canciones la misma? ¿O estos dos vídeos? Dos vídeos son similares si generan el mismo propósito para un usuario. Una forma de analizarlo pdoría se poniendo a prueba a los usuarios haciendo que elijan, o si creen que varios vídeos de capítulos de series descargables por Torrent son los mismos o no en base a sus nombres.

Deja un comentario