Grand Challenges for Data Mining: Technical & Otherwise

2006-07-04

Javier Casares

Ayer tuve la oportunidad de volver a la UPF de Barcelona a una charla presentada por Ricardo Baeza en la que exponía Usama Fayyad que es Chief Officer & Sr. VP Research and Strategic Data Solutions de Yahoo Inc.

Usama es la persona que «revisa» los 20 TeraBytes de datos diarios de Yahoo! y es el único Strategic Data Solutions en el mundo.

La charla que dio era sobre el Data Mining… os dejo con algunos apuntes que tomé 🙂 (espero no haber metido la pata, porque se me escaparon algunas cosas…)

El Data Mining es la forma de encontrar estructuras entre los datos ya sean estadísticos, modelos predictivos, relaciones ocultas… Las empresas tienen grandes cantidades de datos almacenados, se preocupan por ella pero no la comprendem y en la actualidad, muy pocas, intentan sacar patrones de estos datos para sacarles un valor apropiado. Hay que escalar el análisis de grandes bases de datos, automatizar la búsqueda de patrones, dedicar esfuerzos en modelos no comprensibles.

Â¿Dónde están los datos? Hay grandes cantidades de datos y muy poca cantidad está preparada para el data mining, aunque guardar datos no será un problema en el futuro, sí que lo será analizarlo. Además, hay que integrarlos con sistemas operacionales, además de dedicarle tiempo y esfuerzo.

Al hacer una prospección de datos hay que tener en cuenta el valor de los datos y el riesgo del mismo (privacidad), por lo que hay que extraerlos y organizarlos en ese sentido, según su valor y riesgo.

Un punto habitual del hacer data mining es para mejorar el ROI de las empresas.

Primero hay que decidir que elementos queremos extraer y, una vez decidido, hay que buscar los elementos relacionados hasta conseguir extraer exactamenmte lo que queremos. Hay que tener en cuenta que los modelos hay que mantenerlos y que pueden ir cambiando. Una opción es el sistema de clustering que ayudaría a solucionar algunos de estos problemas.

Â¿Cómo crecen los datos? Un sistema de data mining nunca puede ser estático ya que la cantidad de datos varía de forma exponencial. Hay que comprender cómo, cuándo y porqué trabajan los modelos tal y como lo hacen… Hay que saber qué parte es y cuál no lo es en la estructura de datos… Se hace comparando datos entre varios patrones similares, cosas que se repiten de forma frecuente en determinados «items». Hay que ver la motivación de los elementos y los usuarioos para interactuar.

En grandes bases de datos hay que realizar búsquedas de estructuras iguales. Hay que buscar comportamientos similares con un mínimo de datos suficientes para extraer conclusiones correctas. Otra cosa a mejorar es la escalabilidad de los datos, trabajar con diferentes datos (textos, imágenes, video…) y tener en cuenta detalles que habitualmente no se tienen…

Internet representa el 15% del tiempo de los americanos de 12 a 64 años en lo que a «media» se refiere. La gente está 9 horas por semana «online».
Si contamos el online-offline del tiempo, Internet sólo representa un 6%.

Â¿Por qué la publicidad relacionada con las búsquedas en tan «poderosa»? Los anunciantes han encontrado en las búsquedas un buen punto de inicio para sacar datos sobre lo que buscan los usuarios, de qué manera y cuándo. Gracias a estos datos se puede llegar a saber con un 70% de fiabilidad qué podría comprar un usuario en los próximos 3 meses. Además, la gente que ve publicidad tiene un 61% más de polibilidades de buscar temas relacionados.

En fin, poco más… como comentaba son algunos detalles que pude extraer… Aún así, dar las gracias a Ricardo, pero no, aún no soy un Danny Sullivan…

Comments

Una respuesta a «Grand Challenges for Data Mining: Technical & Otherwise»

ei

2006-07-04

No entendi…no se supone que los datos son analizados solo por mecanismos de computadoras?….o eso solo pasaba en google?…o solo con datos personales de usuario?

A menos que me confunda estamos hablando de una persona que mete mano y vista en los datos, los analiza y arma patrones…

Últimas entradas

DNS soberano europeo2026-05-08
¿WordPress pierde, Astro gana?2026-05-07
Contribución a Free Software / Open Source / Open Data: abril de 20262026-05-01
Botón para arrepentirse2026-05-01
TLS: de tres años a cuarenta y siete días2026-04-24