Yahoo! Workshop: Andrei Broder

Una de las charlas de hoy la da Andrei Broder. Podríamos resumir en que ha sido el creador de Altavista (en el año 95) y también de los primeros captchas.

Tenemos una entrevista en video con Andrei que publicaremos esta misma tarde 🙂

La keynote que ofrece se llama From query based information Retrieval to context driven Information Supply.

La recuperación de información comenzó en los años 50-60. El 11 de Junio de 1994 Brian Pinkerton anunció WebCrawler. El 15 de Diciembre de 1995, Digital anuncia Altavista.

Los buscadores tienen un factor tecnológico pero principalmente uno social. Habitualmente en la recuperación de información se ignora el contenido y las personas que buscan, y eso ha de cambiar, dejando únicamente como importante la estructura.

Los usuarios buscan:

Informacional: 40% Quieren aprender sobre algo
Navigacional: 25% Quieren ir a un sitio determinado
Transicional: 35% Quieren hacer algo (acceder a un servicio, descargar, comprar…)

Los motores de búsqueda han evolucionado. Los de primera generación sólo recuperaban información «on-page», habitualmente por la frecuencia y cantidad de palabras. Excite o Lycos son los mejores ejemplos entre 1994 y 1997.

Una segunda generación empieza con Google que tiene en cuenta varios valores como los enlaces (o la conectividad entre páginas), la cantidad de personas que pulsan un enlace o el ancho-text.

Los de tercera generación son aquellos que tienen la respuesta a uas necesidades, integran múltiples fuentes, etc… pero son los que se están desarrollando.

Sobre los motores de búsqueda de tercera generación se basan en un análisis semántico. La aparición de las «respuestas rápidas» es una de las primeras formas de poder ver esta tercera generación en estos momentos. La posibilidad de que los usuarios decidan que contenidos son mejores ofrecen mejor relevancia a los contenidos y a los resultados.

Hay que revisar y determinar qué tipo de contenido es, si son lugares, coparar búsquedas anteriores, usar una versión local concreta de un motor… de forma que podemos usar, entre otras cosas la «geobúsqueda». Un 10% de las webs tienen algún tipo de dato que las situan geográficamente. También tener un diccionario de lugares, la IP del usuario o los datos de registro del usuario e incluso los números de teléfono, ayudan a poder situal al usuario.

Con los buscadores de tercera generación los usuarios han de ganar en mejores resultados, los proveedores de contenido y los propios buscadores gracias a la monetización.

El futuro está en pasar de las concordancias sintácticas a las concordancias semánticas.

Una cuarta generación debería ir enfocada en mejorar la recuperación de información. Hasta hace unos años principalmente la informacón venía por los periódicos. Más tarde podíamos contactar y tener información con consultas simples TCP/IP y ahora, por ejemplo, tenemos programas como Skype.

Para Andrei, su ejemplo favorito lo encontramos en el paso de los mapas de carreteras a los navegadores GPS, ya que podemos integrar en la propia pantalla parkings, restaurantes y gran cantidad de información que no teníamos hasta ahora.

En la actualidad tenemos dos tipos de neceidad, la actualizada (RSS, alertas, noticias) y otra más temporal, como información sobre viajes, sitios comerciales o publicidad contectual.

Algo que Yahoo! hace con frecencia es ofrecer ampliación de información en algunos de sus textos gracias a las anotaciones automáticas.

El gran problema de el control de lo que hace un usuaro es su privecidad, y sobretodo lo que él peribe de ese ataque a la privacidad.

La publicidad en la web es otra forma de tener información. El crecimiento en Estados Unidos de la publicidad 2004-2005 ha sido en internet de un 13%, pero, en el resto, en general el crecimiento sólo ha sido de un 3%.

De la publicidad web podemos tener mucho control sobre el anuncio, el CPC, la conversión, etc, que en otros medios no está disponible de forma más o menos fiable. El problema de los anuncios de contenido es encontrar los que se adaptan realmente a la página o al artículo que allí podemos encontrar. Para ello, nos propone que tengamos en cuenta el usuario, la localización, impresiones anteriores, frases de búsqueda…

Comments

3 respuestas a «Yahoo! Workshop: Andrei Broder»

Últimas entradas