Ask lanzará un nuevo producto

AskSegún he podido saber hace unas horas, mañana por la mañana Ask lanzará un producto muy interesante y del que se va a hablar bastante debido a su integración con muchos sistemas en la red.

No puedo avanzar mucho más, pero os puedo asegurar que lo poco que he podido saber sobre el nuevo sistema es muy intuitivo, muy usable y que seguro que una nueva herramienta que muchos utilizarán.

Por supuesto, en el momento en que esté disponible esta nueva herramienta tendreis toda la información (más incluso que la que puedan ofrecer otros medios) sólo en OJObuscador.

El rumor: Microsoft tras eBay

La verdad es que no sé si será verdad o mentira, y aunque el sábado ya leí la noticia en el diario alemán Heise no quise ni publicarla.

Pero claro, ahora son los americanos C|Net y New York Post.

¿Hasta que punto hay que creerse una noticia así? Está claro que cuando el río suena, agua lleva… pero aún así, me es diícil de creer que Microsoft se haga cargo de eBay y de Skype

Nuevos colaboradores en OJO

Aunque aún no va a ser de forma masiva, a partir de hoy vamos a incorporar a algunos colaboradores del sector de SEO, SEM e incluso (si nos dejan ;)) algunos motores de búsqueda, entre nuestros autores de OJObuscador.

Hace tiempo que Martí de derecho.com ya colabora con el equipo enviando su punto de vista legal sobre algunos detalles que se mueven por la red, y a partir de hoy habrá algunos más (como podreis ir viendo).

Si crees que puedes aportar algo a los lectores de OJObuscador ¿por qué no te animas a publicar con nosotros? Sólo tienes que enviarnos un mensaje y nos pondremos en contacto contigo para explicarte un poco cómo va el tema…

concurso de mashups de Google Maps España

concurso Google MapsTal y como presentamos Bernardo y yo en el congreso OJObuscador 2006, a partir del 1 de Junio se podrán presentar las candidaturas para participar en el concurso de Google Maps, en el que el ganador tendrá de premio una visita a las oficinas centrales de Google (GooglePlex) en San Francisco (USA).

Para participar te recomendamos la lectura completa del sitio:

concurso Google Maps España

pd: Aquellos mapas que ya están funcionando con Google Maps España pueden participar tranquilamente, no es un concurso de “nuevos” mapas, sino de “mapas con aplicaciones en España”.

Fresqui rompe la burbuja…

fresquiEn el congreso ya se escuchaban rumores y hoy parece haberse hecho realidad… Fresqui ha conseguido inversión, lo que significa que Álex podrá dedicarse de lleno a ello…

Hoy puedo anunciar que una interesante empresa española ha hecho una importante inversión en fresqui y adquirido un porcentaje del mismo. La operación significa que fresqui va a contar con una serie de recursos que para mi eran impensables cuando comencé el proyecto y que ponen a fresqui al insólito nivel (para una Web española) de cualquier start-up anglosajona.

¡Felicidades!

congreso OJObuscador 2.0: comienza una nueva era

¡¡¡Ya hemos vuelto!!!

Sí, hace “ná y menos” que ha acabado el congreso OJObuscador 2006 y ya estamos lanzando el congreso OJObuscador 2.0

Como puedes ver, va a ser un 2.0, como todo lo que circula hoy en día por la red de redes, y es que hemos decidido llevar más allá de lo imaginado el concepto de un congreso de internet, y por ello tenemos que comenzar YA.

En este mismo momento queda abierto el sitio web del congreso OJObuscador 2.0 donde puedes encontrar toda la información necesaria para estar al día sobre este nuevo evento, más importante si cabe que el ocurrido hace unas semanas.

Aunque, lógicamente, hay muchas novedades:

Noticias: se podrán seguir directamente desde el sitio web de noticias de OJObuscador… ¿por qué has de estar siguiendo dos páginas cuando con una hay suficiente?

Programa: ya está disponible la “beta pública” del próximo evento. Como verás son 2 días y está pensado para que sea más profesional si cabe que el primero. Además, vamos a traer a unos ponentes ¡de lujo!

Ponentes: ¿Te gustaría ser ponente? Durante las próximas semanas vamos a recoger la documentación necesaria para que podais proponer ponencias, que, más adelante, serán votadas por los asistentes, que decidirán qué quieren escuchan en el próximo congreso.

Patrocinadores: ¡Sorpresa! Si quieres ser patrocinador, ¡YA TARDAS! Un sistema de patrocinadores totalmente 2.0… ¡el primero será el mejor!

Lista de Correo: Si quieres estar al día, como posible asistente, de todo lo que ocurra en el congreso OJObuscador 2.0, te invitamos a usar la nueva lista de avisos…

Entrevista a Andrei Broder

Como comentaba esta mañana hemos estado en el Yahoo! Workshop de Barcelona y hemos podido tener una entrevista casi en exclusiva y muy informal con Andrei, creador de Altavista, entre otras cosas.

Por cierto, dar muchísimas gracias a Tomy por el curro de todo 🙂

En un rato Tomy tendrá la transcripción (en inglés y español) de lo que comenta… (ya que el audio es un poco malo :()

Si quieres ver la transcripción… (tanto en inglés como en español…)

Leer másEntrevista a Andrei Broder

Yahoo! Workshop: Se acabó

Bueno, aunque esta tarde seguiremos publicando algunas cosas que nos quedan pendientes (videos, imágenes, etc), quiero agradecer al equipo de Yahoo! y en especial a Ricardo por haber invitado a OJObuscador a estar presente en este Workshop, ya que de entre todos los asistentes, como “medio” (por llamarnos de alguna manera) sólo estamos nosotros, y es de agradecer.

A parte, también dar las gracias a Lola, Agustín… por darnos apoyo mientras hemos estado por aquí.

Yahoo! Workshop: Andrei Broder

Una de las charlas de hoy la da Andrei Broder. Podríamos resumir en que ha sido el creador de Altavista (en el año 95) y también de los primeros captchas.

Tenemos una entrevista en video con Andrei que publicaremos esta misma tarde 🙂

La keynote que ofrece se llama From query based information Retrieval to context driven Information Supply.

La recuperación de información comenzó en los años 50-60. El 11 de Junio de 1994 Brian Pinkerton anunció WebCrawler. El 15 de Diciembre de 1995, Digital anuncia Altavista.

Los buscadores tienen un factor tecnológico pero principalmente uno social. Habitualmente en la recuperación de información se ignora el contenido y las personas que buscan, y eso ha de cambiar, dejando únicamente como importante la estructura.

Los usuarios buscan:

  • Informacional: 40% Quieren aprender sobre algo
  • Navigacional: 25% Quieren ir a un sitio determinado
  • Transicional: 35% Quieren hacer algo (acceder a un servicio, descargar, comprar…)

Los motores de búsqueda han evolucionado. Los de primera generación sólo recuperaban información “on-page”, habitualmente por la frecuencia y cantidad de palabras. Excite o Lycos son los mejores ejemplos entre 1994 y 1997.

Una segunda generación empieza con Google que tiene en cuenta varios valores como los enlaces (o la conectividad entre páginas), la cantidad de personas que pulsan un enlace o el ancho-text.

Los de tercera generación son aquellos que tienen la respuesta a uas necesidades, integran múltiples fuentes, etc… pero son los que se están desarrollando.

Sobre los motores de búsqueda de tercera generación se basan en un análisis semántico. La aparición de las “respuestas rápidas” es una de las primeras formas de poder ver esta tercera generación en estos momentos. La posibilidad de que los usuarios decidan que contenidos son mejores ofrecen mejor relevancia a los contenidos y a los resultados.

Hay que revisar y determinar qué tipo de contenido es, si son lugares, coparar búsquedas anteriores, usar una versión local concreta de un motor… de forma que podemos usar, entre otras cosas la “geobúsqueda”. Un 10% de las webs tienen algún tipo de dato que las situan geográficamente. También tener un diccionario de lugares, la IP del usuario o los datos de registro del usuario e incluso los números de teléfono, ayudan a poder situal al usuario.

Con los buscadores de tercera generación los usuarios han de ganar en mejores resultados, los proveedores de contenido y los propios buscadores gracias a la monetización.

El futuro está en pasar de las concordancias sintácticas a las concordancias semánticas.

Una cuarta generación debería ir enfocada en mejorar la recuperación de información. Hasta hace unos años principalmente la informacón venía por los periódicos. Más tarde podíamos contactar y tener información con consultas simples TCP/IP y ahora, por ejemplo, tenemos programas como Skype.

Para Andrei, su ejemplo favorito lo encontramos en el paso de los mapas de carreteras a los navegadores GPS, ya que podemos integrar en la propia pantalla parkings, restaurantes y gran cantidad de información que no teníamos hasta ahora.

En la actualidad tenemos dos tipos de neceidad, la actualizada (RSS, alertas, noticias) y otra más temporal, como información sobre viajes, sitios comerciales o publicidad contectual.

Algo que Yahoo! hace con frecencia es ofrecer ampliación de información en algunos de sus textos gracias a las anotaciones automáticas.

El gran problema de el control de lo que hace un usuaro es su privecidad, y sobretodo lo que él peribe de ese ataque a la privacidad.

La publicidad en la web es otra forma de tener información. El crecimiento en Estados Unidos de la publicidad 2004-2005 ha sido en internet de un 13%, pero, en el resto, en general el crecimiento sólo ha sido de un 3%.

De la publicidad web podemos tener mucho control sobre el anuncio, el CPC, la conversión, etc, que en otros medios no está disponible de forma más o menos fiable. El problema de los anuncios de contenido es encontrar los que se adaptan realmente a la página o al artículo que allí podemos encontrar. Para ello, nos propone que tengamos en cuenta el usuario, la localización, impresiones anteriores, frases de búsqueda…

Yahoo! Workshop: Web Search and Mining

Ahora llega la parte pura y dura de Búsquedas

Current approaches to personalized web search (por Paul-Alexandre Chirita)

El 80% de los usuarios prefieren los resultados de búsqueda personalizados. Se podría crear un Pagerank especializado para este tipo de resultados en base a varios factores, pero que supondrían una carga elevada para el cálculo del Pagerank por usuario. Otra opción podría ser trabajar en base a una lista de dominios importantes en los que calcular esa personalización.

El 40% del top 100 de los resultados está en DMOZ o en el directorio de Yahoo!.

Applications of Query Mining (por Ricardo Baeza-Yates)

Ricardo está explicando de forma general todo lo que tiene Yahoo! junto a algunos datos interesantes (que colgaremos en alguna foto en un artículo resumen).

Además, comenta las partes importantes de la relevancia de los contenidos, el contexto donde están (edad, lugar, curriculums, logs…) de donde podemos sacar la información importante.

Boosting Performance of Web Search Engines using Query Logs (por Fabrizio Silvestri)

Fabrizio nos habla de los datos que se guardan cuando se realiza una búsqueda. Entre otras cosas se guarda la búsqueda, los resultados, el timestamp

Además, comenta cómo cuando un usuario pasa a la siguiente página de resultados (un 10%) cuando se llega a la 4ª página hay un 70%-90% de que siga en las siguientes.

Por otro lado, comenta nuevas posibilidades para poder extraer datos de los logs, ya sea particionandolos o teniendo una nueva forma de selección de datos…

Web mining for natural language engineering tasks (por Paolo Rosso)

Una charla bastante técnica… no creo que haya que remarcar nada…

Yahoo! Workshop: Search in other environments

Continuamos esta mañana con las charlas de Yahoo! en Barcelona.

Mobile Search on ubiquitous collaborative annotations of space (por Mauro Cherubini)

La búsqueda a traves de la tecnología móvil ha hecho que la cantidad de palabras se reduzca, existan abreviaturas, etc… que hay que tener en cuenta al recuperar información para estos dispositivos. Por eso, hay que hacer una relación de estos nuevos conceptos con la forma habitual de buscar de los usuarios para poder mostrar información adecuada aunque los resultados no contengan las palabras buscadas.

Semantic overlay networks for P2P Web Search (por Michalis Vairgiannis)

Los buscadores centralizados tienen problemas de cobertura y escabilidad. La respuesta podría estar en las búsquedas P2P (por ejemplo tenemos el motor de búsqueda YaCy).

Gracias a esta tecnología reducimos el coste de las consultas y tenemos mejor calidad de resultados, aunque el resto está en su aplicación a las búsquedas web.

Efficient and Decentalizated Pagerank approximation in a P2P Web Search Network (por Josiane Parreira)

Se debe crear un algoritmo que organice la información como el Pagerank pero a nivel P2P. Este debe tener en cuenta la información local en base al nodo general que es la red global (internet)

Image Serach “Live” (por Nick Craswell)

El 60% del top 100 de las búsquedas en WL Images son palabras adultas o famosos.

Las búsquedas se basan en cerca de 200 parámetros gracias a un RankNet, y con factores como el texto de alrededor, el tipo de imagen…

El 75% de las búsquedas web sólo tienen 1 página vista de resultados. En imágenes se reduce a un 43%. Uno de los problemas es la cantidad de imágenes que hay por pantalla y la cantidad de “scroll” que hay que hacer. Por ello Windows Live Images ha cambiado su interfaz para hacerla más usable.

Uno de los grandes problemas en las búsquedas de imágenes es poder detectar y ordenar en base a la calidad de los resultados. Además, no descartan desarrollar sistemas para comparar imágenes y poder ofrecer una mejor calidad, aunque no saben cuando ya que la mayoría de las búsquedas son “Britney Spears”…

congreso OJObuscador 2007: el congreso 2.0 ha llegado

Aunque no lo parezca ya anoche nos planteamos la creación del congreso OJObuscador 2.0 para el año que viene. Aún no puedo avanzar mucho (aunque estad atentos a esta semana) porque va a sorprender a muchos.

Va a ser el primer congreso 2.0 y por ello tú vas a ser quién decida.

Muy pronto, aquí mismo…

Yahoo! Workshop: Structured Retrieval

Aunque han sido bastante técnicas, os hago un resumen de las 4 charlas…

XML Compression and Search (por Pablo Ferragina)

Ha comentado varios sistemas para almacenar información en formato XML. En resumen el mejor podría ser el XBzipIndex, que comprime sobre un 36%, y permite hacer consultas y navegar en menos de 10 milisegundos.

Semantic structure in structured document retrieval (por Roelof Van Zwol)

¿Se puede usar la estructura XML para recuperar mejor la información? Esta es la pregunta que hace Roelof. La respuesta es qué necesitamos de ese XML (contenido, contenido y estructura…) y, de esa estructura, si todo o sólo parte de ella.

Yahoo! Workshop

Hay dos formas de buscar:

  • Usando palabras clave
  • Usando búsquedas semánticas

El uso de búsquedas semánticas mejora la relevancia de los resultados sobre las búsquedas por palabra clave.

Flexible XML using summaries (por Mariano Consens)

Me quedo con dos conceptos:

Toda la información se puede rastrear y buscar.

Los feeds son un ejemplo claro de sumarización, aunque existan los RSS, RDF, Atom con muchas variantes.

Yahoo! Workshop

Exploiting Temporal Features for Structured Queries (por Albercht Schmidt)

Ha dado algunas ideas a nivel tecnológico sobre las estrcuturas de búsquedas y recuperación de información. Una de ellas podría ser la de tener un índice reducido con aquellos sitios que se actualizan de forma frecuente y uno estático mayor en el que se almacenen datos que vayan a ser actualizados en mucho tiempo.

Yahoo! Workshop: Retrieval Foundations

La próxima hora y media se dedicará a revisar formas de recuperar información. Todo este bloque lo dan españoles:

Applications of Influence Diagrams to Information Retrieval (por Juan F. Huete)

A destacar que hay que tener en cuenta como mínimo que la información que hay que indexar ha de ser útil, pero que podemos encontrarnos problemas básicos.

Un detalle a tener en cuenta es que si disponemos de una entradilla de un artículo y de un artículo completo hemos de decidir si recuperamos la información de ambos, sólo de la entradilla o sólo del artículo completo.

En definitiva, en un proyecto hemos de:

  • Decidir el modelo de recuperar la información.
  • Detectar de forma automática los “mejores puntos”:
    • Considerar el contenido
    • Relevancia

Si se recupera la información correctamente no debe haber problemas para adaptarla a cualquier modelo de datos.

Yahoo! Workshop

Tunning: Error Optimization in Ad-Hoc Retrieval (por Hugo Zaragoza)

Hugo ha explicado un caso curioso que han desarrollado cuando estaba en Microsoft Research. Toma el caso de elegir a un grupo de usuarios y les pide que elijan, según su relevancia, entre los 5 primeros resultados. De esta forma, dado un posible caso de que la gente haya decidido que el 2º y 3º resultado son más relevantes que el primero, hay que buscar el porqué de este error del sistema al hacer la puntuación, y de cómo ordenarlos, si basándose en esos 5 resultadoso aplicando el error a todos los resultados de esa búsqueda.

Yahoo! Workshop

Ongoing research on sentence retrieval and novelty detection (por David Losada)

Poco a comentar, una charla muy “científica”.

Yahoo! Workshop: Algorithmics

Personalmente está siendo un poco… aburrido. Las dos primeras charlas han tenido punts interesantes (que ahora os comentaré) pero el ersto se basa mucho en fórmulas y cosas “extrañas”.

Blogs, friendship & geography (por Andrew Tomkins)

Sobre los blogs:

  • Ordenan la información por fecha descendente
  • Suele tener un blogroll con enlaces a los sitios personales de los autores
  • Suele estar creado por un software de blogs de dominio público.
  • Es altamente personal
  • Los usuarios que lo visitan suelen ser un número reducido, pero que repite.
  • Se actualiza varias veces al día.
  • Crea micro-comunidades
  • Empezaron en 1996 pero se hicieron muy conocidos a partir de 1999 (gracias a las herramientas).
  • Hay gente que le dedica desde 30 minutos hasta “24 horas”.
  • El impacto es muy elevado y se puede ver en casos como el “miserable failure” que hizo aparecer al presidente Bush en primer puesto
  • El 35% de los blogs está en Estados Unidos
  • El 80% de los amigos son recíprocos entre los enlaces de blogs
  • La mayoría de los bloggers de centra entre los 15 y 25 años.
  • Los bloggers tiene un 16% de intereses comunes y un 20% de colocalización.

En 1967 Standley Milgram definió los “seis niveles de separación“.

  • Las redes contienen caminos cortos
  • Un algoritmo puro puede determinar este corto camino, aunque la separación cada vez se convierte en exponencial cuando pasamos de más de 2 niveles.

El resto de charlas han sido bastante científicas y casi no merece la pena comentarlas. Básicamente han hablado de indexar información compartida, clustering y distancia semántica en búsquedas.

Yahoo! Workshop: Spam Detection

Bueno, mientras siguen las ininteligibles charlas sobre algoritmos extraños, yo voy a por lo que realmente interesa y los datos buenos:

La charla de Carlos se centraba en qué cantidad de spam detecta cada uno de los diferentes algoritmos existentes.

En la red hay dos tipos de cosas: información y spam.

El spam se suele detectar porque tiene una lisa de palabras clave y enlaces. Hay páginas bien formadas que son menos detectables. Se pueden encubrir como si el sitio fuera un buscador, o en simple páginas normales que pueden encubrir dicho spam.

Yahoo! Workshop

Hay muchos tipos de algoritmos simétricos como el Pagerank, el TrustRank, HITS, Salsa…

El 35% de los enlaces son recíprocos y es habitual que se enlace gente con temas similares o sitios similares. De esta forma es cómo se puede detectar spam.

En principio el Pagerank puede detectar un 72,6% de spam con un 3,1% de falsos positivos.

El Pagerank no sirve para detectar spam ya que las páginas con spam tienen un Pagerank muy similar.

Es mejor tener enlaces de pageranks muy variados que no tener enlaces de pagerank muy similar.

Yahoo! Workshop

Con el Trustrank se detecta un 74,4% del spam pero con un 2,6% de falsos positivos. Aunque se detecta más claramente el spam, puedes penalizar a muchos sitios que no lo son.

Otra opción es la de usar un Pagerank Truncado, que limitará el control del Pagerank de los sitios más cercanos y relacionados, haciéndoles perder su valor en relación a este sitio en concreto. Con este sistema detectaríamos una gran cantida de spam que habitualmente no se puede detectar.

Gracias a él conseguiríamos detectar un 76,9% del spam con sólo un 2,5% de falsos positivos.

Si utilizásemos el algoritmo de Ntoulas (basado en el análisis de contenidos) podríamos llegar a detectar un 86,2% del spam con tan sólo un 2,2% de falsos positivos. Esto se presentará la semana que viene.

Conclusiones:

  • Mediante los enlaces se puede detectar cerca del 80% del web-spam
  • Saber la cantidad de host desde los que se enlaza, ayuda
  • Hay que tener en cuenta el valor del Pagerank de la página principal y de las páginas interiores para saber si es spam o no.
  • El antispam de los servicios de correo está mucho más depurado y es mucho mejor.

Os dejo con algunas capturas:

Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop

Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop Yahoo! Workshop

Yahoo! Workshop: Link Analysis

Este bloque se centra en 4 charlas:

Graph fibrations, graph isomorphism and Pagerank (por Pablo Boldi)

En resumen (y en base a que no me he enterado de casi nada ya que la mayoría eran fórmulas matemáticas):

El PageRank se basa en la fórmula de Markov.

Theoretical analysis of Link Analysis Ranking (por Panayiotis Tsaparas)

El algoritmo HITS es inestable. Según Lee and Borodin (2003) el Pagerank es estable. Según Lempel Moran (2003) el pagerank es inestable.

Can we derive for the stability of pagerank

Conclusiones:

  • Hay que buscar las condiciones para estabilizar HITS.
  • Hay que añadir factores, por ejemplo contra el SPAM.

Using Rank Propagation and Probabilistic Counting for Link-Based Spam Detectio (por Carlos Castillo)

Muy interesante… le dedicaré un artículo sólo a esto ya que ha dado muchas pistas sobre combatir el SPAM.

Searching the web with Low Space Approximations (por Andras Benczur)

Sin comentarios (hay que ser master del universo para entendelo) :s