Formas de propagar la relevancia entre documentos

Es de muchos conocido el algoritmo del PageRank (Google), que básicamente lo que calcula es la relación entre documentos en base a la cantidad de enlaces que tienen entre ellos y, en base a esto, calcular el peso de la información a la hora de ofrecer resultados de búsqueda. Con esto se puede llegar a realizar una clasificación de todos los datos de la red de redes aún teniendo en cuenta que hay páginas sin enlaces, generando una imagen instantánea de la red.

Pero aunque este es el algoritmo más conocido, existen otros dos algoritmos igual de interesantes. Uno de ellos es HITS (Ask), que se basa en el principio de que si un documento enlaza a otros documentos importantes, ese documento es importante por sí mismo. Con esto se divide la importancia del peso no sólo en los enlaces sino en los llamados “hub” y “authority”. Un “hub” se mide en base a la “authority” que le supone el resto de “hub”, lo que supone una gran diferencia con respecto a PageRank que sólo tiene en cuenta los enlaces entrantes y salientes. Además, HITS puede modificar el valor de los “hub” en base a las visitas que tiene y en el CTR.

El último sistema que se ha tenido en cuenta hasta ahora es DirectHIT (Go), que se basa en el historial del usuario, en cómo ha navegado en el pasado para eliminar aquello que no le interesa y potenciar lo que sí le interesa. Si un usuario en anteriores visitas al realizar una consulta de búsqueda ha acabado pulsando en el tercer resultado, en las siguientes visitas se le potenciará dicho resultado, haciendo subir los siguientes y bajando los anteriores para seguir probando.

La mayor parte de estos sistemas utilizan unos algoritmos de aprendizaje para aprender formas de entrenar la información que se incluye en las consultas de búsqueda. Esto acaba generando un ranking propio de los documentos que, a su vez hay que incorporar a los algoritmos anteriores para acabar generando unos resultados de calidad. Estos sistemas acaban usando las funciones de ranking de búsquedas, las funcionalidades y la relevancia y entrenamiento obtenido en base a las capacidades de los usuarios.

Y aquí es donde entra Microsoft (principalmente su equipo de China) en el que se ha buscado un sistema para ayudar a calcular los pesos de documentos que no tienen todavía relevancia pero que deberían tenerla, según se explica en Training a ranking function using propagated document relevance.

A method and system for propagating the relevance of labeled documents to a query to the relevance of unlabeled documents is provided. The propagation system provides training data that includes queries, documents labeled with their relevance to the queries, and unlabeled documents. The propagation system then calculates the similarity between pairs of documents in the training data. The propagation system then propagates the relevance of the labeled documents to similar, but unlabeled, documents. The propagation system may iteratively propagate labels of the documents until the labels converge on a solution. The training data with the propagated relevances can then be used to train a ranking function.

Pero ¿cómo se puede dar peso a un documento que aparentemente es nuevo? Pues básicamente por las similitudes con otros documentos anteriormente validados y con su peso asignado; es decir, que si un documento se parece a otro que aparece bien posicionado (sin ser contenido duplicado) se tiene en cuenta y se le asigna un valor pre establecido similar al anterior para poder entrar en el “círculo vicioso” de alguno de los algoritmos anteriores (principalmente en una fase semilla el de DirectHIT).

Aunque este sistema está desarrollado por Microsoft recuerda mucho a lo que en muchas ocasiones hemos visto en Google, que un sitio, al poco de ser lanzado se pone en los primeros puestos y al cabo de unas semanas “empieza a desaparecer”. Este sistema equivaldría a esas pruebas en la que, si el contenido es de calidad se mantiene durante más tiempo primando más la forma que tiene el usuario de navegar y de leer dicha información sobre el algoritmo primario de PageRank que se basa más en la “antigüedad” y la cantidad de enlaces.

Una vez se ha realizado la primera fase de buscar documentos similares para darles valor hay que propagarlos y aplicar el sistema de ranking. El objetivo es generar unos resultados que sean similares pero no idénticos, como podría ser el Sequential Minimal Optimization de John Platt. En este punto comenzaríamos el proceso para regenerar el grafo y añadir los nuevos documentos que se han rastreado mientras se prueban los que aparecen en los resultados de búsqueda.

Categorías Javier, SEO

Deja un comentario