Yahoo! se queda con el “buscador social”

¿Quién es el dueño de las búsquedas sociales? Pues Yahoo! o al menos eso parece tras la concesión de la patente System and method for ranking search results using social information en la que básicamente se detalla lo que serían los factores que se pueden tener en cuenta de sitios sociales para generar o mejorar los resultados de búsqueda de un buscador.

An improved system and method for ranking search results using social information is provided. A social information ranking engine may be provided to rerank a list of URLs of web pages in search results from a search engine using social information. To do so, the search query may be applied to a social information domain and a second list of references to web pages may be obtained as search results. A dimensional vector of users with the plurality of terms may be constructed using search results from social information domain, and a similarity measure may be computed between the references to web pages obtained from search results by the search engine and the references to web pages obtained from search results by the social information ranking engine. The score from the similarity measure may then be used to rerank the list of references to web pages.

Esta descripción, aunque es clara, viene a decir:

Un sistema mejorado y método de clasificación de resultados de búsqueda que incorpora la información social. La información social puede ser utilizada para reorganizar los resultados de búsqueda de un motor de búsqueda con información social. Para ello, a la consulta de búsqueda se le puede aplicar la información social de un sitio y obtener una segunda lista de resultados. Un vector dimensional de los usuarios con la pluralidad de los términos puede ser construido con los resultados de búsqueda del dominio social, y una medida de similitud puede ser calculada entre las referencias a páginas web obtenidas a partir de los resultados de búsqueda por el motor de búsqueda y las referencias a páginas web obtenidas de los resultados de búsqueda por el motor de información de clasificación social. La calificación de la medida de similitud puede entonces ser utilizada para reorganizar la lista de resultados de búsqueda.

Esta patente básicamente hace eso, lo que reclama es que tras la consulta de búsqueda de un usuario, que debería devolver una lista de resultados, estos lleven aplicados ciertos cambios que se basarán en la información social recopilada de otras fuentes, de forma que los resultados cambien. Estos cambios generarán una serie de cambios en base a muchas consultas de muchos usuarios. La información se extraería de diferentes sitios que incluyen referencias a distintas direcciones URL, que, además de dar peso a las direcciones URL, daría peso a los conceptos principales de los contenidos que hay en dichas direcciones URL.

El documento hace un comentario muy interesante (que indirectamente afecta al PageRank y al TrustRank) y es que cada vez es más complejo tener fuentes fiables de información. Lo interesante es que el usuario podría ofrecer información desde la que extraer la información social para poder mejorar los resultados. Esto básicamente significaría que se usan dos sistemas de mejora: por un lado la información “general” que podría proporcionar Twitter o Facebook, y por otro lado la información “personal” que puedes ofrecer tú mismo sincronizando tu cuenta de Twitter o Facebook con la del buscador (algo que ya hace Google con su PluesOne, que muestra información que han compartido tus amigos o seguidos).

La forma de rehacer la lista de resultados vendría a ser por similitud, lo que daría, al parecer, peso principal a los N resultados de búsqueda, pero que de esos resultados que “ya aparecen” y que también tengan importancia en los medios sociales, tendrían un peso mayor, lo que implicaría hacerlos subir N puestos en los resultados de búsqueda. Además, también se comenta que estos resultados (o tecnología) podría utilizarse para reorganizar los resultados de productos en un sistema de comercio electrónico.

The web search results may be refined by applying the search query to a searchable social domain such as website with user provided content such as Flickr, Facebook, Digg, Delicious, and using the search results from the searchable social domain to rerank the web search results.

Además, tenemos lo que podría ser una pequeña algorítmica de cómo se calcula esa reordenación de elementos, que ellos mismos llaman el “Social Relevance”:

For example the social relevance, SR, of a term, t, may be represented by the probability of Pr(SR|t)=Pr(t|SR)*Pr(SR). The social relevance of a term may be calculated for each user u which mentioned term t. The probability of each user’s affinity to the term multiplied by the searcher’s affinity to the user may be represented by prod[Pr(t|SR, u)*Pr(SR, u)], where Pr(t|SR, u) is the term frequency of t for u and Pr(SR, u) is the trust level between u and the searcher, i.e. sim(u, searcher). A social information document vector may be built using this probability on top of an ordinary term frequency*inverse document frequency+normalization as is well-known in the art.

Además de los propios enlaces, también ayudaría a organizar otros factores y elementos como son los vídeos, audios o incluso los propios usuarios (tanto ellos mismos como los contenidos que generan).

Categorías Javier, SEO

Deja un comentario