Detección de granjas de enlaces

·

Sin duda en SEO uno de los grandes problemas que tienen los buscadores es lidiar con aquellos que quieren hacer trampa y jugar con el PageRank. Pero el PageRank de Google (que al final es un estándar de facto en el resto de motores) se puede usar ligeramente como sistema antispam y sobre todo puede ayudar a detectar incoherencias en cuanto a grafos. En el caso de los buscadores existe el llamado web-graph, que es «el momento» en el que todas las webs y enlaces se pueden tomar en un momento determinado, como si hiciéramos una foto de Internet. Pues Yahoo! (una vez más) ha creado un sistema llamado Methods and apparatus for computing graph similarity via sequence similarity con el que pretende encontrar incongruencias, ramas duplicadas del web-graph y cualquier punto que alerte de «fallos» en sistema.

Web graphs are approximate snapshots of the web, created by search engines. The evolution of the web can be monitored via monitoring web graphs. Web graphs also enable global web properties such as GOOGLE’S PAGERANK to be computed where PAGERANK is a score assigned to a web page based on the importance of that web page. The importance of a web page is determined by the importance of the other web pages that hyperlink to the web page. Monitoring web graphs also provides a means to monitor the effectiveness of search engines and web crawlers or web spiders.

Web graphs are composed of nodes connected by edges. Nodes represent web pages and can be associated with one or more properties for the node’s web page such as PAGERANK, domain level quality, and scores relating to spam, and the level of adult content among others. Edges represent the hyperlinks between web pages and can be associated with one or more properties such as the PAGERANK of the web page from which an edge originates.

El objetivo, como decía, es encontrar anomalías en el grafo. Para ello se van creando tokens de distintos bloques del grafo que luego permitan compararse con otros tokens de otras partes del grafo y buscar similitudes. Es bastante similar al sistema que usa Google para detectar contenidos duplicados. Además, se pueden tomar de referencia varios web-graph de disferentes momentos y comparralos, de forma que también se pueden encontra de una forma sencilla los crecimientos de los sitios y sus variaciones.

Además, gracias a este sistema también se puede llegar a detectar cuál de todos los contenidos (en este caso, que parte de los grafos) se han publicado antes, y así poder buscar duplicaciones e historizarlas, algo que en algunos casos puede fallar, pero que en general los propios buscadores son capaces de detectar.

A search engine generally has an online and offline system. The online group processes user queries in real time and returns search results. The offline system 510 collects content from web pages 550, 552, 554 and prepares it for the online group. In the illustrated embodiment, the offline group 510 comprises three modules: the crawler module 512, the indexer module 516, and the web graph module 514. The crawler module can comprise or instruct a web crawler to crawl the web and gather web pages and data via a network 530. The web graph module 514 creates web graphs from the web pages and from the data that the crawler collects. The web graph module 514 monitors similarity between web graphs by selecting a first and second web graph and computing the similarity between the first and second web graph. In response to finding one or more anomalous web graphs the web graph module 514 carries out operations to remove anomalies and modify parameters governing web mapping. The indexer module 516 indexes web pages using their content as retrieved by the web crawler. The indexer module 516 can also use the similarity as determined by the web graph module 516 to index web pages.

Comments

5 respuestas a «Detección de granjas de enlaces»

  1. Avatar de Ricardolau

    Hola:
    Me gustaría saber si es a mi solo el que le esta pasando o hay alguien más que se dio cuenta.
    En principio pensé que google me penalizará porque pagina que tenía PR 3 hace unos días, ahora tienen 0, pero el caso es que me puse a buscar resultados de otras webs, y webs que son importantes, como periodicos prestigio, meneame.net… y muchas más y el resultado es PR0
    Busque más medidores on-line y los que encontré todos dan el resultado 0,,, sabes que esta pasando…
    Un saludo

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *