Cómo detecta Bing el spam

Ayer os contaba sobre el Search Ranger de Bing, el sistema que tiene Microsoft para detectar y contrarrestar el webspam. Pero aunque ya el documento era bastante denso, la información que ofrecía era aún mayor… ¿Y cómo funciona ese sistema antiwebspam?

  1. Un sistema revisa las búsquedas habituales de spam en los resultados de búsqueda.
  2. Se extrae una serie de URL con posibilidad de ser spam, que usan actividades habituales de spammers.
  3. Un sistema recibe las URL de spam confirmadas y se aprende de ellas nuevas combinaciones de palabras spam, sistemas, relación con otras páginas, el dominio…
  4. Se hacen pruebas de búsqueda con el comando LINK: y SITE: de esa página y dominio con las palabras relacionadas.

La mayoría de los spammers buscan ganar dinero (más que el posicionamiento), por lo que las palabras habituales suelen estar relacionadas con temas comerciales. Pero estas consultas suelen tener resultados habituales y establecidos que son difíciles de competir, de forma que se vuelven menos atractivas y se intentan otras combinaciones a la hora de posicionarse.

El sistema de recolección de datos detecta las palabras basura de varias formas:

  • Palabras clave en foros con un anchor-text determinado y/o muy repetido.
  • Palabras separadas por guiones en URL habituales de spam.
  • Palabras clave caras en sistemas de afiliación o plataformas de publicidad y que sean spameables.
  • Quejas de los propios usuarios.
  • Palabras erróneas que o suelen buscar los usuarios pero que van combinadas a otras palabras que sí lo son para los spammers.

Tras detectar infinidad de contenidos basura se han detectado varios sistemas habituales que usan los grandes spammers:

  1. Dominios con redirecciones: Estos sistemas suelen tener páginas puerta que acaban enviando el tráfico a los sitios de destino. También, por norma general, se usa un sistema de marcos (frames) para que no se vea el cambio de URL. De la misma forma que se puede redirigir por marcos a una misma URL o dominio, podemos encontrar páginas que comparten un mismo identificador de usuario de AdSense o un mismo identificador de afiliado de una plataforma concreta. Otra forma para identificar estos dominios será el del comportamiento en las propias páginas. Por ejemplo, llamamos a distintas direcciones URL que cargan una serie de imágenes que, aunque se llamen distintas, tienen un mismo formato, peso e incluso se cargan en el mismo orden.
  2. Lo que el usuario final acaba viendo: Normalmente las distintas páginas comparten una serie similar de direcciones IP.
  3. Información de Whois y agrupación de IP: Dominios que tienen la misma información (o similar) en su Whois y están alojadas en una serie de direcciones IP. Analizando desde donde vienen los enlaces y hacia dónde van.
  4. Consultas LINK:: Pueden ser resultados por similitud en la estructura de la URL o porque una dirección aparece como contenido relacionado de otra consulta anterior relacionada.
  5. Análisis por clic: Como comentaba al principio, vendría a ser el análisis de las páginas de destino a las que apunta una página puerta, aunque las direcciones sean distintas pero comparta un identificador único.

Para verificar que un sitio se confirma como spam se usan varios sistemas de identificación:

  1. Determinar que una página redirige a un nuevo dominio o IP que contiene elementos de spam.
  2. Cuando una consulta LINK: relaciona la dirección con foros (o similares) conocidos por tener un número elevado de textos spam.
  3. Páginas que reaccionan de forma distinta cuando hay o no activado el script o permiten cloacking basado en el navegador.
  4. Cuando hay variaciones entre los resultados de búsqueda dependiendo de si lleva referrer o no.
  5. Cuando la página sólo tiene enlaces de pago que envían tráfico mediante sistemas publicitarios.
  6. Que la página esté alojada en un dominio marcado como spammer.
  7. Cuando se produce un spam informativo, es decir, que la página cargue una serie de imágenes o contenidos de unos tamaños o especificaciones similares o en un orden determinado.

Un sistema de autoprotección de los propios resultados de búsqueda para evitar que se posicionen páginas con contenidos sospechosos, por ejemplo, sería evitando dominios posicionables debido a que todos los enlaces entrantes que tenga vengan de sitios de spam o por la aparición elevada en resultados de búsqueda de contenidos de spam, o la cantidad de URL de spam que tienen en relación a las páginas indexadas del buscador.

En el caso en que un spammer sea capaz de posicionar unas páginas debido a ingeniería inversa del buscador o por un error del sistema, de una forma automática se detectaría este problema analizando las diferentes páginas que han pasado los filtros e incorporándolas al sistema para corregir el procesado de nuevas páginas además de limpiar las páginas actuales.

Un ejemplo del sistema se realizó en base a una serie de 4.803 direcciones URL de spam confirmadas. De esta muestra se pudo sacar una serie de 35.878 foros de los que se extrajeron 1.132.099 anchor-text con un total de 6.026.699 ocurrencias. Estas pruebas se realizaron en Google, Yahoo! (antes de que fuera Bing) y Windows Live (ya que Bing no se había lanzado).

Aunque este sistema es antiguo (se preparó en 2007) la verdad es que deja entrever bastante bien le empeño que Microsoft está haciendo por mejorar los sistemas antispam de los resultados de búsqueda en cosas bastante automáticas (como son los factores externos) y no tanto en la calidad propia de los sitios, algo que vendría a ser lo que Panda está haciendo y que probablemente, en unos meses, comenzaremos a ver en Bing en Estados Unidos, antes de su aterrizaje por Europa y Latino América de forma masiva.

Gestos que te hacen sonreír

Según venía de la oficina, casi llegando a casa en la moto me ha tocado un semáforo en rojo. Por la acera venía una niña de un par de años en brazos de su padre saludando a todo el mundo, pero con cara seria; cuando ha pasado por delante mía le he devuelto el saludo. La niña se ha avergonzado, sonriendo, y se ha escondido tras la cabeza de su padre. Unos pasos más adelante ha vuelto a asomarse y me ha vuelto a saludar, haciendo yo lo mismo. Una sonrisa se dejaba ver detrás del casco. Antes de que se pusiera el semáforo en verde, y ya la niña habiéndole dicho al padre que alguien la saludaba, en marcha, me he despedido de ella. Los niños son grandes.

Search Ranger AntiSpam de Bing

Los sistemas para detectar el web-spam es lo que estos últimos años más de cabeza trae a todos los motores de búsqueda, principalmente Bing y Google que se enfrentan a grandes cantidades de basura que rastrean por la red de redes. Y sin duda Microsoft nos da ciertas pistas de algo que solicitó hace menos de un lustro en lo que a sistemas antispam se refiere, y lo hace a través de una patente con un título un poco complejo: Search ranger system and double-funnel model for search spam analyses and browser protection.

El sistema básicamente describe un proceso de ingeniería inversa relacionado con el abuso sobre los enlaces, de forma que todos aquellos enlaces que se han creado artificialmente sean descubiertos de una forma relativamente sencilla, según algunos patrones. Hay varios procesos analizados… uno de ellos sería similar al siguiente: se realiza una consulta de búsqueda, se analizan las distintas URL de los propios resultados y se visitan. Después se vuelven a visitar las páginas si hacer uso de las URL de los propios resultados de búsqueda (supongo que para evitar el “referrer”) y se comparan los resultados para buscar diferencias. Otro sistema es el de recuperar las distintas páginas de formas distintas y analizar los resultados y la navegación dentro de los sitios. Este sistema se concentra bastante en técnicas de cloaking pero que dependen principalmente de la fuente de procedencia del usuario.

Quizá entre las cosas interesantes de este sistema se habla de verificaciones manuales de estas detecciones, además de un detalle quizá más importante de lo que parece, y es que este sistema afectaría a todo el dominio en caso de detectarse contenido de spam.

Un detalle que me hace gracia, por parte de Microsoft es lo que pone en este párrafo:

As mentioned in the background section, the problem of search spam is not new. Search spam has traditionally been modeled as an information retrieval and relevance ranking problem. For example, conventional search engine ranking techniques that rely on analysis of content of each web page and hyperlinking relationships between pages simply hope that spam pages will naturally have lower ranks and thus appear in search results after all non-spam pages.

Entre líneas podemos leer cómo “ponen a caer de un burro” el sistema del PageRank-Google con eso de que los buscadores convencionales se basan en los contenidos y relaciones de enlaces entre páginas.

Algunas de las técnicas de las que se habla son un poco baratas. Por ejemplo comentan que muchos spammers utilizan contenidos que aparecen en páginas de los primeros resultados de búsqueda y luego les añaden los enlaces que les interesan. Además, que para crear enlaces se generan “link farms” (i.e., large number of websites artificially linking to each other) o enlaces ocultos en sitios clonados, además de campos públicos en blogs, foros…

Otro de los sistemas para detectar spam sería la comparación de páginas entre sí, detectando variaciones en palabras claves e inclusión de elemento como Adsense (sí, habla concretamente de Adsense). La idea es analiza una primera página, compararla con la siguiente y ver si son iguales y cambia, por ejemplo, la palabra Google por Viagra, y además, entre párrafos, se le añaden códigos de publicidad.

Por parte del propio buscador también hay sistemas de autodefensa. Según parece existen las llamadas Spammer-Targeted Keywords (STKs), una serie de consultas de búsqueda que se realizan de forma frecuente a los buscadores y que, gracias a estas, se podría analizar el interés que se tiene por determinados contenidos que, posteriormente, serían analizados con las técnicas que os comentaba.

El sistema Search Ranger (SR) implementaría técnicas para identificar y defenderse de ataques a gran escala, muchos de ellos relacionados entre sí. Este sistema sería eficaz en los tres grandes buscadores tal y como ellos mismos mencionan. Supongo que analizar los resultados de búsqueda de Bing, Google y Yahoo! (antes de que se pasase a Bing) sería una sistemática bastante habitual.

Este sistema lo que intenta es lo siguiente:

By analogy to the physical world, no attempt is made to separate criminals from the innocent majority by lining up billions of people and trying to identify how today’s criminals typically dress themselves. Instead, intelligence gathering identifies problem neighborhoods and places those who are particularly active in those neighborhoods under surveillance. Once under surveillance, the perpetrators may be captured as they conduct criminal acts in the crime scene. Further, the perpetrators may be interrogated to collect more information about their networks. With a network map, upstream and downstream miscreants involved in business transactions with the perpetrators can be hunted down.

Es decir, no se analiza a los individuos (enlaces) por su aspecto, sino que se tiene en cuenta lo que les rodea, analizando los vecindarios para encontrar elementos más detallados y no generalizar. Al fin y al cabo, lo que decía al inicio, se intenta encontrar al responsable y todo lo que éste genera alrededor. Como los patrones no se basan únicamente en redes, se pueden encontrar sitios similares de un mismo autor aunque estén en Sistemas Autónomos independiente (lo que significa que tener IPs de muchas clases no serviría de gran cosa).

Otra forma de analizar sistemas que generan spam es el análisis de tráfico que redirige a sitios de afiliación, es decir, si tienes una dirección URL en un dominio que acaba haciendo una redirección a un sitio de afiliación. Lo que no deja claro es si estos sistemas están pensados para dominios propios que usan los spammers o si se podría hacer uso de herramientas externas de redirección (como los acortadores más conocidos).

The use of redirection is becoming essential to a big part of the search spam business that includes (i) traffic-affiliate spammers that participate directly in affiliate programs of merchant sites (“affiliate model”) and (ii) syndication-based spammers that participate in pay-per-click schemes, advertising syndication programs and display ads-portal pages (“syndication model”). In the affiliate model, the need for spam pages to redirect to their target merchant sites is clear. In the syndication model, many large-scale spammers have moved to the practice of setting up “throw-away” doorway pages on legitimate websites to avoid exposing their own domains to blacklisting by search engines. With respect to such aversion tactics, consider free blog-hosting sites such as blogspot.com and free web-hosting sites such as hometown.aol.com, which are popular among syndication model spammers. Since spammers do not own these exploited servers, the spammers typically use client-side scripts to redirect browsers to fetch ads from redirection domains that the spammers own or otherwise control, as opposed to exploit.

El análisis que se hace de la diferenciación entre los dos grandes tipos de webspam es bastante curioso: Syndication-Based Spammers vs. Traffic-Affiliate Spammers. El primero básicamente lo que genera es un sistema de contenidos de baja calidad que se posiciona, crea un sistema de puertas que acaban enlazando a las páginas de las que se obtiene el beneficio. El segundo es similar, pero se basan en enviar tráfico a sitios de afiliación. La diferencia básica es que el primer caso el usuario acaba pulsando en un anuncio de publicidad y en el segundo acaba llegando al sitio web donde se acaba realizando el proceso.

Quizá, de todo lo que se explica, lo más importante es que el sistema es autónomo, por lo que va analizando la información y, si detecta alguna cosa avisa para que sea revisado, por lo que permite a la gente que lo controla ser reactivo. Además, el sistema aprende de los nuevos métodos y, una vez lo ha aprendido utiliza la información para detectar las nuevas entradas, pero también es retroactivo, es decir, permite que esos nuevos sistemas de detección se apliquen sobre los contenidos que ya están indexados para hacer una nueva limpieza del índice.

Este sistema que presenta Microsoft del que se supone se aplica en Bing sin duda lo veo como la herramienta clave que ha hecho que la calidad de los resultados desde MSN, pasando por Windows Live, haya evolucionado de una forma tan rápida que puede alcanzar a Google en poco tiempo. Y es que Google lleva desde 1997 rastreando información y analizándola, algo que nadie dispone, ya que los índice son relativamente más nuevos, muchos de ellos de 2003-2005, por lo que los sistemas de detección son claves a la hora de alcanzar al gigante de Mountain View. Eso sí, si este ritmo tan elevado de Bing sigue así, en poco tiempo habrá alcanzado a Google en contenidos en idioma inglés y más adelante en otros idiomas, donde ahí sí que Google parece llevar bastante más ventaja.

V de Vendetta

Lo sé, lo siento, no tengo perdón, pero aunque veo muchas series, lo del cine lo llevo peor, y aunque hace años que debería haber visto V for Vendetta hasta hoy no había tenido la oportunidad de verla. Lo que si que he de decir es que quién no la haya visto, ya está tardando, porque las 2 horas que dura lo merecen. Y es que el papel Natalie Portman (como Evey) y el de Hugo Weaving (como V, y aunque no se le vea en ningún momento) no tienen desperdicio. Aunque, por supuesto, lo que realmente hay que mirar es el fondo de todo y no quedarnos en el simple film.

Poco tengo que decir sobre la película en sí, al menos sobre la historia, ya que para eso están las fuentes de información habituales. Pero sí que deberíamos encontrar el punto de Guy Fawkes, mundialmente conocido por una máscara que representa su rostro.

Hay varias frases de la película que me gustaría remarcar por la certeza de lo que vivimos hoy en día:

  • Mi padre solía decir que los artistas mienten para decir la verdad mientras que los políticos mienten para ocultarla.
  • No cuestiono tu capacidad de observación, simplemente señalo lo paradójico que es preguntarle a un hombre enmascarado quién es.
  • ¿Es lo que crees en realidad? ¿O es lo que ellos quieren que creas?
  • El pueblo no debería temer a sus gobernantes, los gobernantes deberían temer al pueblo.
  • Los símbolos tienen el valor que les da la gente, por sí solo un símbolo no significa nada.
  • El pasado es historia, el futuro un misterio, el hoy es un regalo, por eso se le llama presente.
  • Y la más importante para mi (los que me conocen saben porqué): A que yo, al igual que Dios, ni juego al azar ni creo en la casualidad.

Hoy en día el mundo está distraído. El ser humano es el único animal que tropieza varias veces con la misma piedra, y creo que aunque el pasado nos ha enseñado mucha historia, ahora que vivimos en un mundo de sobre información, cuando vamos a hacer algo no tenemos presentes ni los aciertos o errores del pasado ni pensamos en las consecuencias que puede tener en el futuro. Está claro que ahora es el momento de actuar, y que cada uno mirará para sí mismo, es algo que llevamos dentro y que aunque eso de compartir está bien, y es algo que debemos hacer (porque lo mismo que el mundo se porta bien con nosotros, hemos de aplicar la ley de Newton que dice que toda acción tiene una reacción).

Y hasta aquí las pequeñas reflexiones absurdas que puede tener uno tras ver una película como esta… así que con esto os lo digo tó y no os digo ná.

PagedNoindex WordPress Plugin

Uno de los problemas que me encuentro con el All in One SEO Pack es que no permite que las paginaciones no se indexen, algo que puede generar ciertos problemas y que, personalmente no me gusta que haga.

Para solventar esto he creado un pequeño plugin para WordPress que detecta si es una pagina paginada y añade un meta-robots-noindex de forma que esa página no aparecerá en los motores de búsqueda como Bing o Google.

Tan sólo hay que subirlo y activarlo, ya que no requiere de ningún tipo de configuración ni nada parecido.

Puedes descargar el plugin desde aquí: PagedNoindex WordPress Plugin (versión 1.0 – 20110624).

Social Share Button WordPress Plugin

En muchas ocasiones he querido tener mi propio sistema para compartir en Twitter, Google PlusOne y Facebook, pero ninguna herramienta me daba exactamente lo que yo quería… así que me he montado este plugin para WordPress llamado Social Share Button.

Este sistema básicamente añade el botón de compartir en twitter (con el contador) el sistema de votación propio de Google (el Google +1 o Google PlusOne) y finalmente el botón de compartir en Facebook a través del famoso Me Gusta.

Este plugin incorpora un fichero de configuración que hay que editar antes de subirlo en el que se indican algunos elementos:

  • $social_lugar: Indicando 0 o 1 podemos hacer que el bloque aparezca encima o debajo del contenido.
  • $social_ancho: Es el ancho (en píxeles) de la columna donde está el contenido (entrada o página).
  • $social_idioma: El idioma en 2 letras ISO. Por ejemplo: es.
  • $social_fbidioma: El idioma en 4 letras (idioma_país). Por ejemplo: es_ES.
  • $social_twitter: Tu usuario de Twitter.
  • $social_fbancho: En principio no hace falta tocarlo, pero es el ancho de la parte de Facebook.
  • $social_fbsend: Si quieres que aparezca el botón “Enviar” de Facebook.
  • $social_fbcaras: Si quieres que aparezcan las caras de aquellos que han votado.
  • $social_fblike: Si quieres que aparezca el texto “Me gusta” o “Recomendar”.

NOTA: Si vas a activar este plugin, es muy recomendable que tengas activado el OpenGraphProtocol WordPress Plugin.

Puedes descargar el plugin desde aquí: Social Share Button WordPress Plugin (versión 1.0 – 20110624).

OpenGraphProtocol WordPress Plugin

El Open Graph Protocol es un sistema de meta-etiquetas que permite, de forma abierta, que algunos robots como por ejemplo los de Facebook) puedan recopilar información de tu página de una forma sencilla y así mostrar la información relevante en sus resultados. El ejemplo más claro sería el de compartir una URL en Facebook, que cuando lo haces te aparece un título, descripción e imagen (o te deja elegir).

Este plugin para WordPress básicamente lo que hace es crear esas meta-etiquetas de forma automática y tampoco es que permita ningún tipo de configuración. Simplemente lo subes, lo activas y hará su trabajo.

El sistema activa los datos de página y URL para todo el dominio, el tipo, la imagen (si es una imagen destacada, tomará esa, sino intentará encontrar la primera de la entrada y sino no elegirá ninguna) y lo mismo con la descripción.

Puedes descargar el plugin desde aquí: OpenGraphProtocol WordPress Plugin (versión 1.0 – 20110624).

Google y tu reputación digital

Aunque he hablado varias veces sobre reputación digital en vistas a que ahora parece que con lo del Google Me on the Web a todos les ha dado por revisar sus cosas, me gustaría explicar de una forma más sencilla qué herramientas existen para eliminar información privada que podemos encontrar por la red y que no hayamos ofrecido directamente.

Esta lista de herramientas son algunas páginas de ayuda que he ido recopilando en alguna ocasión por alguna razón y que me gustaría compartir con vosotros por si os fuera de utilidad.

Para empezar Google tiene una página en la que se explica bastante claro cómo evitar que aparezca información personal en Google. Esta página sin duda es el inicio y la referencia, y recomiendo 8aunque es algo extensa, leerla para tener presente, entre otras cosas, qué considera el propio Google qué es información personal y qué no. Lo que más me gusta es que pongan la frase: piénsatelo dos veces antes de publicar información personal en Internet. Fundamental; si no quieres que algo se sepa, lo mejor es no publicarlo en ningún sitio, por mucha privacidad que tenga el sitio.

Lo siguiente a tener en cuenta es que, antes de solicitar a Google que se elimine algún tipo de contenido lo que has de hacer es solicitar al sitio donde se alija el mismo que lo retiren. En España tenemos leyes bastante potentes (si se utilizan bien) como la LOPD que nos protegen de muchas cosas en caso de que las empresas no eliminen los datos personales que se encuentran en sus sitios. De esta misma forma, toda empresa que opere en España ha de cumplir la LSSI por lo que es de obligado cumplimiento que todos los sitios tengan los datos de contacto disponibles de una forma sencilla.

Google nos da ciertos consejos para ponernos en contacto con el webmaster de un sitio. Como decía, si no consigues que te hagan caso siempre puedes recurrir a la vía legal con la LSSI y la LOPD. Mi recomendación es que antes de ir al juez vayas a un notario y certifique una “captura de pantalla y URL” de dónde se encuentra la información personal que hay que eliminar. Con eso cuando vayas a poner la denuncia tendrás casi todo ganado.

Si consigues que eliminen los datos de la página y no se muestren, puedes forzar a que Google actualice alguna página en concreto yendo a la herramienta de solicitud de eliminación de contenidos.

El siguiente punto es en el que aparece información personal/privada en alguna de las herramientas que Google tiene. Para ello tiene cuatro casos especiales:

Estos son casos extremos y Google se toma muy en serio estas situaciones… pero a parte de estos casos podemos encontrarnos con alguna otra situación en alguno de los otros servicios. Para ello existe un sistema de formularios más general. En estos casos puedes solicitar, por ejemplo, que sitios que usan Adsense y roban tus contenidos sean avisados (para que les cierren la cuenta), de la misma forma que podría pasar en Adwords, Blogger, Android, GMail… Hay algún caso especial, como es el de los resultados de búsqueda de Google (tanto de imágenes como web) donde se puede reportar imágenes de abuso a menores o derechos de marca que una empresa esté haciendo sobre las tuyas. Eso sí, un caso aparte es el que encontramos en Youtube, donde podemos avisar desde bullying, abusos sexuales, acoso online, suplantación de identidad…

Desde 2008 he comentado en alguna ocasión algunos ejemplos y herramientas que tener siempre presente cuando se habla de reputación digital, e incluso, ya de forma más SEO, un capítulo sobre Search Engine Reputation Management (SERM).

Estáticos para WordPress

La verdad es que WordPress es un gran CMS y, sobre todo, muy extensible y configurable. En esta ocasión me gustaría enlazar una entrada que publiqué hace ya un tiempo en el que hablaba de los dominios sin cookies con la posibilidad de configurar WordPress para tener las imágenes separadas del dominio principal.

El objetivo de este sistema básicamente es separar lo que es la propia web de los contenidos estáticos que se pueden separar. En principio se podrían separar hasta los diseños (JS, CSS…) pero suele ser algo más complejo. Para empezar la idea es separar los contenidos que subimos a través del panel y que suelen estar en la carpeta /wp-content/uploads/.

Para comenzar lo que debemos tener es un dominio configurado para estáticos. En mi caso he usado el dominio javiercasares.com para el sitio web y el dominio javiercasares.net para los estáticos. Este dominio principalmente debe tener 2 cosas: ETag y Cookieless.

Lo primero que hemos de hacer es apuntar los contenidos al nuevo dominio. Para ello iremos a la opción Ajustes -> Multimedia y en la parte inferior tenemos las direcciones donde se almacenan los archivos. Los campos son los siguientes:

  • Guardar los archivos subidos en esta carpeta: Aquí deberemos poner la dirección completa donde se subirán los ficheros. Por ejemplo /home/estatico/uploads
  • Ruta URL completa a los archivos: Es la URL pública. Por ejemplo:

Con esto conseguimos que a partir de este momento todos los ficheros que subamos se almacenen en esa ruta del servidor y que la URL pública sea esa.

Pero claro… ¿qué ocurre si ya teníamos un sitio web funcionando? Pues que una vez tengamos el dominio para estáticos configurado debemos hacer algunos pasos previos. El primero de ellos es copiar todos los ficheros de la antigua carpeta wp-content/uploads a la nueva carpeta. Al final del proceso, si queremos, podremos borrar los archivos originales, ya que no se volverán a utilizar.

El siguiente paso es el de actualizar todos los contenidos existentes en la base de datos. Hay que actualizar todos aquellos sitios en los que aún se llama a las direcciones URL / contenidos antiguos para que apunten a los nuevos. Para ello deberemos ejecutar las siguientes consultas en la base de datos:

UPDATE wp_posts SET post_content = REPLACE (post_content, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_posts SET guid = REPLACE (guid, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_postmeta SET meta_value = REPLACE (meta_value, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_commentmeta SET meta_value = REPLACE (meta_value, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_comments SET comment_content = REPLACE (comment_content, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_options SET option_value = REPLACE (option_value, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');

La primera línea sustituye las direcciones en los contenidos (entradas y páginas), el segundo actualiza las direcciones de los adjuntos, el tercero si tenemos alguna imagen en los metadatos de las entradas, la cuarta y quinta es para los comentarios y la sexta hace referencia a las opciones del propio WordPress (por ejemplo para cabeceras o ficheros estándar que tengamos).

Con esto conseguiremos aumentar la velocidad de carga del sitio web hecho con WordPress además de permitir que el cacheo de las imágenes se haga de forma correcta si utilizas algún tipo de proxy-caché en algún sitio, ya que evitas tener Cookies y le añades los ETag que harán que se guarde la información completamente.

Si alguien necesita una optimización del rendimiento de su sitio web, desde Keep It Simple Lab ofrecermos un servicio de consultoría de WPO con el que podrá mejorar la velocidad de carga de su sitio (ya sea WordPress u otro sistema), aumentar la velocidad y reducir los recursos que se consumen.

Yahoo! se queda con el “buscador social”

¿Quién es el dueño de las búsquedas sociales? Pues Yahoo! o al menos eso parece tras la concesión de la patente System and method for ranking search results using social information en la que básicamente se detalla lo que serían los factores que se pueden tener en cuenta de sitios sociales para generar o mejorar los resultados de búsqueda de un buscador.

An improved system and method for ranking search results using social information is provided. A social information ranking engine may be provided to rerank a list of URLs of web pages in search results from a search engine using social information. To do so, the search query may be applied to a social information domain and a second list of references to web pages may be obtained as search results. A dimensional vector of users with the plurality of terms may be constructed using search results from social information domain, and a similarity measure may be computed between the references to web pages obtained from search results by the search engine and the references to web pages obtained from search results by the social information ranking engine. The score from the similarity measure may then be used to rerank the list of references to web pages.

Esta descripción, aunque es clara, viene a decir:

Un sistema mejorado y método de clasificación de resultados de búsqueda que incorpora la información social. La información social puede ser utilizada para reorganizar los resultados de búsqueda de un motor de búsqueda con información social. Para ello, a la consulta de búsqueda se le puede aplicar la información social de un sitio y obtener una segunda lista de resultados. Un vector dimensional de los usuarios con la pluralidad de los términos puede ser construido con los resultados de búsqueda del dominio social, y una medida de similitud puede ser calculada entre las referencias a páginas web obtenidas a partir de los resultados de búsqueda por el motor de búsqueda y las referencias a páginas web obtenidas de los resultados de búsqueda por el motor de información de clasificación social. La calificación de la medida de similitud puede entonces ser utilizada para reorganizar la lista de resultados de búsqueda.

Esta patente básicamente hace eso, lo que reclama es que tras la consulta de búsqueda de un usuario, que debería devolver una lista de resultados, estos lleven aplicados ciertos cambios que se basarán en la información social recopilada de otras fuentes, de forma que los resultados cambien. Estos cambios generarán una serie de cambios en base a muchas consultas de muchos usuarios. La información se extraería de diferentes sitios que incluyen referencias a distintas direcciones URL, que, además de dar peso a las direcciones URL, daría peso a los conceptos principales de los contenidos que hay en dichas direcciones URL.

El documento hace un comentario muy interesante (que indirectamente afecta al PageRank y al TrustRank) y es que cada vez es más complejo tener fuentes fiables de información. Lo interesante es que el usuario podría ofrecer información desde la que extraer la información social para poder mejorar los resultados. Esto básicamente significaría que se usan dos sistemas de mejora: por un lado la información “general” que podría proporcionar Twitter o Facebook, y por otro lado la información “personal” que puedes ofrecer tú mismo sincronizando tu cuenta de Twitter o Facebook con la del buscador (algo que ya hace Google con su PluesOne, que muestra información que han compartido tus amigos o seguidos).

La forma de rehacer la lista de resultados vendría a ser por similitud, lo que daría, al parecer, peso principal a los N resultados de búsqueda, pero que de esos resultados que “ya aparecen” y que también tengan importancia en los medios sociales, tendrían un peso mayor, lo que implicaría hacerlos subir N puestos en los resultados de búsqueda. Además, también se comenta que estos resultados (o tecnología) podría utilizarse para reorganizar los resultados de productos en un sistema de comercio electrónico.

The web search results may be refined by applying the search query to a searchable social domain such as website with user provided content such as Flickr, Facebook, Digg, Delicious, and using the search results from the searchable social domain to rerank the web search results.

Además, tenemos lo que podría ser una pequeña algorítmica de cómo se calcula esa reordenación de elementos, que ellos mismos llaman el “Social Relevance”:

For example the social relevance, SR, of a term, t, may be represented by the probability of Pr(SR|t)=Pr(t|SR)*Pr(SR). The social relevance of a term may be calculated for each user u which mentioned term t. The probability of each user’s affinity to the term multiplied by the searcher’s affinity to the user may be represented by prod[Pr(t|SR, u)*Pr(SR, u)], where Pr(t|SR, u) is the term frequency of t for u and Pr(SR, u) is the trust level between u and the searcher, i.e. sim(u, searcher). A social information document vector may be built using this probability on top of an ordinary term frequency*inverse document frequency+normalization as is well-known in the art.

Además de los propios enlaces, también ayudaría a organizar otros factores y elementos como son los vídeos, audios o incluso los propios usuarios (tanto ellos mismos como los contenidos que generan).