Cómo detecta Bing el spam

Ayer os contaba sobre el Search Ranger de Bing, el sistema que tiene Microsoft para detectar y contrarrestar el webspam. Pero aunque ya el documento era bastante denso, la información que ofrecía era aún mayor… ¿Y cómo funciona ese sistema antiwebspam?

  1. Un sistema revisa las búsquedas habituales de spam en los resultados de búsqueda.
  2. Se extrae una serie de URL con posibilidad de ser spam, que usan actividades habituales de spammers.
  3. Un sistema recibe las URL de spam confirmadas y se aprende de ellas nuevas combinaciones de palabras spam, sistemas, relación con otras páginas, el dominio…
  4. Se hacen pruebas de búsqueda con el comando LINK: y SITE: de esa página y dominio con las palabras relacionadas.

La mayoría de los spammers buscan ganar dinero (más que el posicionamiento), por lo que las palabras habituales suelen estar relacionadas con temas comerciales. Pero estas consultas suelen tener resultados habituales y establecidos que son difíciles de competir, de forma que se vuelven menos atractivas y se intentan otras combinaciones a la hora de posicionarse.

El sistema de recolección de datos detecta las palabras basura de varias formas:

  • Palabras clave en foros con un anchor-text determinado y/o muy repetido.
  • Palabras separadas por guiones en URL habituales de spam.
  • Palabras clave caras en sistemas de afiliación o plataformas de publicidad y que sean spameables.
  • Quejas de los propios usuarios.
  • Palabras erróneas que o suelen buscar los usuarios pero que van combinadas a otras palabras que sí lo son para los spammers.

Tras detectar infinidad de contenidos basura se han detectado varios sistemas habituales que usan los grandes spammers:

  1. Dominios con redirecciones: Estos sistemas suelen tener páginas puerta que acaban enviando el tráfico a los sitios de destino. También, por norma general, se usa un sistema de marcos (frames) para que no se vea el cambio de URL. De la misma forma que se puede redirigir por marcos a una misma URL o dominio, podemos encontrar páginas que comparten un mismo identificador de usuario de AdSense o un mismo identificador de afiliado de una plataforma concreta. Otra forma para identificar estos dominios será el del comportamiento en las propias páginas. Por ejemplo, llamamos a distintas direcciones URL que cargan una serie de imágenes que, aunque se llamen distintas, tienen un mismo formato, peso e incluso se cargan en el mismo orden.
  2. Lo que el usuario final acaba viendo: Normalmente las distintas páginas comparten una serie similar de direcciones IP.
  3. Información de Whois y agrupación de IP: Dominios que tienen la misma información (o similar) en su Whois y están alojadas en una serie de direcciones IP. Analizando desde donde vienen los enlaces y hacia dónde van.
  4. Consultas LINK:: Pueden ser resultados por similitud en la estructura de la URL o porque una dirección aparece como contenido relacionado de otra consulta anterior relacionada.
  5. Análisis por clic: Como comentaba al principio, vendría a ser el análisis de las páginas de destino a las que apunta una página puerta, aunque las direcciones sean distintas pero comparta un identificador único.

Para verificar que un sitio se confirma como spam se usan varios sistemas de identificación:

  1. Determinar que una página redirige a un nuevo dominio o IP que contiene elementos de spam.
  2. Cuando una consulta LINK: relaciona la dirección con foros (o similares) conocidos por tener un número elevado de textos spam.
  3. Páginas que reaccionan de forma distinta cuando hay o no activado el script o permiten cloacking basado en el navegador.
  4. Cuando hay variaciones entre los resultados de búsqueda dependiendo de si lleva referrer o no.
  5. Cuando la página sólo tiene enlaces de pago que envían tráfico mediante sistemas publicitarios.
  6. Que la página esté alojada en un dominio marcado como spammer.
  7. Cuando se produce un spam informativo, es decir, que la página cargue una serie de imágenes o contenidos de unos tamaños o especificaciones similares o en un orden determinado.

Un sistema de autoprotección de los propios resultados de búsqueda para evitar que se posicionen páginas con contenidos sospechosos, por ejemplo, sería evitando dominios posicionables debido a que todos los enlaces entrantes que tenga vengan de sitios de spam o por la aparición elevada en resultados de búsqueda de contenidos de spam, o la cantidad de URL de spam que tienen en relación a las páginas indexadas del buscador.

En el caso en que un spammer sea capaz de posicionar unas páginas debido a ingeniería inversa del buscador o por un error del sistema, de una forma automática se detectaría este problema analizando las diferentes páginas que han pasado los filtros e incorporándolas al sistema para corregir el procesado de nuevas páginas además de limpiar las páginas actuales.

Un ejemplo del sistema se realizó en base a una serie de 4.803 direcciones URL de spam confirmadas. De esta muestra se pudo sacar una serie de 35.878 foros de los que se extrajeron 1.132.099 anchor-text con un total de 6.026.699 ocurrencias. Estas pruebas se realizaron en Google, Yahoo! (antes de que fuera Bing) y Windows Live (ya que Bing no se había lanzado).

Aunque este sistema es antiguo (se preparó en 2007) la verdad es que deja entrever bastante bien le empeño que Microsoft está haciendo por mejorar los sistemas antispam de los resultados de búsqueda en cosas bastante automáticas (como son los factores externos) y no tanto en la calidad propia de los sitios, algo que vendría a ser lo que Panda está haciendo y que probablemente, en unos meses, comenzaremos a ver en Bing en Estados Unidos, antes de su aterrizaje por Europa y Latino América de forma masiva.

Gestos que te hacen sonreír

Según venía de la oficina, casi llegando a casa en la moto me ha tocado un semáforo en rojo. Por la acera venía una niña de un par de años en brazos de su padre saludando a todo el mundo, pero con cara seria; cuando ha pasado por delante mía le he devuelto el saludo. La niña se ha avergonzado, sonriendo, y se ha escondido tras la cabeza de su padre. Unos pasos más adelante ha vuelto a asomarse y me ha vuelto a saludar, haciendo yo lo mismo. Una sonrisa se dejaba ver detrás del casco. Antes de que se pusiera el semáforo en verde, y ya la niña habiéndole dicho al padre que alguien la saludaba, en marcha, me he despedido de ella. Los niños son grandes.

Search Ranger AntiSpam de Bing

Los sistemas para detectar el web-spam es lo que estos últimos años más de cabeza trae a todos los motores de búsqueda, principalmente Bing y Google que se enfrentan a grandes cantidades de basura que rastrean por la red de redes. Y sin duda Microsoft nos da ciertas pistas de algo que solicitó hace menos de un lustro en lo que a sistemas antispam se refiere, y lo hace a través de una patente con un título un poco complejo: Search ranger system and double-funnel model for search spam analyses and browser protection.

El sistema básicamente describe un proceso de ingeniería inversa relacionado con el abuso sobre los enlaces, de forma que todos aquellos enlaces que se han creado artificialmente sean descubiertos de una forma relativamente sencilla, según algunos patrones. Hay varios procesos analizados… uno de ellos sería similar al siguiente: se realiza una consulta de búsqueda, se analizan las distintas URL de los propios resultados y se visitan. Después se vuelven a visitar las páginas si hacer uso de las URL de los propios resultados de búsqueda (supongo que para evitar el “referrer”) y se comparan los resultados para buscar diferencias. Otro sistema es el de recuperar las distintas páginas de formas distintas y analizar los resultados y la navegación dentro de los sitios. Este sistema se concentra bastante en técnicas de cloaking pero que dependen principalmente de la fuente de procedencia del usuario.

Quizá entre las cosas interesantes de este sistema se habla de verificaciones manuales de estas detecciones, además de un detalle quizá más importante de lo que parece, y es que este sistema afectaría a todo el dominio en caso de detectarse contenido de spam.

Un detalle que me hace gracia, por parte de Microsoft es lo que pone en este párrafo:

As mentioned in the background section, the problem of search spam is not new. Search spam has traditionally been modeled as an information retrieval and relevance ranking problem. For example, conventional search engine ranking techniques that rely on analysis of content of each web page and hyperlinking relationships between pages simply hope that spam pages will naturally have lower ranks and thus appear in search results after all non-spam pages.

Entre líneas podemos leer cómo “ponen a caer de un burro” el sistema del PageRank-Google con eso de que los buscadores convencionales se basan en los contenidos y relaciones de enlaces entre páginas.

Algunas de las técnicas de las que se habla son un poco baratas. Por ejemplo comentan que muchos spammers utilizan contenidos que aparecen en páginas de los primeros resultados de búsqueda y luego les añaden los enlaces que les interesan. Además, que para crear enlaces se generan“link farms” (i.e., large number of websites artificially linking to each other) o enlaces ocultos en sitios clonados, además de campos públicos en blogs, foros…

Otro de los sistemas para detectar spam sería la comparación de páginas entre sí, detectando variaciones en palabras claves e inclusión de elemento como Adsense (sí, habla concretamente de Adsense). La idea es analiza una primera página, compararla con la siguiente y ver si son iguales y cambia, por ejemplo, la palabra Google por Viagra, y además, entre párrafos, se le añaden códigos de publicidad.

Por parte del propio buscador también hay sistemas de autodefensa. Según parece existen las llamadas Spammer-Targeted Keywords (STKs), una serie de consultas de búsqueda que se realizan de forma frecuente a los buscadores y que, gracias a estas, se podría analizar el interés que se tiene por determinados contenidos que, posteriormente, serían analizados con las técnicas que os comentaba.

El sistema Search Ranger (SR) implementaría técnicas para identificar y defenderse de ataques a gran escala, muchos de ellos relacionados entre sí. Este sistema sería eficaz en los tres grandes buscadores tal y como ellos mismos mencionan. Supongo que analizar los resultados de búsqueda de Bing, Google y Yahoo! (antes de que se pasase a Bing) sería una sistemática bastante habitual.

Este sistema lo que intenta es lo siguiente:

By analogy to the physical world, no attempt is made to separate criminals from the innocent majority by lining up billions of people and trying to identify how today’s criminals typically dress themselves. Instead, intelligence gathering identifies problem neighborhoods and places those who are particularly active in those neighborhoods under surveillance. Once under surveillance, the perpetrators may be captured as they conduct criminal acts in the crime scene. Further, the perpetrators may be interrogated to collect more information about their networks. With a network map, upstream and downstream miscreants involved in business transactions with the perpetrators can be hunted down.

Es decir, no se analiza a los individuos (enlaces) por su aspecto, sino que se tiene en cuenta lo que les rodea, analizando los vecindarios para encontrar elementos más detallados y no generalizar. Al fin y al cabo, lo que decía al inicio, se intenta encontrar al responsable y todo lo que éste genera alrededor. Como los patrones no se basan únicamente en redes, se pueden encontrar sitios similares de un mismo autor aunque estén en Sistemas Autónomos independiente (lo que significa que tener IPs de muchas clases no serviría de gran cosa).

Otra forma de analizar sistemas que generan spam es el análisis de tráfico que redirige a sitios de afiliación, es decir, si tienes una dirección URL en un dominio que acaba haciendo una redirección a un sitio de afiliación. Lo que no deja claro es si estos sistemas están pensados para dominios propios que usan los spammers o si se podría hacer uso de herramientas externas de redirección (como los acortadores más conocidos).

The use of redirection is becoming essential to a big part of the search spam business that includes (i) traffic-affiliate spammers that participate directly in affiliate programs of merchant sites (“affiliate model”) and (ii) syndication-based spammers that participate in pay-per-click schemes, advertising syndication programs and display ads-portal pages (“syndication model”). In the affiliate model, the need for spam pages to redirect to their target merchant sites is clear. In the syndication model, many large-scale spammers have moved to the practice of setting up “throw-away” doorway pages on legitimate websites to avoid exposing their own domains to blacklisting by search engines. With respect to such aversion tactics, consider free blog-hosting sites such as blogspot.com and free web-hosting sites such as hometown.aol.com, which are popular among syndication model spammers. Since spammers do not own these exploited servers, the spammers typically use client-side scripts to redirect browsers to fetch ads from redirection domains that the spammers own or otherwise control, as opposed to exploit.

El análisis que se hace de la diferenciación entre los dos grandes tipos de webspam es bastante curioso: Syndication-Based Spammers vs. Traffic-Affiliate Spammers. El primero básicamente lo que genera es un sistema de contenidos de baja calidad que se posiciona, crea un sistema de puertas que acaban enlazando a las páginas de las que se obtiene el beneficio. El segundo es similar, pero se basan en enviar tráfico a sitios de afiliación. La diferencia básica es que el primer caso el usuario acaba pulsando en un anuncio de publicidad y en el segundo acaba llegando al sitio web donde se acaba realizando el proceso.

Quizá, de todo lo que se explica, lo más importante es que el sistema es autónomo, por lo que va analizando la información y, si detecta alguna cosa avisa para que sea revisado, por lo que permite a la gente que lo controla ser reactivo. Además, el sistema aprende de los nuevos métodos y, una vez lo ha aprendido utiliza la información para detectar las nuevas entradas, pero también es retroactivo, es decir, permite que esos nuevos sistemas de detección se apliquen sobre los contenidos que ya están indexados para hacer una nueva limpieza del índice.

Este sistema que presenta Microsoft del que se supone se aplica en Bing sin duda lo veo como la herramienta clave que ha hecho que la calidad de los resultados desde MSN, pasando por Windows Live, haya evolucionado de una forma tan rápida que puede alcanzar a Google en poco tiempo. Y es que Google lleva desde 1997 rastreando información y analizándola, algo que nadie dispone, ya que los índice son relativamente más nuevos, muchos de ellos de 2003-2005, por lo que los sistemas de detección son claves a la hora de alcanzar al gigante de Mountain View. Eso sí, si este ritmo tan elevado de Bing sigue así, en poco tiempo habrá alcanzado a Google en contenidos en idioma inglés y más adelante en otros idiomas, donde ahí sí que Google parece llevar bastante más ventaja.

V de Vendetta

Lo sé, lo siento, no tengo perdón, pero aunque veo muchas series, lo del cine lo llevo peor, y aunque hace años que debería haber visto V for Vendetta hasta hoy no había tenido la oportunidad de verla. Lo que si que he de decir es que quién no la haya visto, ya está tardando, porque las 2 horas que dura lo merecen. Y es que el papel Natalie Portman (como Evey) y el de Hugo Weaving (como V, y aunque no se le vea en ningún momento) no tienen desperdicio. Aunque, por supuesto, lo que realmente hay que mirar es el fondo de todo y no quedarnos en el simple film.

Poco tengo que decir sobre la película en sí, al menos sobre la historia, ya que para eso están las fuentes de información habituales. Pero sí que deberíamos encontrar el punto de Guy Fawkes, mundialmente conocido por una máscara que representa su rostro.

Hay varias frases de la película que me gustaría remarcar por la certeza de lo que vivimos hoy en día:

  • Mi padre solía decir que los artistas mienten para decir la verdad mientras que los políticos mienten para ocultarla.
  • No cuestiono tu capacidad de observación, simplemente señalo lo paradójico que es preguntarle a un hombre enmascarado quién es.
  • ¿Es lo que crees en realidad? ¿O es lo que ellos quieren que creas?
  • El pueblo no debería temer a sus gobernantes, los gobernantes deberían temer al pueblo.
  • Los símbolos tienen el valor que les da la gente, por sí solo un símbolo no significa nada.
  • El pasado es historia, el futuro un misterio, el hoy es un regalo, por eso se le llama presente.
  • Y la más importante para mi (los que me conocen saben porqué): A que yo, al igual que Dios, ni juego al azar ni creo en la casualidad.

Hoy en día el mundo está distraído. El ser humano es el único animal que tropieza varias veces con la misma piedra, y creo que aunque el pasado nos ha enseñado mucha historia, ahora que vivimos en un mundo de sobre información, cuando vamos a hacer algo no tenemos presentes ni los aciertos o errores del pasado ni pensamos en las consecuencias que puede tener en el futuro. Está claro que ahora es el momento de actuar, y que cada uno mirará para sí mismo, es algo que llevamos dentro y que aunque eso de compartir está bien, y es algo que debemos hacer (porque lo mismo que el mundo se porta bien con nosotros, hemos de aplicar la ley de Newton que dice que toda acción tiene una reacción).

Y hasta aquí las pequeñas reflexiones absurdas que puede tener uno tras ver una película como esta… así que con esto os lo digo tó y no os digo ná.

PagedNoindex WordPress Plugin

Uno de los problemas que me encuentro con el All in One SEO Pack es que no permite que las paginaciones no se indexen, algo que puede generar ciertos problemas y que, personalmente no me gusta que haga.

Para solventar esto he creado un pequeño plugin para WordPress que detecta si es una pagina paginada y añade un meta-robots-noindex de forma que esa página no aparecerá en los motores de búsqueda como Bing o Google.

Tan sólo hay que subirlo y activarlo, ya que no requiere de ningún tipo de configuración ni nada parecido.

Puedes descargar el plugin desde aquí: PagedNoindex WordPress Plugin (versión 1.0 – 20110624).

Social Share Button WordPress Plugin

En muchas ocasiones he querido tener mi propio sistema para compartir en Twitter, Google PlusOne y Facebook, pero ninguna herramienta me daba exactamente lo que yo quería… así que me he montado este plugin para WordPress llamado Social Share Button.

Este sistema básicamente añade el botón de compartir en twitter (con el contador) el sistema de votación propio de Google (el Google +1 o Google PlusOne) y finalmente el botón de compartir en Facebook a través del famoso Me Gusta.

Este plugin incorpora un fichero de configuración que hay que editar antes de subirlo en el que se indican algunos elementos:

  • $social_lugar: Indicando 0 o 1 podemos hacer que el bloque aparezca encima o debajo del contenido.
  • $social_ancho: Es el ancho (en píxeles) de la columna donde está el contenido (entrada o página).
  • $social_idioma: El idioma en 2 letras ISO. Por ejemplo: es.
  • $social_fbidioma: El idioma en 4 letras (idioma_país). Por ejemplo: es_ES.
  • $social_twitter: Tu usuario de Twitter.
  • $social_fbancho: En principio no hace falta tocarlo, pero es el ancho de la parte de Facebook.
  • $social_fbsend: Si quieres que aparezca el botón “Enviar” de Facebook.
  • $social_fbcaras: Si quieres que aparezcan las caras de aquellos que han votado.
  • $social_fblike: Si quieres que aparezca el texto “Me gusta” o “Recomendar”.

NOTA: Si vas a activar este plugin, es muy recomendable que tengas activado el OpenGraphProtocol WordPress Plugin.

Puedes descargar el plugin desde aquí: Social Share Button WordPress Plugin (versión 1.0 – 20110624).

OpenGraphProtocol WordPress Plugin

El Open Graph Protocol es un sistema de meta-etiquetas que permite, de forma abierta, que algunos robots como por ejemplo los de Facebook) puedan recopilar información de tu página de una forma sencilla y así mostrar la información relevante en sus resultados. El ejemplo más claro sería el de compartir una URL en Facebook, que cuando lo haces te aparece un título, descripción e imagen (o te deja elegir).

Este plugin para WordPress básicamente lo que hace es crear esas meta-etiquetas de forma automática y tampoco es que permita ningún tipo de configuración. Simplemente lo subes, lo activas y hará su trabajo.

El sistema activa los datos de página y URL para todo el dominio, el tipo, la imagen (si es una imagen destacada, tomará esa, sino intentará encontrar la primera de la entrada y sino no elegirá ninguna) y lo mismo con la descripción.

Puedes descargar el plugin desde aquí: OpenGraphProtocol WordPress Plugin (versión 1.0 – 20110624).

Google y tu reputación digital

Aunque he hablado varias veces sobre reputación digital en vistas a que ahora parece que con lo del Google Me on the Web a todos les ha dado por revisar sus cosas, me gustaría explicar de una forma más sencilla qué herramientas existen para eliminar información privada que podemos encontrar por la red y que no hayamos ofrecido directamente.

Esta lista de herramientas son algunas páginas de ayuda que he ido recopilando en alguna ocasión por alguna razón y que me gustaría compartir con vosotros por si os fuera de utilidad.

Para empezar Google tiene una página en la que se explica bastante claro cómo evitar que aparezca información personal en Google. Esta página sin duda es el inicio y la referencia, y recomiendo 8aunque es algo extensa, leerla para tener presente, entre otras cosas, qué considera el propio Google qué es información personal y qué no. Lo que más me gusta es que pongan la frase: piénsatelo dos veces antes de publicar información personal en Internet. Fundamental; si no quieres que algo se sepa, lo mejor es no publicarlo en ningún sitio, por mucha privacidad que tenga el sitio.

Lo siguiente a tener en cuenta es que, antes de solicitar a Google que se elimine algún tipo de contenido lo que has de hacer es solicitar al sitio donde se alija el mismo que lo retiren. En España tenemos leyes bastante potentes (si se utilizan bien) como la LOPD que nos protegen de muchas cosas en caso de que las empresas no eliminen los datos personales que se encuentran en sus sitios. De esta misma forma, toda empresa que opere en España ha de cumplir la LSSI por lo que es de obligado cumplimiento que todos los sitios tengan los datos de contacto disponibles de una forma sencilla.

Google nos da ciertos consejos para ponernos en contacto con el webmaster de un sitio. Como decía, si no consigues que te hagan caso siempre puedes recurrir a la vía legal con la LSSI y la LOPD. Mi recomendación es que antes de ir al juez vayas a un notario y certifique una “captura de pantalla y URL” de dónde se encuentra la información personal que hay que eliminar. Con eso cuando vayas a poner la denuncia tendrás casi todo ganado.

Si consigues que eliminen los datos de la página y no se muestren, puedes forzar a que Google actualice alguna página en concreto yendo a la herramienta de solicitud de eliminación de contenidos.

El siguiente punto es en el que aparece información personal/privada en alguna de las herramientas que Google tiene. Para ello tiene cuatro casos especiales:

Estos son casos extremos y Google se toma muy en serio estas situaciones… pero a parte de estos casos podemos encontrarnos con alguna otra situación en alguno de los otros servicios. Para ello existe un sistema de formularios más general. En estos casos puedes solicitar, por ejemplo, que sitios que usan Adsense y roban tus contenidos sean avisados (para que les cierren la cuenta), de la misma forma que podría pasar en Adwords, Blogger, Android, GMail… Hay algún caso especial, como es el de los resultados de búsqueda de Google (tanto de imágenes como web) donde se puede reportar imágenes de abuso a menores o derechos de marca que una empresa esté haciendo sobre las tuyas. Eso sí, un caso aparte es el que encontramos en Youtube, donde podemos avisar desde bullying, abusos sexuales, acoso online, suplantación de identidad…

Desde 2008 he comentado en alguna ocasión algunos ejemplos y herramientas que tener siempre presente cuando se habla de reputación digital, e incluso, ya de forma más SEO, un capítulo sobre Search Engine Reputation Management (SERM).

Estáticos para WordPress

La verdad es que WordPress es un gran CMS y, sobre todo, muy extensible y configurable. En esta ocasión me gustaría enlazar una entrada que publiqué hace ya un tiempo en el que hablaba de los dominios sin cookies con la posibilidad de configurar WordPress para tener las imágenes separadas del dominio principal.

El objetivo de este sistema básicamente es separar lo que es la propia web de los contenidos estáticos que se pueden separar. En principio se podrían separar hasta los diseños (JS, CSS…) pero suele ser algo más complejo. Para empezar la idea es separar los contenidos que subimos a través del panel y que suelen estar en la carpeta /wp-content/uploads/.

Para comenzar lo que debemos tener es un dominio configurado para estáticos. En mi caso he usado el dominio javiercasares.com para el sitio web y el dominio javiercasares.net para los estáticos. Este dominio principalmente debe tener 2 cosas: ETag y Cookieless.

Lo primero que hemos de hacer es apuntar los contenidos al nuevo dominio. Para ello iremos a la opción Ajustes -> Multimedia y en la parte inferior tenemos las direcciones donde se almacenan los archivos. Los campos son los siguientes:

  • Guardar los archivos subidos en esta carpeta: Aquí deberemos poner la dirección completa donde se subirán los ficheros. Por ejemplo /home/estatico/uploads
  • Ruta URL completa a los archivos: Es la URL pública. Por ejemplo:

Con esto conseguimos que a partir de este momento todos los ficheros que subamos se almacenen en esa ruta del servidor y que la URL pública sea esa.

Pero claro… ¿qué ocurre si ya teníamos un sitio web funcionando? Pues que una vez tengamos el dominio para estáticos configurado debemos hacer algunos pasos previos. El primero de ellos es copiar todos los ficheros de la antigua carpeta wp-content/uploads a la nueva carpeta. Al final del proceso, si queremos, podremos borrar los archivos originales, ya que no se volverán a utilizar.

El siguiente paso es el de actualizar todos los contenidos existentes en la base de datos. Hay que actualizar todos aquellos sitios en los que aún se llama a las direcciones URL / contenidos antiguos para que apunten a los nuevos. Para ello deberemos ejecutar las siguientes consultas en la base de datos:

UPDATE wp_posts SET post_content = REPLACE (post_content, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_posts SET guid = REPLACE (guid, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_postmeta SET meta_value = REPLACE (meta_value, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_commentmeta SET meta_value = REPLACE (meta_value, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_comments SET comment_content = REPLACE (comment_content, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');
UPDATE wp_options SET option_value = REPLACE (option_value, 'http://javiercasares.com/wp-content/', 'http://javiercasares.net/');

La primera línea sustituye las direcciones en los contenidos (entradas y páginas), el segundo actualiza las direcciones de los adjuntos, el tercero si tenemos alguna imagen en los metadatos de las entradas, la cuarta y quinta es para los comentarios y la sexta hace referencia a las opciones del propio WordPress (por ejemplo para cabeceras o ficheros estándar que tengamos).

Con esto conseguiremos aumentar la velocidad de carga del sitio web hecho con WordPress además de permitir que el cacheo de las imágenes se haga de forma correcta si utilizas algún tipo de proxy-caché en algún sitio, ya que evitas tener Cookies y le añades los ETag que harán que se guarde la información completamente.

Si alguien necesita una optimización del rendimiento de su sitio web, desde Keep It Simple Lab ofrecermos un servicio de consultoría de WPO con el que podrá mejorar la velocidad de carga de su sitio (ya sea WordPress u otro sistema), aumentar la velocidad y reducir los recursos que se consumen.

Yahoo! se queda con el “buscador social”

¿Quién es el dueño de las búsquedas sociales? Pues Yahoo! o al menos eso parece tras la concesión de la patente System and method for ranking search results using social information en la que básicamente se detalla lo que serían los factores que se pueden tener en cuenta de sitios sociales para generar o mejorar los resultados de búsqueda de un buscador.

An improved system and method for ranking search results using social information is provided. A social information ranking engine may be provided to rerank a list of URLs of web pages in search results from a search engine using social information. To do so, the search query may be applied to a social information domain and a second list of references to web pages may be obtained as search results. A dimensional vector of users with the plurality of terms may be constructed using search results from social information domain, and a similarity measure may be computed between the references to web pages obtained from search results by the search engine and the references to web pages obtained from search results by the social information ranking engine. The score from the similarity measure may then be used to rerank the list of references to web pages.

Esta descripción, aunque es clara, viene a decir:

Un sistema mejorado y método de clasificación de resultados de búsqueda que incorpora la información social. La información social puede ser utilizada para reorganizar los resultados de búsqueda de un motor de búsqueda con información social. Para ello, a la consulta de búsqueda se le puede aplicar la información social de un sitio y obtener una segunda lista de resultados. Un vector dimensional de los usuarios con la pluralidad de los términos puede ser construido con los resultados de búsqueda del dominio social, y una medida de similitud puede ser calculada entre las referencias a páginas web obtenidas a partir de los resultados de búsqueda por el motor de búsqueda y las referencias a páginas web obtenidas de los resultados de búsqueda por el motor de información de clasificación social. La calificación de la medida de similitud puede entonces ser utilizada para reorganizar la lista de resultados de búsqueda.

Esta patente básicamente hace eso, lo que reclama es que tras la consulta de búsqueda de un usuario, que debería devolver una lista de resultados, estos lleven aplicados ciertos cambios que se basarán en la información social recopilada de otras fuentes, de forma que los resultados cambien. Estos cambios generarán una serie de cambios en base a muchas consultas de muchos usuarios. La información se extraería de diferentes sitios que incluyen referencias a distintas direcciones URL, que, además de dar peso a las direcciones URL, daría peso a los conceptos principales de los contenidos que hay en dichas direcciones URL.

El documento hace un comentario muy interesante (que indirectamente afecta al PageRank y al TrustRank) y es que cada vez es más complejo tener fuentes fiables de información. Lo interesante es que el usuario podría ofrecer información desde la que extraer la información social para poder mejorar los resultados. Esto básicamente significaría que se usan dos sistemas de mejora: por un lado la información “general” que podría proporcionar Twitter o Facebook, y por otro lado la información “personal” que puedes ofrecer tú mismo sincronizando tu cuenta de Twitter o Facebook con la del buscador (algo que ya hace Google con su PluesOne, que muestra información que han compartido tus amigos o seguidos).

La forma de rehacer la lista de resultados vendría a ser por similitud, lo que daría, al parecer, peso principal a los N resultados de búsqueda, pero que de esos resultados que “ya aparecen” y que también tengan importancia en los medios sociales, tendrían un peso mayor, lo que implicaría hacerlos subir N puestos en los resultados de búsqueda. Además, también se comenta que estos resultados (o tecnología) podría utilizarse para reorganizar los resultados de productos en un sistema de comercio electrónico.

The web search results may be refined by applying the search query to a searchable social domain such as website with user provided content such as Flickr, Facebook, Digg, Delicious, and using the search results from the searchable social domain to rerank the web search results.

Además, tenemos lo que podría ser una pequeña algorítmica de cómo se calcula esa reordenación de elementos, que ellos mismos llaman el “Social Relevance”:

For example the social relevance, SR, of a term, t, may be represented by the probability of Pr(SR|t)=Pr(t|SR)*Pr(SR). The social relevance of a term may be calculated for each user u which mentioned term t. The probability of each user’s affinity to the term multiplied by the searcher’s affinity to the user may be represented by prod[Pr(t|SR, u)*Pr(SR, u)], where Pr(t|SR, u) is the term frequency of t for u and Pr(SR, u) is the trust level between u and the searcher, i.e. sim(u, searcher). A social information document vector may be built using this probability on top of an ordinary term frequency*inverse document frequency+normalization as is well-known in the art.

Además de los propios enlaces, también ayudaría a organizar otros factores y elementos como son los vídeos, audios o incluso los propios usuarios (tanto ellos mismos como los contenidos que generan).

Movimientos sociales

Es innegable que la gente ha salido a la calle a raíz del movimiento 15M y con un descontento general con la clase política. Estoy totalmente de acuerdo de que el sistema político que tenemos se ha quedado retrasado principalmente por la gente que lo tiene que usar, no tanto por la democracia en sí.

Creo que lo que estamos viviendo tiene mucho que ver con las cosas que pasaron antes de que yo mismo naciese, y para eso hay que irse a principios del siglo pasado… en la época en la que vivimos una República y más tarde toda la Guerra Civil y finalmente la Transición.

Todos los políticos que hoy en día nos representan estaban corriendo hace unos cuantos años delante de los grises, y creo que esa situación es la que no nos permite avanzar. Tenemos un Gobierno que todavía tiene la cabeza en la Transición y no en el mundo real en el que vivimos.

Todo el que me conoce sabe que soy un partidario absoluto de la Tecnología. Soy partidario de algo que podría definirse como un Gobierno Tecnológico o Democracia Tecnológica; esto no significa que los presidentes del gobierno vayan a ser robots ni que vayamos a votar de forma digital (que bien podría ser un gran adelanto), sino que lo que vengo a decir es que seguimos en un país de paella, flamenco y toros. Y está claro que esto es un sinsentido.

Sé que por mucho que diga que hay que eliminar el presupuesto del ejército y cosas así para ser muy populista es algo irreal. No me parece mal que un país tenga ejército, pero que en vez de irse a los países del este, deberían estar apoyando a todas las fuerzas del Estado (bomberos, policía…) para proteger todos los recursos del país, incluido sus ciudadanos. Pero para conseguir esto, un país que apueste por las energías limpias, que apueste por tener gente inteligente capaz de llevar a cabo lo que quiera con presupuestos ilimitados hay que dar un cambio de base que ahora mismo es muy difícil: cambiar la educación y apostar por la tecnología.

Tampoco me gustaría que la educación, la sanidad u otros recursos sean gratuitos. Lo gratis no se valora. Me parece que todo en esta vida hay que pagarlo de alguna manera (que no necesariamente ha de ser con billetes y monedas). Considero que tiene que haber ricos y pobres, pero los pobres no han de llegar al extremo de ser vagabundos. Supongo que me gusta ser idealista en este caso, pero considero que los ricos deben ser aquellos a los que se denomina “emprendedores” y que los pobres son aquellos con espíritu “funcionario”. Hay gente a la que le gusta hacer cosas, estar todo el día creando, generando, ideando… hay otras personas que quieren simplemente comodidad. En base a lo que aportas a la sociedad, ganas más.

También me gustaría volver a ver lo que estamos viendo estos días en la cal, una Democracia Ateniense; recuerdo cuando estudiaba historia en el colegio y el instituto que (teniendo en cuenta que yo lo de las letras lo llevo bastante mal) la época griega me apasionaba. Uno de los libros que más disfruté en una primera lectura fue El Mundo de Sofía, al menos los primeros capítulos… se me quedó grabada una cosa en la cabeza: los Sabios eran los que gobernaban. En el instituto mi profesor de Lengua Española siempre nos decía que si él fuera Ministro de Educación las cosas serían muy distintas (y luego nos explicaba, cada vez distinta, alguno de los cambios que haría).

Estos meses atrás, cuando estuve en Estados Unidos, me costó 175 dólares (unos 120 euros) crear mi primera empresa estadounidense. Además lo conseguí hace en 24 horas, simplemente rellenando un par de hojas en las que estaban mis datos, el nombre de la empresa y 4 detalles más. Los impuestos son menores, aunque allí te hacen pagar prácticamente por todo. Tampoco voy a decir que ese sea el camino, pero un término medio entre lo que se hace en Estados Unidos y lo que se hace en España estaría bien. Unos impuestos razonables (¿12%?) y que haya que pagar por las cosas que se usan, sin generalizar. Considero que el CoPago en la Seguridad Social también estaría bien, principalmente porque sólo con poner las visitas al médico de cabecera a un euro (a menos que tengas una enfermedad crónica diagnosticada o algo similar) harían valorar más la medicina y la gente no iría por lo que consideran una “emergencia” o “urgencia” siendo una visita normal y corriente.

Como en todos sitios cuecen arroz (nunca he entendido lo de las habas, a mi me gusta creer que en todo el planeta se cuece arroz) siempre tendremos a exaltados haciendo maldades en reuniones pacíficas, al igual que tendremos perroflautas y otro tipo de gente, pero aunque queramos negarlo, este tipo de gente también forma parte de la sociedad en la que vivimos. Y es que muchas veces vivimos en una burbuja que nos limita el día a día, nos limitamos a conocer sólo el mundo que nos rodea y cuando vemos las noticias en la televisión donde unos cuantos negritos están gorditos y rodeados de moscas pensamos que eso es en otro planeta… y está tan sólo a la misma distancia que hay de aquí a Londres, sólo que en vez de ir hacia el Polo Norte hay que ir hacia el Polo Sur.

Como bien dice la imagen de la cabecera, no hay pan para tanto chorizo. Tolerancia cero a los que roban o hacen uso de sus influencias para conseguir “cosas”, pero en lo que creo que nos estamos equivocando es en querer que el Estado nos pague una nómina por no hacer nada. Trabajo hay, sólo que tal vez haya que plantearse si aquellos oficios tradicionales deberían ir encaminados hacia otros sentidos, que, como bien decía al principio, tienen que ver más con la tecnología.

Abrazar

No me considero una persona muy afectuosa, todo lo contrario… más bien me gusta mantener las distancias. Por poner un ejemplo, no acabo de entender una situación tan rara como que uno llega a la oficina, saluda con unos buenos días y todo está bien. En cambio, dos horas después de salir vas a un evento en el que te encuentras a alguien de la oficina con la que has pasado 8 horas y has de darle la mano como si hiciera semanas que no te ves o has de darte varios besos a modo de cortesía.

abrazar: 2. tr. Estrechar entre los brazos en señal de cariño.

Desde hace un tiempo he aprendido la importancia que tiene abrazar a la gente que te importa. Si realmente aprecias a alguien, lo consideras alguien de confianza, hace tiempo que no ves a esa persona y te importa, también se merece un abrazo.

Darle la mano a alguien es como muy formal y siempre mantienes las distancias. Es cortesía. Hace años una amiga cada vez que nos veíamos todos decía que no daba dos besos porque dos son cortesía. Es algo que comparto completamente, pero a la gente que te importa, creo que hay que abrazarla.

Un abrazo implica muchas cosas. La primera es contacto físico completo. Y es que darse la mano o un par de besos es simplemente algo parcial, para mantener distancias. Un brazo implica acercar energías, ese contacto que el ser humano necesita con otras personas, la sensación de que el otro te protege.

SEO, de la Prehistoria a la Revolución Tecnológica

Estamos en el año 2011, a mediados, más o menos… si hiciéramos una línea del tiempo tendríamos que el año 1995 podría ser el inicio de la era de los buscadores, la prehistoria, donde había que ir a los buscadores y añadirles todas las URL desde un formulario, indicándole muchos datos. Luego comenzaron a tener la lectura de los metas. Hasta aquí estaríamos hablando de la Edad de Piedra.

Más tarde llegó Altavista, el que podríamos considerar el primer buscadores decente ya que empezó a buscar dentro de los contenidos de las páginas. Es la Edad de Bronce. El siguiente gordo en llegar fue Google, que potenciado con Yahoo! convirtió Internet en la Edad de Hierro. Esto podría ser aproximadamente el año 1999, cuando Google y Yahoo! ya habían comenzado a desbancar a Altavista.

Sin duda el año 2001, con la Burbuja de las Puntocom la gente se puso las pilas y, para mi, el SEO comienza en esta época, cuando se dan cuenta de que el tráfico ya no depende de la publicidad millonaria y se puede atraer tráfico desde los buscadores. El Imperio romano había comenzado su expansión mundial.

Sobre 2003 el concepto del SEO comenzó a llegar a Europa, saliendo de Estados Unidos, y las empresas de Internet se comenzaban a aplicar el cuento y a contratar y formar a personal que se dedicaba a ello en cuerpo y alma. Pero Google, en un alarde de superioridad, metió su primera gran actualización para limpiar la basura de los resultados de búsqueda con el Google Florida Update. Muchas empresas estaban ganando mucho dinero gracias a técnicas de cloacking, granjas de enlaces, contenidos por densidad… elementos que Florida eliminó de un plumazo. El SEO se reinventó, aunque como la gente era bastante nueva en estos temas fue como una evolución… se podría decir que nadie se quedó por el camino.

Pero la Época Feudal llegó y muchos SEO, al igual que los del clero, tenían el poder en las iglesias y nadie podía acceder a ella. Era como un secreto absoluto que nadie quería liberar… los señores feudales vendían su alma a la Iglesia para poder conseguir todo lo que querían. Yo conocí a muchos cleros de aquella época; eran obispos y tenían mucho conocimiento de cómo funcionaba el Feudalismo… pudieron conseguir grandes iglesias y catedrales a costa de mucho…

Lo malo de la época feudal es que todo aquel que llevaba la contraria era ex comulgado o quemado por brujería. A mi me pasó… lo bueno es que como buen Gutenberg fui capaz de adaptarme a la imprenta y a la distribución del conocimiento y no guardármelo… leer es importante, pero lo es más experimentar y generar teorías válidas como bien hizo Einstein aunque no pudieran ser probadas hasta años después. Y es que la Revolución Industrial del SEO de 2009 con las llegadas de Caffeine y más tarde de MayDay hicieron que muchos de los que continuaban en la época feudal se quedasen atrás. Comenzaban a leer mucho, pero no usaban la imprenta ni hacían experimentos químicos o aceptaban la Teoría del Proceso Evolutivo.

En los últimos años el mundo ha cambiado mucho. Hemos hecho llegar al ser humano a la Luna, tenemos un aparato en casa para calentar la leche por las mañanas llamado microondas incluso un iluminado montó un sistema que vía teléfono se pudiera mandar información digital… algo llamado Red ARPA.

Desde 2005 hasta 2010 Google no se ha quedado quieto. Es la época en la que más patentes ha solicitado relacionadas con tecnologías de búsqueda que dejan de lado el Pagerank y se centran en la calidad y en la detección de contenidos duplicados o sistemas que permitan engañar a la tecnología de búsqueda que poseen. Pero los buenos SEO de 2005 siguen empeñados en lo que había escrito en aquellos libros que publicaban aquellos clérigos que estaban encerrados en las Iglesias y no conocían la realidad del mundo. Ya sabemos cómo está la Iglesia hoy en día…

Bueno, vamos a por la moraleja y al porqué de esta entrada de hoy… y es que en las últimas semanas he quedado con mucha gente del sector del SEO, ya fuera simplemente por quedar para tomar un café, gente que he visto en eventos… la cuestión es que, y esto es lo más preocupante, aquellos “mitos” expertos que yo mismo tenía, y que gente con la que trabajo muy de cerca, ya han dejado de decir eso de “es que Fulanito es la leche” para decirme que se han quedado anclados en el pasado. Esto va unido a algunas ponencias que escucho últimamente en los que se habla (como algo muy importante) de los H1 o que el HTML3 posiciona muy bien (Google es el impulsor del HTML5… ¿te has pensado a pensar por qué puede ser?). Poca gente habla de Arquitectura de la Información, de Web Performance Optimization… ayer, en la presentación del Google Inside Search la gente de Google se focalizó (si leemos entre líneas) en dos cosas: calidad y velocidad. Fueron dos de las palabras más repetidas en un evento en el que se hablaba de las cosas que se ofrecen en la parte de búsquedas.

Los que me sigan habitualmente verán que estos días he publicado bastante información de las patentes de Google, de la nueva algorítmica de Google Panda, de cómo Google está (dicho por ellos) eliminando en gran medida el peso del Pagerank (es decir, el peso de los enlaces, algo que han repetido en multitud de ocasiones como algo muy manipulable), cómo siguen “muchos SEO de prestigio” cayendo en cosas como el SandBox…

Si bien es cierto que el SEO no ha muerto (como producto) y es algo que existirá mientras existan los motores de búsqueda, el SEO (que sigue erre que erre con cosas viejas) sí ha muerto, y la verdad, teniendo en cuenta que los SEO españoles son, a mi parecer, los mejores SEO del mundo, me parece triste que sigan pensando así.

Y ahora me podéis llamar lo que queráis, lo aceptaré, pero algo que evoluciona tan rápido (con millones de contenidos nuevos en Internet cada día) y que los motores de búsqueda han de adaptarse al gran crecimiento de usuarios y a un 20% de consultas de búsqueda nuevas cada día (búsquedas que nunca se habían realizado anteriormente) creo que es de ciegos e que no quiere ver que hay que actuar en el SEO del mañana, no en el de ayer. He dicho.

Cómo detecta Google los contenidos duplicados

De nuevo otra patente concedida a Google ayer mismo vuela sobre nuestras cabezas… se llama Document near-duplicate detection y se solicitó en 2009, hace tan sólo año y medio. Aún así hay que tener en cuenta que existe ya una patente previa llamada de la misma forma, ororgada a mediados del año pasado pero “creada” en 2004, lo que significaría que desde 2004 Google está detectando los duplicados, aunque hace menos de 2 años que solicitó una actualización del algoritmo.

¿Qué es lo que la patente reclama? Pues algo tal que así:

A near-duplicate component includes a fingerprint creation component and a similarity detection component. The fingerprint creation component receives a document of arbitrary size and generates a compact “fingerprint” that describes the contents of the document. The similarity detection component compares multiple fingerprints based on the hamming distance between the fingerprints. When the hamming distance is below a threshold, the documents can be said to be near-duplicates of one another.

Que viene a decir lo siguiente:

Un componente de duplcación cercana incluye un componente de creación de huella digital y un componente de detección de similitud. El componente de creación de la huella digital recibe un documento de tamaño arbitrario y genera una “huella digital” compacta que describe el contenido del documento. El componente de detección de similitud compara las múltiples “huellas digitales” basadas en la distancia entre las mismas. Cuando la distancia está por debajo de un umbral, los documentos se puede decir que casi duplica el uno del otro.

¿Qué es lo que dice el sistema? Pues que para cada documento se crea una especie de resumen del mismo, según su longitud, y que este pequeño resumen tendría las partes más destacadas de todos los fragmentos del texto (lo que podrían ser algunas frases que luego se puedan comprara con otros documentos). Una vez se tiene creado este tipo de resumen se crea un sistema que compare estos fragmentos para detectar relaciones entre ellos. Gracias a esto el buscador sólo almacenaría e indexaría una de estas copias.

Este sistema también permitiría detectar bloques parciales de la información de los contenidos, por lo que los contenidos duplicados no tienen porqué ser una página al completo, sino que puede considerarse un fragmento de esos bloques.

El sistema lo que haría es relacionar aquellas páginas copiadas con la versión original y en este caso en los resultados de búsqueda mostraría tan sólo la fuente original (algo parecido a lo que se viene haciendo en Google Noticias en la actualidad).

Hasta aquí tendríamos el cómo funciona el sistema, que básicamente es lo comentado: se crean unos bloques destacados de cada parte de un contenido global, se codifica y luego se compara de una forma rápida con otros nuevos documentos. Todo, en base a que no se almacenen copias inútiles de los mismos contenidos y así economizar.

For example, the hamming distance between 1011101 and 1001001 is two. For a 128 bit fingerprint, a hamming distance of 18 may be used to distinguish whether two documents are near-duplicates, i.e., a hamming distance less than or equal to 18 can indicate near-duplicate documents, otherwise, the documents are considered non-near-duplicates. One of ordinary skill in the art will recognize that other threshold levels could be used depending on the particular application.

Lo interesante de este sistema es que los falsos negativos son bajos, pero los falsos positivos son altos a gran escala, pero a pequeña es todo lo contrario. El falso negativo se definiría como dos paginas similares que sus “huellas” tienen una gran distancia. Un falso positivo serían dos páginas aleatorias que tienen una distancia pequeña. Eso sí, en principio al tomar una gran muestra, la posibilidad de ambos casos tiende a ser la misma. Eso sí, las muestras pueden ser generalistas o concretas, como decía antes, de un tipo de contenido concreto, como son las noticias.

En fin, tampoco es que se explique gran cosa sobre cómo se detectan los contenidos duplicados, sino que hablan de la metodología que se utiliza, que en este caso es la de crear “huellas” para cada uno de los fragmentos de un texto… eso sí, lo que no me queda claro es la influencia que podría tener la parte HTML (el diseño o maquetación) en la detección de estos duplicados.

Google Panda ¿ideado en 2005?

Aquellos que todavía sigan creyendo que Google se inventa las cosas y que se las saca de la manga es que no sabe que en Estados Unidos hay que patentarlo todo. Y en previsión de que la patente estaba a punto de concederse (concretamente fue concedida ayer día 14) se ha lanzado hace poco… Como esta hay otras tantas, pero quizá cabe destacar algunos elementos que la convierten en la semilla del Panda.

La patente se llama Deriving and using document and site quality signals from search query streams y tiene como resumen lo siguiente:

A system analyzes one or more search streams to detect one or more associations between a document and one or more queries in the one or more search streams. The system further derives a value for the document based on the detected associations and uses the derived value in evaluating a quality of the document with respect to one or more subsequent queries.

Lo que viene a significar:

Un sistema analiza uno o más textos para detectar una o más asociaciones entre un documento y una o más consultas de búsqueda de uno o varios textos. El sistema además deriva un valor para el documento basado en las asociaciones detectadas y utiliza el valor obtenido en la evaluación de la calidad del documento con respecto a una o más consultas de búsqueda posteriores.

Lo primero que voy a comentar son los problemas a los que se enfrenta Google, es decir, cómo funciona Google hasta ese momento (que como podréis ver hace mucho hincapié en el tema de los enlaces, algo que, parece ser, “ya no sirve”).

La base de todo es el sistema que permite analizar una página en concreto, según unas consultas de búsqueda, y que tiene en cuenta el anchor text, la pluralidad de documentos, las coincidencias de búsqueda, el anchor text de los enlaces y que determina los enlaces que apuntan a un documento asignándoles un peso determinado y durante un periodo de tiempo, todo ello basado en las consultas de búsqueda. Con esto básicamente tendríamos el análisis del historia de los usuarios, su relación con las páginas visitadas y la asignación de un punto de calidad a dichas páginas.

Además de esto, que vendría a ser el Pagerank con esteriodes (que se vino usando hasta 2001) y que se usa como base en Google, hay que sumarle otra decena de factores que tienen más importancia que la anterior. Por ejemplo, si el texto que se busca es el mismo que el que hay en el enlace, ya sea de forma limitada o ilimitada, visitado por uno o múltiples usuarios, a través de distintas conexiones de red y por un periodo de tiempo.

Pero aquí entran algunos detalles más. Si hay un exceso de enlaces (en relación a las búsquedas que han hecho los usuarios sobre esa página) el valor de los mismos se pierde. Esto sería básicamente lo que genera el Sandbox y lo que “esos que dicen saber de SEO” creen que hay que hacer enlazando el primer día desde muchos sitios. Este error típico (y el no usar los Sitemaps y otros métodos) es lo que provoca que un sitio que no tiene tráfico ni nadie ha navegado por él acabe cayendo en una penalización por malas prácticas. Lo malo de esto es que podía llegar a afectar a los sitios desde los que son enlazados y a los que enlaza esa página. De ahí que el Sandbox ya se estuviera aplicando en esa época…

Otra cosa que parece tenerse en cuenta es la cantidad de consultas que se hacen desde muchos dispositivos y redes (es decir, que te busque gente desde múltiples sitios, países, dispositivos, plataformas…) y que de la lista de resultados elijan el tuyo frente al resto por un periodo de tiempo particular. Esto nos lleva a tener muchas consultas de búsqueda iguales y que acaben yendo siempre a las mismas páginas, y en las consultas siguientes.

También se detectan aquellos resultados que reciben más visitas en determinadas consultas de búsqueda por unos periodos de tiempo limitados y se les asigna, una vez más, determinados valores de calidad.

Básicamente, en este momento lo que se viene a decir es que, hasta ese momento la calidad de las páginas, en su gran mayoría, se hacía testeando la mayor cantidad de usuarios distintos (navegadores, conexiones a Internet, dispositivos…) y que en base a su forma de navegar por los resultados de búsqueda, y la información de enlaces que hay en las páginas resultantes, se asignan pesos de calidad. Esto quiere decir que, hasta 2001 el Pagerank era prácticamente todo, que entre 2001 y 2005 el cálculo de calidad seguía basado en el linking (principalmente interno) y en lo que los usuarios visitaban en los resultados de búsqueda.

¿Qué es lo que se propone la nueva fórmula secreta? Encontrar nuevos factores que determinen la calidad de un sitio o página. Para empezar hay un gran problema: aunque Internet es algo limitado, el crecimiento es muy grande, la información cambia y, como situación más destacada es que el número de usuarios “inexpertos” en la red aumenta exponencialmente.

Los buscadores por norma general lo que hacen es buscar lo que el usuario está consultando y se devuelven enlaces / contenidos que incorporan dicha información basado todo en la información ya analizada, es decir, la que se tiene guardada desde hace ya “un tiempo” (aquí podríamos venir a decir que, previo a esto tenía que lanzarse Caffeine, que soluciona esta situación de “información no cambiante”, ya que Caffeine precisamente lo que solventa es que se indexe el llamado “tiempo real y social”).

Para devolver los mejores resultados hay que medir la calidad de los documentos (como pueden ser las páginas web). Un sistema de análisis es el que he comentado anteriormente (el que se basa principalmente en los enlaces y en el comportamiento histórico sobre la navegación en los resultados de búsqueda), pero otras formas de analizar la calidad se pueden llevar a cabo en el momento de indexación de la propia página. Un ejemplo sería el de encontrar información solicitada en la consulta de búsqueda en el título de la página, que tendría más peso que encontrarlo e el pie de página. De la misma forma, los textos en negrita, cursiva, texto mayor tendrían más peso que el texto normal. Otro detalle podría ser que todas las palabras dentro de la consulta de búsqueda estén en el documento en vez de sólo encontrar algunas de ellas. Esto generaría un peso sobre la página que podría ayudar a medir la calidad.

Además (y esto es importante) existe un valor de calidad medible en base a los enlaces que se puede combinar con el anterior. El Pagerank es algo que sigue teniendo en cuenta los hipervínculos entre documentos, pero a veces esta estructura (que debería ser lógica) no existe, es poco fiable limitada en el tiempo o limitada en cuanto en tanto no da fiabilidad al Pagerank. Como decía antes, lo siento por “esos que dicen saber de SEO” porque, como vengo diciendo desde hace años, los enlaces sin ton ni son no sirven para nada. Eso sí, aquellos que están bien construidos tiene muchísimo peso (algo que también le dará la razón a algunos que conozco que dicen que los enlaces sí que les funcionan, y que sé que lo tienen bien montado ya sea manual o automáticamente).

A parte de esto, el sistema también analizará y tendrá en cuenta las consultas de búsqueda que se hagan y las siguientes consultas reacionadas (o no) para determinar cierto nivel de calidad. Esto vendría a relacionarse directamente con el efecto MayDay, en el que hubo muchos cambios en relación al long-tail y short-tail, que podría venir relacionado con cómo hace consultas la gente a los buscadores. El nuevo algoritmo primará el que el contenido de la página tenga relación con el texto que viene en la consulta de búsqueda. Esta consulta de búsqueda podrá considerarse también como un propio factor de calidad del documento en el que el usuario acabe visitando. Esto implicaría, que aquellos enlaces que se encuentran en estas páginas de calidad y que vayan dados con palabras similares a las de la consulta de búsqueda tendrán también más peso (o sea, que si enlazas a sitios de calidad, tu sitio también gana).

Además, y aquí quizá tenemos un punto que pocos han podido tener en cuenta, es que si tu página está bien valorada y puede estar muy relacionada con otra que se le parezca, esa otra página puede aparecer también en los resultados, pudiéndosele asignar un valor de calidad en siguientes consultas si así se lo merece.

Otro detalle que se comenta, aunque es más un “se deja ver” que algo directo, es que si un usuario tiene algo en mente y lo encuentra, eso es importante… ¿qué significa esto? pues que si alguien pone directamente el nombre de un dominio o una frase muy concreta y acaba pulsando en un resultado de búsqueda que es eso que buscaba, eso tiene también muchos puntos de calidad. Al fin y al cabo, como siempre, la lógica y el sentido común priman sobre cualquier invento o estrategia que se quiera alguien sacar de la manga. Simple.

Queda muy claro que estos conceptos son muy básicos y que es la idea de lo que puede llegar a hacer es enfocarse en la calidad de los contenidos y de las páginas eliminando aquellos que o son útiles y quitándole peso a los enlaces que no estén bien construidos.

Por ejemplo, un detalle que se comenta finalmente es que un sitio que tiene varios documentos importantes para una serie de consultas también ganaría peso, haciendo que cualquier otro contenido que se publique automáticamente tenga cierto nivel de calidad. Estos “sitios” pueden ser un dominio, un hostname, una red (una empresa o red de blogs, por ejemplo) e incluso los documentos creados por una misma persona (¡anda! si el otro día salió lo del rel=”author” por ahí) e incluso una forma determinada de escribir.

Por cierto, para el que no lo sepa, Google Panda Update se llama así gracias a su “ideólogo”, Biswanath Panda, experto e el tratamiento de grandes cantidades de información.

Para acabar, hay que tener en cuenta que esta patente va muy relacionada con algo que ya comenté hace unas semanas, relacionado con la distribución de la calidad y con el resumen que hice hace un par de días en el que, al final, simplemente se trata de hacer las cosas bien… Hay que tener en cuenta que, antes de aprobar esta patente, ya existían otras tantas en las que se habla de cómo distribuir los pesos o lo que comentan del análisis del comportamiento de los usuarios a la hora de hacer consultas y visitar sitios concretos, además de la extensión de la calidad a otros lugares que no son simplemente la propia página…

Al fin y al cabo, Google lo que intenta plantear que lo que se pudo ver ayer en el Google Inside Search, que quieren potenciar el primer resultado tanto para búsquedas en escritorio como en dispositivos móviles.

<mode ego ON>
Mola que @mattcutts te conteste por una cagada en google.com, ¿eh?
<mode ego OFF>

Google Inside Search 2011

Esta tarde se ha llevado a cabo la segunda edición del evento Google Inside Search en el que se han presentado las novedades relacionadas con funcionalidades de búsqueda de Google. En resumen podemos hablar de 4 productos nuevos:

  • Google Mobile UI: Se ha actualizado gran parte de la interfaz de Google Mobile, y se ha integrado un botón de búsquedas locales desde la página principal del mismo. Esto también incluye dispositivos que no son teléfonos, sino tabletas. El foco, en resumen, es el de los contenidos locales.
  • Google Voice Search Desktop: Aunque ahora sólo estará en Google Chrome, poco a poco veremos aparecer un icono de un micrófono junto al botón “buscar” que permitirá que hables mediante un micro, preguntes lo que quieras y el sistema haga la consulta de búsqueda más acertada para lo que quieres.
  • Google Search by Images: Uno de los productos más interesantes y que traerá cola. El usuario “arrastra” la imagen al navegador (al cajetín de búsqueda) y Google (con la tecnología de Google Goggles) hará búsquedas de la imagen, mostrando información del sitio, personaje (famoso) y otra información, además de dar imágenes relacionadas. Hay que tener en cuenta que las imágenes serán almacenadas por el buscador aunque no se mostrarán, sólo se usarán para “mejorar la calidad”.
  • Instant Pages: El primer resultado de búsqueda se pre-cargará gracias a la tecnología prefetch que incorporarán los navegadores. Por ahora estará en Google Chrome Beta, con código abierto, y esperan que el resto de navegadores tomen la tecnología y la apliquen a sus sistemas.

Si bien es cierto que han comentad muchas cosas en el evento, estos son los 4 productos nuevos que se lanzan y que estarán disponibles poco a poco a lo largo de las próximas semanas, según dicen, en todos los dispositivos, idiomas y plataformas disponibles…

ACTUALIZADO: Ya hay disponibles dos páginas promocionales para Introducing Voice Search now on your computer y Search by Image.

Para más información, vídeos y demás puedes darle una ojeada (en inglés) a la entrada Search by text, voice, or image o ver estos vídeos promocionales:

Introducing Voice Search for your computer

Search by Image

Google Search with Instant Pages

ACTUALIZADO: Ya está disponible todo el vídeo del evento (dura sobre 1 hora)…

Cursos de Verano: SEO para diseño y maquetación

Comienza la semana y una nueva charla más, en esta ocasión enfocado a SEO para diseñadores y maquetadores de páginas web. La idea básica es la de concienciar a la gente que diseña de la importancia de su trabajo, pero a la vez de la necesidad de que sea óptima a la hora de ponerlo en producción.

Se comentan muchas cosas… un poco de HTML5, el nuevo estándar de Web Timing para calcular la carga de las páginas, un poco de Web Performance en imágenes, CSS y JavaScript… además de algunas herramientas para la optimización de imágenes y Flash.

Así que, quien quiera darle una ojeada, ya está disponible para descargar.

Qué es el Google Panda (y cómo no ser penalizado)

Todos hablan del Google Panda pero muy poca gente fuera de Estados Unidos y los países angloparlantes realmente lo ha sufrido. Además, los sitios que lo han sufrido, un 85% no se han recuperado (porque no han sabido o no lo han cogido a tiempo). Y es que Google nos tiene acostumbrados a una gran actualización cada cierta cantidad de años. Hace unos cuantos sufrimos el Google Florida Update, hace menos el MayDay y el Caffeine.

Para ponernos en situación vamos a hacer un breve repaso sobre estos:

  • Florida: Fue un cambio en la infraestructura de Google, un nuevo índice, una mejora de futuro. Básicamente metieron todos los filtros antispam aqprendidos los 6 primeros años de vida del motor.
  • MayDay: Este cambio de algoritmo afectó principalmente a los enlaces, a la gente que hacía de forma abusiva un exceso de linking introduciendo el factor del TrustRank. Esto acabó afectando al long-tail y short-tail.
  • Caffeine: Aunque esta actualización se centró en “el tiempo real” y poder indexar grandes masas de contenidos (algo que sigue ocurriendo, como comenté hace unos días) también tuvo que ver, una vez más, con el mal uso de los enlaces, pasando de enlaces positivos y neutros a positivos, neutros y negativos.

¿Qué ha ocurrido en estos últimos tiempos? Que al indexar de una forma exagerada, el índice se ha empezado a llenar de basura que no se podía medir con la calidad de los enlaces únicamente, por lo que han tenido que meter nuevos sistemas de filtrado. Y es que mucho se ha hablado de la calidad de las páginas, pero ¿qué es calidad para una máquina? Las máquinas han de seguir estándares a la hora de comprender qué les estamos queriendo decir y explicar. Por eso, aunque desde los buscadores nos dicen que no es necesario, sí que sería que un sitio web esté bien construido en HTML, JavaScript o CSS, además de tener una arquitectura de la información bien construida y, principalmente, como bien aparecía en una patente sobre el Quality Score de los contenidos tener una buena redacción, gramática, usabilidad, accesibilidad…

Lo más curioso de esta actualización del algoritmo es que se está realizando por fases. Sabían que aplicar el cambio directamente sería un caos como ya ocurrió en Florida, por lo que han decidido ir aplicando los cambios de forma escalonada en el idioma inglés que, supuestamente, sería el que tiene más mierda en el índice. La primera actualización afectó a un 12% del índice de Google, lo que supone haber eliminado varias decenas de millones de páginas. Esta actualización en principio sólo afectaba a aquellos sitios con lo que se considera contenidos de baja calidad. Una forma de ver qué es esto podría ser los llamados “Soft 404” que aparecen en Google Webmaster Tools, aquellas páginas que se parecen a algo más como una página de error que no una página de contenidos propiamente dicho.

La siguiente actualización fue la ampliación del índice de Estados Unidos a todo el idioma inglés, lo que significó la implicación del Panda en las páginas de cualquier parte del mundo. A parte de Reino Unido, se han dado casos graves de afectación en India e incluso algunos sitios de España (las versiones en inglés de los mismos) se han visto afectados. Esta versión del algoritmo tampoco implicó muchas diferencias, aunque sí que se hicieron ciertas mejoras basadas en las quejas de aquellos que habían sido afectados sin razón aparente, de forma que muchos volvieron a la normalidad.

Ahora parece que, antes del despliegue internacional va a llegar una nueva aplicación, lo que podría ser la tercera fase del nuevo algoritmo. En este caso, tal y como están anunciando, van a desaparecer aquellos sitios que se limitan a copiar contenidos de terceros. Y es que hasta ahora el algoritmo sólo ha tenido en cuenta los contenidos duplicados dentro de los propios sitios/dominios, pero no aquellos sitios que te copian contenidos y los publican de forma automática. Incluso, se plantea, que aquellos sitios que son simples “buscadores” copiando los resultados del propio Google o de otros como Yahoo! o Bing).

¿Cómo evitar ser penalizado por Google Panda? La solución es muy simple: haz las cosas bien. Sí, sé que es o parece muy sencillo decirlo, pero es así de claro. Si tu sitio está bien construido, aportan contenidos de una forma estructurada y con calidad, tiene algunos enlaces de calidad (frente a millones de enlaces sin sentido) no tendrás ningún problema. En los últimos meses me he estado dedicando más que a hacer SEO a sitios, a poner orden en ellos y casi es más efectivo hacer las cosas bien, tener una buena base, intentar al máximo meterle un poco de mejoras de rendimiento, esperar entre 3 y 6 meses y el sitio comienza a ir prácticamente sólo. En el momento en el que comience a tener cierto volumen de visitas hay que intentar hacer algo de promoción en sitios bien valorados y ya está.

Así que ya sabes, si tienes dudas sobre si tu sitio puede ser penalizado por Google, ya puedes darte prisa porque el cambio del algoritmo se aplicará en breve, ya que Google no va a hacer cambios poco antes de final de año, época en la que se producen menos cambios en los resultados desde aquel fatídico diciembre del 2003.

Google Maps + Foursquare

Si eres de los que le da igual que sepan donde estás en todo momento (o al menos donde accedes en Foursquare) tal vez te interese este pequeño mashup con el que podrás mostrar gracias a los mapas de Google Maps tu última localización de Foursquare.

¿Cómo se consigue esto? Pues tan sencillo como entrando en tu cuenta de Foursquare y luego visitando la sección de feeds. Allí encontrarás una de las opciones en formato KML.

Ahora tan sólo has de añadir esa dirección URL al final del mapa de Google. Por ejemplo:

<iframe scrolling="no" marginheight="0" marginwidth="0" width="300" height="300" src="http://maps.google.com/maps?f=q&source=s_q&hl=es&geocode=&q=http://feeds.foursquare.com/history/ABCDEF0123456789.kml?count=1&ie=latin1&output=embed"></iframe>

El parámetro “q” es el que lleva la URL de Foursquare, y el “count” es el número de puntos que quieres que se muestren. Si pones 1 indicará el último en el que hayas hecho checkin.

Cursos de Verano: SEO para contenidos

Otro día más, una charla menos… hoy ha tocado juntar a los periodistas y darles un poco la paliza con, principalmente, los distintos “tags” que tiene el HTML y que ellos pueden utilizar para mejorar su calidad en los textos… además de darles un toque de atención con respecto a los títulos o el uso de las herramientas para webmasters, que al fin y al cabo, ellos son parcialmente webmasters de los sitios web).

La presentación es un poco larga, pero ya está disponible para descargar.