#WWW2012: WebQuality 2012, Abuse Detection and Prevention Session

Y para acabar el día, tras las presentaciones sobre Web Quality, y las de credibilidad y confianza, ahora le llega el turno a la detección y prevención de abusos (y spam). La primera charla es Detecting Collective Attention Spam (de Kyumin Lee, James Caverlee, Krishna Kamath y Zhiyuan Cheng). Aparecer en la página principal de Youtube, eventos como el Año Nuevo generan marketing viral y atención colectiva, consiguiendo ser «trend» (Google Trends o Twitter Trending Topic). En general los spammers van a por momentos de atención que se convierten en fenómenos. Primero se consigue información de los temas con tendencia y se generan contenidos para twitter, afcebook, youtube, foursquare… eso genera atención por parte de los usuarios. En general los spammers en Twitter, a diferencia de lo que … Leer más

#WWW2012: WebQuality 2012, Online Credibility and Trust Session

Y tras las presentaciones sobre Web Quality, ahora tocan las de credibilidad y confianza. La primera charla es Game-theoretic Models of Web Credibility (de Thanasis Papaioannou, Katarzyna Abramczuk, Paulina Adamska, Adam Wierzbicki y Karl Aberer). Uno de los mayores problemas hoy en día es la creciente dificultad de detectar la credibilidad de los contenidos en Internet. Puede haber factores económicos que pueden incluir en la calidad o neutralidad, por ejemplo. Los primeros acercamientos hacen referencia a estudios empíricos, a mecanismos de repitación /pero hay que tener en cuenta la información histórica, que es muy relevante) y, lo que se nos propone, que es un juego entre los contenidos producidos y los consumidos. A la hora de tener elementos en cuenta debemos distinguir entre el contenido producido por los … Leer más

#WWW2012: WebQuality 2012, Web Quality Session

Y como lo prometido es deuda, comienzo con las charlas de hoy, concretamente las del WebQuality 2012. Comenzamos con un cambio en el programa, así que toca A Breakdown of Quality Flaws in Wikipedia (Maik Anderka y Benno Stein). La idea es investigar la calidad de la Wikipedia, ya que es muy grande: tiene cerca de 90 millones de páginas, 22 millones de artículos y es la sexta web más visitada del mundo. Para la calidad hay algunos elementos como que cualquiera puede editarla, los autores son muy distintos y las ediciones nos e revisan antes de la publicación. Esto implica que las mejoras sean de baja calidad y que sea difícil mantener la alta calidad. Sólo un 0,1% de los artículos de la Wikipedia en inglés son … Leer más

II Jornada Internet i Empresa

Hoy estoy en Tortosa (Tarragona) en las charlas que la Cambra de Comerç de Tortosa organiza junto a Empatica en las charlas de Internet i Empresa. Me ha tocado estar en la parte de las charlas de SEO, dando una breve charla de poco menos de una hora en la que he explicado un poco todo a nivel introductorio, Buenas Prácticas y cómo evitar penalizaciones. Tal y como he prometido a los asistentes a la charla, os dejo la presentación que he hecho para descargar. Agradecer a la organización y a los asistentes sus caras de no entender nada (cosas que pasan), las preguntas (muy interesantes), la conversación a la hora de comer y las discusiones tan interesantes que se han generado. Por cierto, brutal la estrategia de … Leer más

I Master SEO Profesional (Madrid 2012)

En unas semanas comienza el I Master SEO Profesional que dirige Miguel López (TallerSEO) y que se celebrará en Madrid. A diferencia de otros cursos y formación, este está enfocado al 100% a todo lo que tiene que ver con optimización de sitios, además de todo lo que hay alrededor de ello. No sé si puedo decirlo o no, pero os voy a adelantar algunos de los ponentes y algunos de los temas que se tratarán. Por ejemplo Miguel Pascual explicará las distintas fases de un proyecto, José Moreno hablará, entre otras cosas de reputación digital, Edgar Sánchez nos dará algunas herramientas, Aleyda Solis tratará los entresijos para conseguir enlaces, Fernando Muñoz acabará con auditorías SEO. Por mi parte trataré temas más técnicos y hablaré un poco de … Leer más

deSEO para 2012

Puede que sea cosa mía, pero haciendo una revisión de los cambios de 2010 y 2011 me doy cuenta de que el SEO se ha estancado… estancado en cuanto a que los buscadores van metiendo cosas pero no van muy relacionadas tanto con la evolución del SEO como lo ha estado haciendo entre 2005 y 2010. Sí, ya sé que el año pasado entró en nuestra vidas un animal muy entrañable como es el Panda, un algoritmo que ha hecho mucho daño a un determinado tipo de sitios, sitios que básicamente «no hacían las cosas bien» (y entiéndase bien por lo que a Google se le pasa por el forro). Eso sí, cada vez más vemos unos resultados más personalizados para cada usuario o para cada territorio (ciudad … Leer más

Categorías SEO

SEO básico a tener siempre controlado

El SEO puede evolucionar, puede cambiar para bien o para mal, pero hay algunos elementos que nunca podemos despreocupar y sobre los que tenemos que tener siempre un control absoluto. robots.txt Es básico tener el fichero de robots.txt bien controlado. Primero, ha de existir. Segundo, debe tener como mínimo la línea User-Agent: *. Tercero, debería tener siempre, al principio de todo, la línea indicando el Sitemap. Código 404 Todo dominio tiene que tener su propia página de error. Si entras en example.com/0123456789 debe devolver una página (sin hacer redirecciones o cosas intermedias) un código 404. La página resultante es recomendable que tenga el diseño del resto del dominio. rel-canonical Hoy en día es casi obligatorio que todos los sitios usen el rel-canonical. Y también es importante que este … Leer más

Categorías SEO

Arreglando una penalización

Con mucha frecuencia me llegan correos de personas que tienen un sitio web pequeño y que han sido penalizados (o degradados) por Google de alguna manera. Hoy, tomando como ejemplo uno de estos correos, voy a explicaros cómo se puede arreglar una penalización (de las más sencillas) con tan sólo utilizar Google como herramienta (sin Webmaster Tools o Analytics). Esto significa que lo único que necesitamos es un navegador y un poco de imaginación. El sitio en cuestión es juegostt.com y su problema es que ha caído el tráfico mucho. Lo primero que he hecho es darle una ojeada al sitio para ver si había algún error garrafal o simplemente es un sitio spam, pero básicamente tiene casual games. Hasta aquí todo bastante correcto, sin entrar muy en … Leer más

Categorías SEO

Cómo Bing mejora el PageRank contra el WebSpam

Hablar de sistemas antispam en los resultados de búsqueda es algo de lo que he hablado muchas muchas veces en los últimos meses. Cada buscador busca sus propios sistemas para mejorar el análisis de los sitios web, ya sea mediante factores humanos, analizando las propias páginas y con decenas de métodos para aumentar la calidad del índice. Pero sin duda este sistema de Microsoft me ha sorprendido ya que se basa en el propio PageRank de Google. La patente Locally computable spam detection features and robust pagerank de Microsoft deja bien claro que hoy en día tanto el PageRank como HITS son fácilmente manipulables, ya que se basan principalmente en los enlaces que envía y recibe un sitio y que esto ya no sirve de cara a que … Leer más

Categorías SEO

Google Quality Rater: WebSpam

Hace unos días comencé a explicar sobre cómo los Google Quality Rater validan la utilidad de los documentos. Ahora que ya sabemos cómo se valida un documento, queda que veamos los «flags» que pueden recibir; esto significa que independientemente de la utilidad del documento podemos marcar determinados elementos (como spam, malware, …) para que se investigue más sobre él. Spam Aunque luego entraré en más detalle en este punto, el webspam se puede marcar con 3 niveles distintos: not-spam, mayby-spam y spam. Una página correcta, en la que no hay ningún intento de engañar al buscador ni al usuario se marca como no spam, es decir, se marca como correcta. En el caso en el que haya ciertas sospechas de que puede incluir alguna técnica extraña, pero no … Leer más

Categorías SEO

Versiones de webs móviles inteligentes

Según voy leyendo y probando en algunos sitios, me doy cuenta de que a los buscadores no les gustan tanto las versiones móviles de los sitios como podría parecer. Esto no significa que no haya que hacer versiones para dispositivos móviles, pero deberían ser la misma web que la original, tratada con CSS y en una versión especial en otro dominio o subdominio. Al menos estas últimas versiones siempre quedarán degradadas a un último plano a la hora de hacer SEO. Y teniendo en cuenta esto Google tiene un sistema para que no sea necesario crear ediciones especiales en dispositivos móviles muy antiguos, Identifying relevant portions of a document, un sistema por el cuál cuando un usuario introduce una búsqueda desde un dispositivo de este tipo, la consulta … Leer más

Categorías SEO

Google Quality Rater: utilidad del documento

Para los que no lo sepan, Google desde hace muchos años contrata a gente que suele trabajar desde casa en la revisión de calidad de los resultados de búsqueda. Incluso, muchos de los que hace unos años eran «los mejores SEO» tenían a algún familiar muy directo metido a trabajar en este tema (de ahí ser tan buen SEO y ahora ya no serlo tanto). A cada Quality Rater de Google se le en entregan las General Guidelines (PDF) en la que se explica el funcionamiento de la plataforma de calificación además de los diferentes puntos donde se detalla qué es y no es calidad, además de qué es y no spam. Aunque esta última versión (la 3.18 de marzo de 2011) tampoco lleva muchos cambios con respecto … Leer más

Categorías SEO

Historial de contenidos duplicados

En la red existen multitud de documentos a rastrear; los buscadores van reindexándolos y descubriendo los nuevos según van revisitándolos. Pero existe el problema de encontrar documentos duplicados ya sea completa o pacialmente. Además, hay documentos que cambian con mucha frecuencia. Incluso, puede ser que simplemente el documento vaya cambiando una parte del mismo (la publicidad, los enlaces recomendados o algún bloque aleatorio…), lo que podría implicar tener dicho documentos con sólo la variable parcial del mismo. Otro problema que nos podemos encontrar es el de el rastreo sesgado. Esto suele pasar en los blogs, donde un mismo documento se encuentra en varios sitios pero en una de las páginas encontramos una versión del mismo y en otra parte encontramos una versión actualizada, lo que significa que el … Leer más

Categorías SEO

Formas de propagar la relevancia entre documentos

Es de muchos conocido el algoritmo del PageRank (Google), que básicamente lo que calcula es la relación entre documentos en base a la cantidad de enlaces que tienen entre ellos y, en base a esto, calcular el peso de la información a la hora de ofrecer resultados de búsqueda. Con esto se puede llegar a realizar una clasificación de todos los datos de la red de redes aún teniendo en cuenta que hay páginas sin enlaces, generando una imagen instantánea de la red. Pero aunque este es el algoritmo más conocido, existen otros dos algoritmos igual de interesantes. Uno de ellos es HITS (Ask), que se basa en el principio de que si un documento enlaza a otros documentos importantes, ese documento es importante por sí mismo. Con … Leer más

Categorías SEO

¿Afecta Google Analytics al SEO?

Seguro que alguna vez te has preguntado ¿afectará poner Google Analytics al SEO de mi sitio? Pues ahora tenemos la respuesta oficial, y es que Google ha conseguido una patente que permite reorganizar los resultados de búsqueda parcialmente dependiendo de las estadísticas… es decir, que si Google quiere, puede. Y es que ha conseguido la Methods and apparatus for employing usage statistics in document retrieval en la que se mejoran los resultados de búsqueda dependiendo, total o parcialmente, de las estadísticas de uso. Systems and methods consistent with the present invention address this and other needs by identifying compounds based on the overall context of a user query. One aspect of the present invention is directed to a method of organizing a set of documents by receiving a … Leer más

Categorías SEO

Respuestas a consultas de búsqueda

Hace ya muchos años que los buscadores son capaces de responder a preguntas, normalmente elementos sencillos que facilitan lo que el usuario está buscando. Y es por eso que Microsoft se ha hecho con Presenting instant answers to internet queries que básicamente, como su nombre indica, se queda con los llamados «onebox» de respuesta directa. El sistema es sencillo… el usuario realiza una consulta de búsqueda y, dependiendo de lo que se esté buscando (mediante palabras clave o combinaciones) se devuelve el resultado directamente. One or more computer-storage media having computer-executable instructions embodied thereon for performing a method of providing a response to a query request, the method comprising: receiving the query request that includes query terms from a requester, wherein the requester is not registered to receive … Leer más

Categorías SEO

Detección y clasificación de contenidos para adultos

Desde que se lanzaron los primeros motores de búsqueda uno de los primeros filtros que se incorporaron fue el de contenidos para adultos, normalmente con 3 límites: nulo, moderado y estricto. Cada cierto tiempo, y debido a que el sector de adultos evoluciona mucho más rápido que el resto de la web, los motores han de buscar nuevas formas de organizar y clasificar esa información, y de ahí que Microsoft haya preparado el Multimodal classification of adult content donde se detallan algunas metodologías. El objetivo es encontrar en textos, imágenes y vídeos si hay contenidos para adultos, y para ello se utilizan ciertas metodologías de detección, que se suman a las ya utilizadas hasta ahora. Y por eso el primer paso que se realiza es el de detectar … Leer más

Categorías SEO

¿Sabes buscar? Bing será para ti

Personalmente en muchas ocasiones echo en falta que Google, Bing o cualquier otro me muestre determinadas cosas en la interfaz de resultados cuando estoy trabajando. Y es que hay determinados momentos en que comienzo a hacer algunas consultas de búsqueda complejas, principalmente cuando rastreo información de un sitio concreto. Pues bien, eso podría acabarse. Y es que Microsoft se ha planteado encontrar a los expertos buscadores, tal y como explica en Identification and use of web searcher expertise, donde explica claramente que algunos usuarios son mejores buscando cosas que otros, ya sea por las búsquedas complejas (usando paréntesis, OR y similares) o porque saben encontrar las palabras adecuadas para esa consulta. ¿Por qué a ellos no darles una interfaz de búsqueda distinta? ¿Algo más compleja para poder sacarle … Leer más

Categorías SEO

Detección de granjas de enlaces

Sin duda en SEO uno de los grandes problemas que tienen los buscadores es lidiar con aquellos que quieren hacer trampa y jugar con el PageRank. Pero el PageRank de Google (que al final es un estándar de facto en el resto de motores) se puede usar ligeramente como sistema antispam y sobre todo puede ayudar a detectar incoherencias en cuanto a grafos. En el caso de los buscadores existe el llamado web-graph, que es «el momento» en el que todas las webs y enlaces se pueden tomar en un momento determinado, como si hiciéramos una foto de Internet. Pues Yahoo! (una vez más) ha creado un sistema llamado Methods and apparatus for computing graph similarity via sequence similarity con el que pretende encontrar incongruencias, ramas duplicadas del … Leer más

Categorías SEO

Sistema para detectar una plantilla web

Una forma de saber qué parte de un sitio web es importante y qué parte es común al resto de páginas del sitio es saber qué plantilla se está utilizando. Y eso es lo que Yahoo! ha patentado en System and method for detecting a web page template. El objetivo es conseguir que un sistema de forma automática detecte qué parte de la página es una plantilla, extraer los distintos bloques de contenido y asignarle, a cada uno de los bloques un determinado peso. Los motores de búsqueda en muchas ocasiones necesitan eliminar de la ecuación la parte común de todas las páginas de un sitio para conseguir lo importante de las páginas: sus contenidos. Para ello es necesaria la extracción de aquellas partes que generan ruido, lo … Leer más

Categorías SEO

Yahoo!: navega y mejoraremos las búsquedas

Interesante propuesta la que hace Yahoo! para mejorar los resultados de búsqueda y no depender tanto de conceptos como el PageRank o de la navegación que hacen los usuarios a través de las propias páginas de resultados, y es la de usar los logs de navegación de los ISP. Antes de seguir pongámonos en antecedentes para aquellos que no tengan muy claro cómo funciona la navegación del usuario. Un usuario está en su casa delante de su navegador de Internet y con su proveedor de Internet (cable, ADSL, etc…). El proveedor lo que hace es de intermediario entre tu casa y los servidores donde se encuentran las páginas web que visitas. Por ejemplo, ahora que estás visitando javiercasares.com has de conectarte con (por ejemplo) Telefónica, que va a … Leer más

Categorías SEO

Google y el SEO de tus sitios favoritos

Cuando en SEO se habla de enlaces nos olvidamos de un tipo de enlaces muy importantes pero a la vez muy complejos de que Google o Bing los acaben encontrado: los que tenemos en nuestra lista de marcadores favoritos del navegador. Pues ahora Google se ha hecho con una patente que permite indexar este tipo de información y usarla. La situación es que normalmente nos guardamos en nuestra lista de «favoritos» aquellas páginas que visitamos mucho o que nos son complejas de encontrar y por tanto nos las guardamos. Sin duda estas direcciones URL son de un valor, ya que sin duda son las más importantes para cada uno de nosotros. Y ahí es donde Google quiere llegar. Hasta hace un tiempo si querías tener tus marcadores en … Leer más

Categorías SEO

Yahoo!, singular y plural

Si ayer comentaba que hay patentes que te llegan a sobre coger por lo amplias que pueden ser, a veces otras te sorprenden por lo sencillas y efectivas que son. Y este es el caso que ha patentado Yahoo!, un sistema que busca palabras en singular y/o plural y reconstruye la consulta de búsqueda para tener mejores resultados. La patente llamada Word pluralization handling in query for web search básicamente lo que hace es analizar la consulta de búsqueda, buscar aquellos conceptos que tengan un equivalente en singular o plural (dependiendo del caso) y reconstruye la consulta y es la que se ejecuta, de forma transparente para el usuario. Para esto se usaría un diccionario de palabras relacionadas basadas en las consultas anteriores de muchos usuarios. Como curiosidad, … Leer más

Categorías SEO

Google patenta la interfaz de resultados para productos

Sin duda las cosas que se pueden patentar son bastante impresionantes, y la que ha patentado Google me parece sorprendente ya que es algo bastante estándar en muchos motores de búsqueda y esto puede llevar consecuencias en cuanto a cambios de interfaz en algunos de estos sitios con tal de no tener que pagar al buscador de Mountain View. En esta ocasión, y basándose en Froogle (lo que actualmente conocemos como Google Product Search), Google ha conseguido la patente llamada Method and apparatus for output of search results en la que se explica cómo se muestran los resultados (en modo lista y modo parrilla) de un buscador que devuelve resultados de tipo «producto». In another embodiment, the user may even be able to customize an output format. For … Leer más

Categorías SEO

Dónde conseguir visitas

Seguramente en esta entrada encontraréis cosas obvias, pero a muchos les servirá para darse cuenta de que la realidad de Internet cambia a lo largo del tiempo y nunca está de más darle una ojeada a los sitios que más visitas pueden aportar a nuestros sitios web. Para empezar podemos hablar de los clásicos, los buscadores, que hoy en día se resumen en 2 grandes motores aunque varios sitios de origen de tráfico. El principal de ellos es Google junto a Bing, aunque sin descartar otros sitios como Yahoo!, Yandex, Baidu, Naver e incluso Ask o AOL. Todo depende del país en el que se encuentre el proyecto y su idioma. Aunque desde España nos centramos en Google casi al 100% no hemos de olvidar que hay usuarios … Leer más

Categorías SEO

Facebook, resultados de búsqueda y Me Gusta

Facebook parece no preocuparse mucho por las búsquedas, al menos no por montar un buscador de la forma en la que lo harían Bing o Google, sino que estaría más preocupada por ofrecer unos buenos resultados a la hora de encontrar información en su propia red, pero para conseguir eso sí que necesita cierta forma de ordenar los resultados… y ¿cómo lo hace? Pues un par de patentes en las que, en principio, se patenta lo mismo, tendrían la respuesta. La primera de ellas se llama Ranking search results based on the frequency of clicks on the search results by members of a social network who are within a predetermined degree of separation y la segunda Visual tags for search results generated from social network information, ambas con … Leer más

Categorías SEO

Google patenta el «Quiso decir…»

Desde prácticamente el inicio de Google hemos visto en los resultados de búsqueda un sistema que, al escribir de forma incorrecta una consulta se nos sugería otra escrita correctamente. Tiempo después hemos visto evoluciones de este servicio incluso dando directamente los resultados de búsqueda intercalando los correctos e incorrectos o incluso dando directamente los resultados corregidos completamente. Han tenido que pasar 7 años para que Google ahora consiga la patente que permite corregir y sugerir automáticamente una consulta de búsqueda por otra. Cuando el sistema recibe una consulta de búsqueda que incluye una entidad, se determina la posibilidad de ofrecer una consulta reescrita basada en la información recibida por consultas anteriores relacionadas con la entidad y reescribe la consulta de búsqueda cuando se determina que la consulta de … Leer más

Categorías SEO

Google patenta los Sitelinks

A mediados de 2005 Google solicitaba la patente Systems and methods for providing search results en la que básicamente se quería patentar lo que hoy en día conocemos como los «sitelinks», aquellos resultados de búsqueda relacionados con el mismo sitio al que corresponde el resultado previo. Estos días atrás Google ha comenzado a hacer muchos más experimentos sobre este tipo de formato, justo después de recibir la aprobación de la patente que le permite este uso. ¿Qué hará ahora el resto de buscadores con respecto a este sistema? La definición exacta en la patente de un sitelink vendría a ser la siguiente: Una consulta de búsqueda genera resultados de búsqueda donde, al menos uno de los resultados, incluye un grupo de enlaces. El grupo de enlaces es representativo … Leer más

Categorías SEO

WPO, SEO y Fórmula 1

Llevo viendo Fórmula 1 desde hace muchos años, antes de que Alonso estuviera en Minardi, y desde hace un tiempo que me doy cuenta de que la Fórmula 1 cada día se parece más al SEO y al WPO. La cosa va de milésimas de segundo, de fiabilidad y de copiar lo bueno de los demás coches (o webs). Lo entretenido de la Fórmula 1 en muchos casos es, para los que no entiendan mucho, que existen una serie de equipos con distintos presupuestos, que cada equipo suele tener 3 pilotos (2 que corren y 1 que prueba), una serie de fabricantes de motores, en esta temporada un único fabricante de ruedas, distintos fabricantes de combustibles y, principalmente, cada equipo juega con la aerodinámica. Podríamos decir que lo … Leer más

El plugin SEO perfecto para WordPress

Hace un tiempo que comenté que algún día publicaría cómo debería ser el plugin perfecto de SEO para WordPress. Que conste que esto es una carta a los Reyes Magos, y que personalmente limitaría al máximo las opciones que puedan configurar los usuarios, dando una serie de opciones predeterminadas para que realmente la aplicación sea óptima. Comencemos. El primer punto vamos a enfocarlo a los títulos. Por norma general los títulos de un sitio se pueden configurar de forma bastante automática siguiendo las bases de cómo busca la gente. Aunque hay 2 opciones: un sitio organizado principalmente por páginas o por entradas. Si el sitio está organizado por entradas (en modo blog, vaya) la estructura de URL debería ser: Página Principal: Nombre del blog (sin palabras clave ni … Leer más

Qué es una penalización, según Google

Sin duda de tanto en tanto cae alguna perla en la red de redes que vale la pena leer en profundidad e interpretar correctamente (que, como en GH, todo se magnifica por lo que dice una persona, y tampoco es plan). Tiffany Oberoi es una de las personas implicadas en el equipo de calidad de los resultados de búsqueda de Google y ha ofrecido una entrevista de la que se pueden sacar algunas conclusiones y confirmaciones de algunos asuntos que siempre están en el aire. Personalmente lo que más me interesa es la clasificación de las penalizaciones y para qué sirve la petición de reinclusión de Google Webmaster Tools. No voy a traducir la entrevista pero sí que voy a ir comentando las respuestas en el mismo orden … Leer más

Categorías SEO