• Historial de contenidos duplicados

    ·

    En la red existen multitud de documentos a rastrear; los buscadores van reindexándolos y descubriendo los nuevos según van revisitándolos. Pero existe el problema de encontrar documentos duplicados ya sea completa o pacialmente. Además, hay documentos que cambian con mucha frecuencia. Incluso, puede ser que simplemente el documento vaya cambiando una parte del mismo (la publicidad, los enlaces recomendados o algún bloque aleatorio…), lo que podría implicar tener dicho documentos con sólo la variable parcial del mismo. Otro problema que nos podemos encontrar es el de el rastreo sesgado. Esto suele pasar en los blogs, donde un mismo documento se… Seguir leyendo →

  • Formas de propagar la relevancia entre documentos

    ·

    Es de muchos conocido el algoritmo del PageRank (Google), que básicamente lo que calcula es la relación entre documentos en base a la cantidad de enlaces que tienen entre ellos y, en base a esto, calcular el peso de la información a la hora de ofrecer resultados de búsqueda. Con esto se puede llegar a realizar una clasificación de todos los datos de la red de redes aún teniendo en cuenta que hay páginas sin enlaces, generando una imagen instantánea de la red. Pero aunque este es el algoritmo más conocido, existen otros dos algoritmos igual de interesantes. Uno de… Seguir leyendo →

  • ¿Afecta Google Analytics al SEO?

    ·

    Seguro que alguna vez te has preguntado ¿afectará poner Google Analytics al SEO de mi sitio? Pues ahora tenemos la respuesta oficial, y es que Google ha conseguido una patente que permite reorganizar los resultados de búsqueda parcialmente dependiendo de las estadísticas… es decir, que si Google quiere, puede. Y es que ha conseguido la Methods and apparatus for employing usage statistics in document retrieval en la que se mejoran los resultados de búsqueda dependiendo, total o parcialmente, de las estadísticas de uso. Systems and methods consistent with the present invention address this and other needs by identifying compounds based… Seguir leyendo →

  • Respuestas a consultas de búsqueda

    ·

    Hace ya muchos años que los buscadores son capaces de responder a preguntas, normalmente elementos sencillos que facilitan lo que el usuario está buscando. Y es por eso que Microsoft se ha hecho con Presenting instant answers to internet queries que básicamente, como su nombre indica, se queda con los llamados «onebox» de respuesta directa. El sistema es sencillo… el usuario realiza una consulta de búsqueda y, dependiendo de lo que se esté buscando (mediante palabras clave o combinaciones) se devuelve el resultado directamente. One or more computer-storage media having computer-executable instructions embodied thereon for performing a method of providing… Seguir leyendo →

  • El Libro de las Almas

    ·

    Hace un par de semanas os comentaba que me había acabado de leer La Biblioteca de los Muertos, y que me había pedido la continuación de ese libro, El Libro de las Almas. Pues bien, no ha durado ni 10 días entre mis manos que ya me lo he fundido. Si la anterior entrega estaba bien, esta casi que me ha gustado más. Se supone que se puede leer sin necesidad de haber leído el anterior, pero, la verdad, hay que leer el anterior para comprender al 100% el porqué los personajes son como son y hacen lo que hacen.… Seguir leyendo →

  • Tras la WordCamp Sevilla 2011

    ·

    Como ya sabéis muchos de vosotros este fin de semana he estado en la WordCamp Sevilla 2011. Las WordCamp son los eventos oficiales de WordPress en los que suele ir gente de Automattic, la empresa que hay detrás de este grandísimo software, además de usuarios y desarrolladores de la plataforma. Durante el fin de semana estuve dando un par de charlas, una sobre Google Panda y WordPress, en la que comenté como reducir la cantidad de URL que genera WordPress perdiendo el mínimo tráfico posible, y sabiendo que en la nueva versión el propio sistema, a sabiendas de esto, va… Seguir leyendo →

  • WordPressformance Optimization #WordCampSev 2011

    ·

    Ayer ya di la charla de Google Panda y WordPress y hoy ha tocado la charla de WordPress Performance Optimization, que he reducido a WordPressformance. La charla de hoy ha tratado de cómo montar una infraestructura más organizada en sitio que necesitan alto rendimiento, ya que está claro que montar un WordPress en la misma máquina el Apache, SQL y PHP pues como que no es lo mejor… Así que nada, aquí os dejo la presentación en PDF para los que queráis descargarla. Seguir leyendo →

  • WordPress y Google Panda #WordCampSev 2011

    ·

    Entre hoy y mañana se está celebrando el WordCamp Sevilla 2011 y voy a dar 2 charlas… la primera de ellas se llama WordPress y Google Panda y, como ya podéis supones habla de la relación que hay entre el nuevo algoritmo Google Panda y WordPress (.org). Os dejo la presentación descargable en PDF. Como comentario a destacar (que he de analizar en una versión de pruebas que tengo) es que me han comentado que WordPress 3.3 incluirá grandes mejoras en cuanto a qué indexa y que no indexan los buscadores en determinadas URL de WordPress. Habrá que verlo y… Seguir leyendo →

  • Herramienta que decide el mejor sitio de los contenidos

    ·

    Por norma general nos toca a los creadores de sitios web decidir dónde va la publicidad o los bloques de contenidos… esto, junto al departamento de marketing acaba constituyendo la creación de un sitio web. Pero, en muchas ocasiones tener la publicidad o determinados bloques de contenido «que generan beneficios» no es siempre el adecuado… ¿qué tal si dejamos a Yahoo! decidir cuál es el sitio óptimo para colocar un bloque de contenido relacionado (tal y como explica en System and method using sampling for allocating web page placements in online publishing of content? Los medios de comunicación offline, principalmente… Seguir leyendo →

  • La Biblioteca de los Muertos

    ·

    hace unas semanas cayó en mis manos el libro La Biblioteca de los Muertos de Glenn Cooper, un libro que no sé como había llegado a mi casa (estaba en la estantería sin leer, y yo no lo había comprado) y la verdad es que me ha encantado. Al principio he de decir que no entendí mucho, porque los libros en los que hay tantos personajes y tantos saltos de tiempo y lugar me acaban mareando, y también que los primeros capítulos no estaba 100% por el libro, la verdad. Pero este fin de semana, aprovechando un viaje, he querido… Seguir leyendo →

  • Detección y clasificación de contenidos para adultos

    ·

    Desde que se lanzaron los primeros motores de búsqueda uno de los primeros filtros que se incorporaron fue el de contenidos para adultos, normalmente con 3 límites: nulo, moderado y estricto. Cada cierto tiempo, y debido a que el sector de adultos evoluciona mucho más rápido que el resto de la web, los motores han de buscar nuevas formas de organizar y clasificar esa información, y de ahí que Microsoft haya preparado el Multimodal classification of adult content donde se detallan algunas metodologías. El objetivo es encontrar en textos, imágenes y vídeos si hay contenidos para adultos, y para ello… Seguir leyendo →

  • Cómo convertirse en un Hijo de Puta

    ·

    Al poco de estrenarse Amazon en España, me encontré leyendo por twitter sobre un libro llamado Cómo convertirse en un Hijo de Puta. No miré nada más… quedaban 2 copias en el portal y me quedé con una de ellas que llegó al par de días. A ver, no os penséis que es una novela romántica, ni tan sólo una novela… son pequeños fragmentos de Herminio Bolaextra, un personaje de cómic / tiras cómicas, un periodista que tiene un particular sentido de ver el mundo. Ahora, para celebrar su mayoría de edad, aparece este volumen de humor gráfico a caballo… Seguir leyendo →

  • ¿Sabes buscar? Bing será para ti

    ·

    Personalmente en muchas ocasiones echo en falta que Google, Bing o cualquier otro me muestre determinadas cosas en la interfaz de resultados cuando estoy trabajando. Y es que hay determinados momentos en que comienzo a hacer algunas consultas de búsqueda complejas, principalmente cuando rastreo información de un sitio concreto. Pues bien, eso podría acabarse. Y es que Microsoft se ha planteado encontrar a los expertos buscadores, tal y como explica en Identification and use of web searcher expertise, donde explica claramente que algunos usuarios son mejores buscando cosas que otros, ya sea por las búsquedas complejas (usando paréntesis, OR y… Seguir leyendo →

  • Detección de granjas de enlaces

    ·

    Sin duda en SEO uno de los grandes problemas que tienen los buscadores es lidiar con aquellos que quieren hacer trampa y jugar con el PageRank. Pero el PageRank de Google (que al final es un estándar de facto en el resto de motores) se puede usar ligeramente como sistema antispam y sobre todo puede ayudar a detectar incoherencias en cuanto a grafos. En el caso de los buscadores existe el llamado web-graph, que es «el momento» en el que todas las webs y enlaces se pueden tomar en un momento determinado, como si hiciéramos una foto de Internet. Pues… Seguir leyendo →

  • Sistema para detectar una plantilla web

    ·

    Una forma de saber qué parte de un sitio web es importante y qué parte es común al resto de páginas del sitio es saber qué plantilla se está utilizando. Y eso es lo que Yahoo! ha patentado en System and method for detecting a web page template. El objetivo es conseguir que un sistema de forma automática detecte qué parte de la página es una plantilla, extraer los distintos bloques de contenido y asignarle, a cada uno de los bloques un determinado peso. Los motores de búsqueda en muchas ocasiones necesitan eliminar de la ecuación la parte común de… Seguir leyendo →

  • Yahoo!: navega y mejoraremos las búsquedas

    ·

    Interesante propuesta la que hace Yahoo! para mejorar los resultados de búsqueda y no depender tanto de conceptos como el PageRank o de la navegación que hacen los usuarios a través de las propias páginas de resultados, y es la de usar los logs de navegación de los ISP. Antes de seguir pongámonos en antecedentes para aquellos que no tengan muy claro cómo funciona la navegación del usuario. Un usuario está en su casa delante de su navegador de Internet y con su proveedor de Internet (cable, ADSL, etc…). El proveedor lo que hace es de intermediario entre tu casa… Seguir leyendo →

  • Google y el SEO de tus sitios favoritos

    ·

    Cuando en SEO se habla de enlaces nos olvidamos de un tipo de enlaces muy importantes pero a la vez muy complejos de que Google o Bing los acaben encontrado: los que tenemos en nuestra lista de marcadores favoritos del navegador. Pues ahora Google se ha hecho con una patente que permite indexar este tipo de información y usarla. La situación es que normalmente nos guardamos en nuestra lista de «favoritos» aquellas páginas que visitamos mucho o que nos son complejas de encontrar y por tanto nos las guardamos. Sin duda estas direcciones URL son de un valor, ya que… Seguir leyendo →

  • Yahoo!, singular y plural

    ·

    Si ayer comentaba que hay patentes que te llegan a sobre coger por lo amplias que pueden ser, a veces otras te sorprenden por lo sencillas y efectivas que son. Y este es el caso que ha patentado Yahoo!, un sistema que busca palabras en singular y/o plural y reconstruye la consulta de búsqueda para tener mejores resultados. La patente llamada Word pluralization handling in query for web search básicamente lo que hace es analizar la consulta de búsqueda, buscar aquellos conceptos que tengan un equivalente en singular o plural (dependiendo del caso) y reconstruye la consulta y es la… Seguir leyendo →

  • Google patenta la interfaz de resultados para productos

    ·

    Sin duda las cosas que se pueden patentar son bastante impresionantes, y la que ha patentado Google me parece sorprendente ya que es algo bastante estándar en muchos motores de búsqueda y esto puede llevar consecuencias en cuanto a cambios de interfaz en algunos de estos sitios con tal de no tener que pagar al buscador de Mountain View. En esta ocasión, y basándose en Froogle (lo que actualmente conocemos como Google Product Search), Google ha conseguido la patente llamada Method and apparatus for output of search results en la que se explica cómo se muestran los resultados (en modo… Seguir leyendo →

  • Tiempo de carga de una web

    ·

    En SEO y WPO hay muchas cifras a tratar. Como expliqué en el artículo que comparaba el WPO con la Fórmula 1 la cosa va de décimas, pero… ¿cuáles son las décimas que importan? En los paneles de Google Webmaster Tools tenemos muchas cifras relacionados con tiempos, y estas cifras significan muchas cosas distintas. Voy a ver si soy capaz de explicar cada una de ellas. Una de las primeras gráficas que tenemos es la de «Rendimiento del Sitio»: Esta gráfica lo que muestra es el tiempo de carga de la página, desde que se descarga el primer byte hasta… Seguir leyendo →