Detección y clasificación de contenidos para adultos

Desde que se lanzaron los primeros motores de búsqueda uno de los primeros filtros que se incorporaron fue el de contenidos para adultos, normalmente con 3 límites: nulo, moderado y estricto. Cada cierto tiempo, y debido a que el sector de adultos evoluciona mucho más rápido que el resto de la web, los motores han de buscar nuevas formas de organizar y clasificar esa información, y de ahí que Microsoft haya preparado el Multimodal classification of adult content donde se detallan algunas metodologías.

El objetivo es encontrar en textos, imágenes y vídeos si hay contenidos para adultos, y para ello se utilizan ciertas metodologías de detección, que se suman a las ya utilizadas hasta ahora. Y por eso el primer paso que se realiza es el de detectar el tipo de contenido.

En este caso lo primero que se hará es analizar la dirección URL del recurso. Para ello se dividirá la URL en distintas palabras y se determinará si estas disponen de un elemento que pueda corresponder a contenido adulto. Estas palabras se normalizarán (por ejemplo, la palabra searching y searcher quedaría como search. Además también se hace un análisis semántico, de forma que picture, graph, wallpaper o photograph quedarían como picture. Una vez se han normalizado, se identifica contenido adulto. Para ello se utilizan distintos sistemas que también determinarían que adult movie sí que podría entrar en el filtrado, pero adult education no. Además, este sistema también determinaría si el contenido es moderado o estricto (como comentaba antes en el sistema de filtrado) y de esta forma decidir si se ha de mostrar al usuario o no.

El siguiente paso es el de determinar el contenido textual de la página (en caso de que esta dirección URL lo incluya). En este caso se analizar el texto de la página, los textos alrededor de las imágenes (y vídeos) que se incluyen. En caso de ser necesario se puede usar el mismo sistema que en la detección de URL de normalizar los contenidos para mejorar la detección. Aún así, el sistema que analiza los textos y las URL son distintos aunque usen métodos similares. Otra de las cosas que se analizan son los enlaces, tanto el “anchor text” como los títulos o textos alternativos.

La parte interesante viene en cómo se determina si una imagen o un vídeo incluye contenido para adultos o no, que es la parte más novedosa. En la parte de imágenes lo que se intenta determinar es si existe alguna parte de la imagen en la que se incluye “piel”, es decir, zonas de la imagen en las que por color se puede apreciar que existe una persona o parte de ella. Si la imagen directamente no tiene “piel” se clasifica como una imagen normal y no sigue las siguientes pruebas.

El siguiente punto es el análisis de rostros; en este caso el sistema “recorta” los rostros y devuelve la imagen al siguiente paso con esas zonas que ya se han eliminado y no se deben analizar más. Gracias a esto también se revisan aquellos posibles falsos positivos que se hayan dado en el punto anterior. Otra cosa que se hace es analizar ese rostro y comprobar que tampoco implica, de por sí, un contenido para adultos. Como el rostro tiene un color determinado de piel, se puede reajustar el paso anterior y volver a revisar otras partes del cuerpo basadas en el color de piel encontrado en el rostro.

Una vez analizado el color de piel y los rostros lo que se buscan son texturas. Eliminar las texturas lo que permitirá es encontrar aquellas partes que, ya de por sí no son contenidos para adultos (por ejemplo, ropa, lugares, cabello…) y, de la misma forma que en el caso de los rostros, se eliminan y se pasan al siguiente paso. Además también se podrían eliminar determinadas zonas de piel. Como detalle es que las texturas suelen encontrarse a partir de las esquinas de las imágenes y están “borrosas”.

En último lugar encontramos en análisis de formas, que revisa distintas partes de la zona de piel que permitan encontrar formas de contenidos para adultos. En este caso, si se encuentra alguna forma que pueda relacionarse con contenido para adultos esa imagen se marca como tal. En caso contrario la imagen se marca como normal.

Con esto nos quedarían estos dos workflows que resumirían los distintos pasos que se llevan a cabo a la hora del filtrado de direcciones URL y de contenidos multimedia.

Cómo convertirse en un Hijo de Puta

Al poco de estrenarse Amazon en España, me encontré leyendo por twitter sobre un libro llamado Cómo convertirse en un Hijo de Puta. No miré nada más… quedaban 2 copias en el portal y me quedé con una de ellas que llegó al par de días.

A ver, no os penséis que es una novela romántica, ni tan sólo una novela… son pequeños fragmentos de Herminio Bolaextra, un personaje de cómic / tiras cómicas, un periodista que tiene un particular sentido de ver el mundo.

Ahora, para celebrar su mayoría de edad, aparece este volumen de humor gráfico a caballo entre el manual de autoayuda y el libro de instrucciones que describe minuciosamente la forma de ser y pensar de Herminio Bolaextra convirtiéndose en la guía definitiva de su universo de chistes gruesos y actitudes de alta peligrosidad social. Un método directo y eficaz para tomar ejemplo y conseguir convertirse en un auténtico hijo de puta.

Ayer por la tarde me propuse darle una ojeada a todas las páginas del libro, y desde la portada hasta la contratapa son dignas de estudio. La numeración de las páginas tiene una rima fácil con todos los númerosa (tipo: 3, me la toco con los pies).

Lo primero que te propone Herminio es la lista de equipamiento que necesitas. A mi, como elemento destacado, me quedo rotulador Edding 850 (quién no ha tenido uno de esos, con la punta gigante).

El libro se divide en un par de decenas de capítulos comenzando por el Cómo ofender, de entrada, Estrangulando al calvo, Esos cabrones que no paran de meter ruido, Me la comes y cuentas veinte o Cómo escaquearse después de haberla montado. Sin duda un repaso por cómo conseguir ser un cafre y un hijo de puta en en bar, con los vecinos, el día de Navidad e infinidad de momentos especiales.

¿Sabes buscar? Bing será para ti

Personalmente en muchas ocasiones echo en falta que Google, Bing o cualquier otro me muestre determinadas cosas en la interfaz de resultados cuando estoy trabajando. Y es que hay determinados momentos en que comienzo a hacer algunas consultas de búsqueda complejas, principalmente cuando rastreo información de un sitio concreto. Pues bien, eso podría acabarse.

Y es que Microsoft se ha planteado encontrar a los expertos buscadores, tal y como explica en Identification and use of web searcher expertise, donde explica claramente que algunos usuarios son mejores buscando cosas que otros, ya sea por las búsquedas complejas (usando paréntesis, OR y similares) o porque saben encontrar las palabras adecuadas para esa consulta. ¿Por qué a ellos no darles una interfaz de búsqueda distinta? ¿Algo más compleja para poder sacarle provecho?

The search engine user interface seen by a skillful searcher who has searched the Web 100 times per day for ten years is the same as that seen by a novice who has only searched the Web once or twice.

El objetivo de este sistema no es definir qué es usar o qué no en esa interfaz, pero queda claro que a alguien que ha utilizado mucho las búsquedas no se le puede mostrar la interfaz habitual. ¿Cómo podría ser esa interfaz? Personalmente, algo que creo que podría hacerse de una forma rápida y sencilla es que, si tienes un dominio verificado en Google Webmaster Tools o Bing Webmaster Tools y haces una consulta de “site:” la interfaz de resultados debería ser distinta, con ciertas opciones de filtrado que no aparezcan normalmente.

Ahora queda saber dos cosas: cómo se sabe qué es un buen experto en búsquedas y qué se puede mostrar para diferenciar los resultados… El comportamiento debe venir dado por el comportamiento propio de la consulta de búsqueda, cómo se navega tras realizar la consulta. Por ejemplo el uso de operadores avanzados, que se hagan menos consultas de las habituales para encontrar la información, consultas de búsqueda más largas de lo normal, pulsar en resultados “más abajo” de lo habitual o realizar más consultas de lo habitual por día, incluso la repetición de determinadas consultas diariamente. Visitar determinadas páginas poco habituales, personas que dedican más tiempo a revisar los resultados de búsqueda… Otra forma de analizar si alguien es “experto” podría ser considerando que tenga muchas ventanas del navegador abiertas y que realice consultas similares en distintos buscadores, o por ejemplo personas que utilizan determinados sistemas operativos o navegadores (por ejemplo versiones de desarrollo).

¿Qué cambios se podrían realizar en las páginas de resultados? Pues quizá la más sencilla sería la de ampliar la cantidad de resultados de búsqueda (de 10 a 50, por ejemplo), mostrar una interfaz de búsqueda más avanzada, dar resultados más detallados sobre el ranking de dicha página, el historial de búsqueda… Pero tenemos el caso contrario, el qué mostrar a un usuario nuevo de la plataforma de búsqueda… en cuyo caso podríamos mostrarle ayudas, formarle sobre el uso de operadores avanzados…

Otro cambio, aunque este más radical, es la personalización de resultados según el tipo de usuario… es decir, que un usuario novato y uno experto tengan resultados distintos, en los que por ejemplo influya las visitas anteriores a esas páginas. Además este sistema también podría afectar a los resultados de publicidad, mostrando distintos tipos de anuncios según este perfil de usuario.

Hay que reconocer que tanto Google como Bing y Yahoo! ya tienen determinados filtros que mejoran las búsquedas en base al tipo de consulta pero que aún no se acaban de centrar en el propio usuario (quizá sí sobre las consultas de búsqueda anteriores, pero no sobre su experiencia).

Detección de granjas de enlaces

Sin duda en SEO uno de los grandes problemas que tienen los buscadores es lidiar con aquellos que quieren hacer trampa y jugar con el PageRank. Pero el PageRank de Google (que al final es un estándar de facto en el resto de motores) se puede usar ligeramente como sistema antispam y sobre todo puede ayudar a detectar incoherencias en cuanto a grafos. En el caso de los buscadores existe el llamado web-graph, que es “el momento” en el que todas las webs y enlaces se pueden tomar en un momento determinado, como si hiciéramos una foto de Internet. Pues Yahoo! (una vez más) ha creado un sistema llamado Methods and apparatus for computing graph similarity via sequence similarity con el que pretende encontrar incongruencias, ramas duplicadas del web-graph y cualquier punto que alerte de “fallos” en sistema.

Web graphs are approximate snapshots of the web, created by search engines. The evolution of the web can be monitored via monitoring web graphs. Web graphs also enable global web properties such as GOOGLE’S PAGERANK to be computed where PAGERANK is a score assigned to a web page based on the importance of that web page. The importance of a web page is determined by the importance of the other web pages that hyperlink to the web page. Monitoring web graphs also provides a means to monitor the effectiveness of search engines and web crawlers or web spiders.

Web graphs are composed of nodes connected by edges. Nodes represent web pages and can be associated with one or more properties for the node’s web page such as PAGERANK, domain level quality, and scores relating to spam, and the level of adult content among others. Edges represent the hyperlinks between web pages and can be associated with one or more properties such as the PAGERANK of the web page from which an edge originates.

El objetivo, como decía, es encontrar anomalías en el grafo. Para ello se van creando tokens de distintos bloques del grafo que luego permitan compararse con otros tokens de otras partes del grafo y buscar similitudes. Es bastante similar al sistema que usa Google para detectar contenidos duplicados. Además, se pueden tomar de referencia varios web-graph de disferentes momentos y comparralos, de forma que también se pueden encontra de una forma sencilla los crecimientos de los sitios y sus variaciones.

Además, gracias a este sistema también se puede llegar a detectar cuál de todos los contenidos (en este caso, que parte de los grafos) se han publicado antes, y así poder buscar duplicaciones e historizarlas, algo que en algunos casos puede fallar, pero que en general los propios buscadores son capaces de detectar.

A search engine generally has an online and offline system. The online group processes user queries in real time and returns search results. The offline system 510 collects content from web pages 550, 552, 554 and prepares it for the online group. In the illustrated embodiment, the offline group 510 comprises three modules: the crawler module 512, the indexer module 516, and the web graph module 514. The crawler module can comprise or instruct a web crawler to crawl the web and gather web pages and data via a network 530. The web graph module 514 creates web graphs from the web pages and from the data that the crawler collects. The web graph module 514 monitors similarity between web graphs by selecting a first and second web graph and computing the similarity between the first and second web graph. In response to finding one or more anomalous web graphs the web graph module 514 carries out operations to remove anomalies and modify parameters governing web mapping. The indexer module 516 indexes web pages using their content as retrieved by the web crawler. The indexer module 516 can also use the similarity as determined by the web graph module 516 to index web pages.

Sistema para detectar una plantilla web

Una forma de saber qué parte de un sitio web es importante y qué parte es común al resto de páginas del sitio es saber qué plantilla se está utilizando. Y eso es lo que Yahoo! ha patentado en System and method for detecting a web page template. El objetivo es conseguir que un sistema de forma automática detecte qué parte de la página es una plantilla, extraer los distintos bloques de contenido y asignarle, a cada uno de los bloques un determinado peso.

Los motores de búsqueda en muchas ocasiones necesitan eliminar de la ecuación la parte común de todas las páginas de un sitio para conseguir lo importante de las páginas: sus contenidos. Para ello es necesaria la extracción de aquellas partes que generan ruido, lo que se podría definir como “la plantilla” (template o theme).

Modern search engines may only require content of web pages without such template structures for indexing, analysis and ranking of web pages for user search queries. Furthermore, template structures can cripple the performance of many modules of search engines, including the index function, ranking function, summarization function, duplicate detection function, etc. With templated content currently constituting more than half of all HTML on the web and growing steadily, it is imperative that search engines develop scalable tools and techniques to reliably detect templates on a web page.

Para sacar las partes importantes de un sitio normalmente los sistemas se basan en el DOM, lo que permitiría llegar a identificar qué partes del HTML son las más importantes. Quizá por eso en HTML 5 se han elegido nuevas etiquetas para diferenciar las partes más importantes de cada página.Y es que para sacar las plantillas lo que normalmente se buscan son árboles DOM similares para, de esta forma eliminar el ruido de las zonas que no interesan. Hay que tener en cuenta que hay distintas plantillas dentro de un sitio, lo que podríamos llamar las site-level que son las partes comunes de todo el sitio (normalmente cabecera, navegación y pie de página) pero que hay otras partes como la navegación de página o la específica de la sesión (bloque de contenidos relacionados, “también te interesa”…) que van variando. Esto implica que hay partes de un sitio que no se pueden detectar como sub bloques de la propia plantilla global.

Lo que Yahoo! propone es encontrar un sistema que aprenda a gran escala de muchas plantillas para mejorar esa lista de bloques diferenciales, poniendo una puntuación a los distintos bloques de distintas plantillas y encontrar patrones (o funcionalidades) comunes entre páginas completamente distintas. Al fin y al cabo, “la mayor parte de sitios web son iguales”.

Aunque quizá la parte más interesante de este sistema es el uso que se le puede dar para encontrar contenidos o sitios duplicados:

The present invention may support many online applications. For example, template detection at the page-level may be used as a pre-processing step to web mining applications such as duplicate detection and web page classification. Moreover, an off-the-shelf classifier may be used in the framework, instead of having to design one that works specifically for the given hierarchical structure.

Yahoo!: navega y mejoraremos las búsquedas

Interesante propuesta la que hace Yahoo! para mejorar los resultados de búsqueda y no depender tanto de conceptos como el PageRank o de la navegación que hacen los usuarios a través de las propias páginas de resultados, y es la de usar los logs de navegación de los ISP.

Antes de seguir pongámonos en antecedentes para aquellos que no tengan muy claro cómo funciona la navegación del usuario. Un usuario está en su casa delante de su navegador de Internet y con su proveedor de Internet (cable, ADSL, etc…). El proveedor lo que hace es de intermediario entre tu casa y los servidores donde se encuentran las páginas web que visitas. Por ejemplo, ahora que estás visitando javiercasares.com has de conectarte con (por ejemplo) Telefónica, que va a tu central de telefonía, de allí se conecta a su central de datos y, a través de ciertos routers acaba enviando la información a mi máquina (alojada cerca de Barcelona) que responde y se vuelve a hacer el camino inverso, a través de ciertos routers que devuelven esta página a tu navegador.

Ahora que sabemos más o menos cómo funciona esto podemos ver claramente que esos routers por los que pasa la información podrían (y en algunas ocasiones lo hacen) guardar información (anónima o no) de qué páginas se está visitando. Esto es, por ejemplo, lo que hacen servicios tipo Alexa, que analizan cierta información de la red de redes para saber qué páginas se visitan más. Pues Yahoo! lo que propone (con su patente Using network traffic logs for search enhancement) es analizar esos logs y de esa forma, teniendo en cuenta por las páginas por las que los usuarios navegan (o se leen feeds y cualquier cosa que incluya transporte de información) mejorar los resultados de búsqueda y, sobre todo, descubrir nuevas URL que no se tenían indexadas.

Techniques are provided for using network traffic logs for search enhancement. According to various aspects of the invention, data extracted from network usage logs is used in a variety of ways, including:

1) the ranking of a URL in the search results are improved by using the number of times a URL is present in the network traffic logs as an indication of popularity;

2) the list of URLs saved in the search engine index can be improved by including some or all URLs that are present in the network traffic logs;

3) the breakup of a search index into tiers can be improved by taking into account the number of times a URL is present in the network traffic logs;

4) the number of times a URL is present in the network traffic logs can be used to assign weights to links, where the link weights are used to determine popularity and the indexing of pages; and

5) the traffic log information may be used to determine which web pages have been modified since the search engine index was last updated.

These techniques may be used to improve the relevance ranking, indexing and searching of Internet-wide search engines, as well as search engines that are restricted to specific domains or private intranets.

Y es que tal y como Yahoo! comenta, encontrar la relevancia de un sitio es bastante complejo y hay muy pocos datos a tener en cuenta. Y es que una página puede ser muy popular entre los usuarios pero no serlo en los motores de búsqueda. Un ejemplo podría ser que alguien crea un sitio con pocos enlaces entrantes pero gracias al reenvio de correos electrónicos ese sitio se vuelve muy popular. Como el sitio sólo utiliza los pocos enlaces existentes para posicionarla, sigue siendo un sitio “poco relevante” de cara a los buscadores, aunque sí que lo es de cara a los usuarios.

Si se usa un sistema como el que se propone de analizar las páginas por las que los usuarios van navegando sí que se podría tener en cuenta la cantidad de visitas del sitio a la hora de posicionarla.

Este sistema, aunque de una forma distinta, es el que propiamente se usa con Google Analytics, ya que Google tiene los datos propios de navegación de cada sitio, y es capaz de detectar aquellos sitios nuevos o los que de golpe tienen una subida de tráfico.

Google y el SEO de tus sitios favoritos

Cuando en SEO se habla de enlaces nos olvidamos de un tipo de enlaces muy importantes pero a la vez muy complejos de que Google o Bing los acaben encontrado: los que tenemos en nuestra lista de marcadores favoritos del navegador. Pues ahora Google se ha hecho con una patente que permite indexar este tipo de información y usarla.

La situación es que normalmente nos guardamos en nuestra lista de “favoritos” aquellas páginas que visitamos mucho o que nos son complejas de encontrar y por tanto nos las guardamos. Sin duda estas direcciones URL son de un valor, ya que sin duda son las más importantes para cada uno de nosotros. Y ahí es donde Google quiere llegar.

Hasta hace un tiempo si querías tener tus marcadores en varios sitios había que usar distintos servicios de la red que lo permitiera, pero de un tiempo a esta parte los propios navegadores son capaces de sincronizar este tipo de información, y sin duda Google Chrome es uno de los que lo permite simplemente accediendo con tu cuenta, datos que el propio Google almacena en sus servidores.

Y lo que hace la patente Personalized network searching concedida a Google es precisamente eso, tomar los datos de marcadores personales y sus datos relacionados (cantidad de visitas, frecuencia, etc…) y usarlos para mejorar su índice.

Embodiments of the present invention provide systems and methods for personalized network searching. In one embodiment, a search engine implements a method comprising receiving a search query, determining a personalized result by searching a personalized search object using the search query, determining a general result by searching a general search object using the search query, and providing a search result for the search query based at least in part on the personalized result and the general result. An embodiment of the present invention may utilize ratings, annotations, history of use, or other data associated with the previously-identified uniform resource locator to locate and sort results.

Aunque también queda muy claro, de forma visual con la forma que se tiene de acceder a la cuenta y, además, cómo se tratan los datos.

¿Será el próximo SEO el tener una lista de marcadores en Google Chrome, y hacer un uso de ellos desde muchas cuentas distintas?

Yahoo!, singular y plural

Si ayer comentaba que hay patentes que te llegan a sobre coger por lo amplias que pueden ser, a veces otras te sorprenden por lo sencillas y efectivas que son. Y este es el caso que ha patentado Yahoo!, un sistema que busca palabras en singular y/o plural y reconstruye la consulta de búsqueda para tener mejores resultados.

La patente llamada Word pluralization handling in query for web search básicamente lo que hace es analizar la consulta de búsqueda, buscar aquellos conceptos que tengan un equivalente en singular o plural (dependiendo del caso) y reconstruye la consulta y es la que se ejecuta, de forma transparente para el usuario.

Para esto se usaría un diccionario de palabras relacionadas basadas en las consultas anteriores de muchos usuarios. Como curiosidad, en Google Webmaster Tools ya hay una sección en la que podemos encontrarnos un listado de palabras y “sus variantes” como ellos lo denominan, que en muchos casos coincide con lo que podría ser este diccionario, aunque para Google una variante es más que un singular-plural y puede ser una palabra sinónima.

Creo que la figura lo deja más que claro en este caso:

To find the most relevant files, search engines typically try to select, from among a plurality of files, files that include many or all of the words that a user entered into a search request. Unfortunately, the files in which a user may be most interested are too often files that do not exactly match the words that the user entered into the search request. If the user enters the singular form of a word in the search request, then the search engine may fail to select files in which the plural form of the word occurs. The reverse can occur as well and a user enters the plural form a word in a search and the search engine fails to select files in which the singular form occurs. For example, the word “shoe” is different from the word “shoes.” Thus, entering the search term “shoes” would preclude all web documents that contain “shoe.” As a result, the search engine may return sub-optimal results for the particular query.

Up to 50% of queries directed to web search engines possess at least one term in the search query that may be transformed either from singular to plural form or plural to singular form. However, among these 50% of queries, only 25% would benefit from pluralization or de-pluralization. Thus, a substantial number of pluralization or depluralization is not useful and should be avoided. In addition, for a good user experience when using search engines, the user will require that search engine perform searches of their queries quickly and with the most relevant results. Thus, there is a clear need for techniques to determine when and how to convert words in a query to its plural or non-plural form in order to provide the most relevant search results while minimizing computational overhead associated with the search.

Los datos que Yahoo! aporta son bastante interesantes: la mitad de las consultas de búsqueda suelen tener algún concepto que se puede poner en singular y en plural, y de esos resultados, un 25% se aprovecharía de este sistema (lo que significaría un 12% del total de las búsquedas que se hacen, que no es poco).

Tal y como muestra la imagen, lo que se conseguiría es algo del estilo a cambiar la consulta [zapatillas para correr] por [(zapatillas OR zapatilla) para correr], que, la verdad, dan resultados bastante distintos.

Google patenta la interfaz de resultados para productos

Sin duda las cosas que se pueden patentar son bastante impresionantes, y la que ha patentado Google me parece sorprendente ya que es algo bastante estándar en muchos motores de búsqueda y esto puede llevar consecuencias en cuanto a cambios de interfaz en algunos de estos sitios con tal de no tener que pagar al buscador de Mountain View.

En esta ocasión, y basándose en Froogle (lo que actualmente conocemos como Google Product Search), Google ha conseguido la patente llamada Method and apparatus for output of search results en la que se explica cómo se muestran los resultados (en modo lista y modo parrilla) de un buscador que devuelve resultados de tipo “producto”.

In another embodiment, the user may even be able to customize an output format. For example, in one embodiment, the user may select the amount, type and format of cues output for each result. For example, the user may select to have or not have displayed a graphic visual cue (e.g., a picture from a website, a picture of a product, a video still) associated with a set of results. On the other hand, the user may select to have high level and/or detailed text cues (e.g., text that includes word(s) from the query, URL, etc.) included or not included with each result. Depending on the type of search engine in which the invention is implemented, the user may further be able to selectively configure the output format of search results. As such, this embodiment of the invention may substantially increase a user’s efficiency in assessing the relevancy of a set of search results. For example, a user who is only aware of, and searching based on, a particular product’s appearance might select a display format that provides a cue in the form of picture for each product but does not include product model/name information, since the latter may be irrelevant and take up unnecessary space on a search result page.

Moreover, in accordance with one aspect of the invention, search result output formats may be substantially more customizable than described with reference to the embodiments of the invention described with reference to FIGS. 3 and 4. For example, in one embodiment of the invention, a user may specify how results are to be displayed or otherwise output (e.g., in how many columns, whether audio-visual cues should be included, etc.), what type and format (e.g., size, output format, etc.) of search result cues are to included or excluded for output, or even how advertising or other portions of a search result page should be displayed or otherwise output (e.g., as a series of images, audio, etc.). In one embodiment, the output format is customizable only after a search is performed and results generated for output in accordance with a predefined default output format (e.g., a list view). In another embodiment, a user may be able to select how search results are to be output prior to requesting a search or entering a query.

Tiempo de carga de una web

En SEO y WPO hay muchas cifras a tratar. Como expliqué en el artículo que comparaba el WPO con la Fórmula 1 la cosa va de décimas, pero… ¿cuáles son las décimas que importan?

En los paneles de Google Webmaster Tools tenemos muchas cifras relacionados con tiempos, y estas cifras significan muchas cosas distintas. Voy a ver si soy capaz de explicar cada una de ellas.

Una de las primeras gráficas que tenemos es la de “Rendimiento del Sitio”:

Esta gráfica lo que muestra es el tiempo de carga de la página, desde que se descarga el primer byte hasta que se descarga el último, incluyendo la descarga del HTML y de todos los ficheros relacionados (CSS, JavaScript, imágenes, publicidad, etc…). Como digo es el tiempo desde que se recibe el primer byte, y no el tiempo que tarda en conectarse. Esta gráfica va íntimamente relacionada con el Google Page Speed, de forma que supuestamente un buen Page Speed te debería dar un buen tiempo de respuesta. Lo que sí tiene que ver esta gráfica es la conectividad que tienes. Si está limitada en ancho de banda o a Google le cuesta llegar a tu sitio web, el tiempo será malo. Se supone que estas cifras deberían estar rondando los 2,5 segundos, aunque si tu página tiene bastantes contenidos multimedia puede rondar hasta los 5 segundos.

Un siguiente dato que debemos revisar se encuentra en la pestaña “Explorar como Googlebot”:

Tipo de robot de Google: Web
Tiempo de descarga (en milisegundos): 780

Este es el tiempo que Google tarda en descargar únicamente el fichero HTML. En este caso se cuenta el tiempo que tarda el software en generar la página, por lo que se nota enormemente si la página está cacheada de no estarla. El tiempo medio que debería aparecer es de unos 150 a 300 milisegundos (dependiendo del tamaño de la página, aunque una de 100 KB no debería pasar de los 300 si está bien cacheada).

Para acabar tenemos la gráfica de “Tiempo de descarga de una página”:

En este caso, por experiencia propia, sí que influye el tiempo de respuesta de la conectividad, de forma que estar “bien conectado con Google” influye mucho. En este caso el tiempo medio debería estar entre 250 y 400 milisegundos.

Hay que tener en cuenta que las mediciones de estas cifras son bastante distintas según “desde dónde Google” lea los datos. Claro está que no es lo mismo venir de un Centro de Datos que esté en el mismo país en el mismo en el que se encuentra el propio sitio alojado que tener que conectarse desde Mountain View que estar en un país cercano. La simple conectividad hará variar estas cifras.

Tampoco hay que confundir estas cifras con las que puede dar Google Page Speed o Yahoo! YSlow. Hay que diferenciar una cosa que es la conectividad y los tiempos de generación de ficheros, y otra cosa es el tiempo que tarda el navegador en paralelizar las descargas añadidas a un HTML (imágenes y similares) y luego “pintarlo” por pantalla.