Formas de bloquear, eliminar y ocultar contenidos web

A la hora de mostrar u ocultar contenidos lo primero que hay que tener presente es “a quién”. Por un lado, tenemos a los usuarios reales, y por otro a los virtuales (los robots, principalmente los de Google, Bing…).

Si comenzamos por la parte más técnica, que son los robots, nos encontramos con diversas formas de bloquear los contenidos:

robots.txt

El fichero de robots.txt está creado para que los robots, en principio, no accedan a esas direcciones URL. Esto hace que esos contenidos queden bloqueados, y que cuando se rastree una página “no se carguen”. Aún así, cabe la posibilidad de que si una URL bloqueada por robots.txt tiene muchos enlaces aparezca en los resultados de búsqueda, aunque con menor peso.

Código 404

Por norma general cuando se carga un elemento web se devuelve un código 200 (OK) o un 304 (Not Modified). Cuando queremos indicar que un contenido no existe, hay varias formas de hacerlo, la más habitual es la del 404. Este código, 4040 (Not Found) indica que un contenido no se ha encontrado en el servidor, sin indicación de si es algo permanente o temporal. Este es el sistema más estándar, pero a la vez el que menos información da a las máquinas.

Un detalle de los 404 es que cuando se indican, los robots de rastreo suelen probar varias veces más a lo largo de los siguientes días para intentar detectar si sigue existiendo o no el contenido, y al cabo de un tiempo lo acaban eliminando (sobre todos los contenidos que no tienen enlaces externos que, si no, cuesta mucho de eliminar).

Código 410

De la misma forma que el código 404 que es bastante indeterminado, existe el código 410 (Gone) que concreta más las razones por las que esa página ha desaparecido. En este caso lo que se viene a indicar es que el recurso ha desaparecido y no hay ningún otro que lo sustituya, por lo que se considera permanente, e incluso se deberían eliminar los enlaces que hagan referencia al recurso.

The 410 response is primarily intended to assist the task of web maintenance by notifying the recipient that the resource is intentionally unavailable and that the server owners desire that remote links to that resource be removed.

Este sistema hace que una vez un robot de rastreo entre, puedan llegar a probarlo una vez más por confirmar, pero lo antes posible se elimine el resultado de búsqueda.

NoIndex

La opción de NoIndex, ya sea a través de un meta-tag o de una cabecera del servidor, indica que aunque ese recurso existe, no ha de indexarse. Hay que dejar claro que los robots rastrean (crawling) y que indexan esa información. Indexar es que esa dirección URL aparezca o no en los resultados de búsqueda.

En general las razones por las que no se quiere mostrar un resultado en los buscadores es principalmente el de que esa información lleva contenidos delicados y no se han de mostrar (o simplemente que no son de utilidad para alguien que haga búsquedas). Pero no es la única posibilidad. Si nos focalizamos en los propios buscadores, sabemos que no les gustan los contenidos duplicados, porque haces elegir al usuario entre dos elementos muy similares. En estos casos tenemos los llamados soft 404, que son páginas que se consideran muy similares, aunque se les haya devuelto un código 200. Un ejemplo podrían ser listados de búsqueda internos, o secciones de una página con categorías en las que los contenidos sean muy pocos o muy similares, de forma que al comparar dos páginas, se parezcan muchísimo entre sí.

Un ejemplo de uso de los NoIndex es ponerlos en páginas de resultados o listados en los que hayan “muy pocos datos”. Si normalmente una categoría tiene decenas de resultados, y otra solo dispone de 1-3 contenidos, quizá esa página no tenga la necesidad “todavía” de parecer en los resultados, hasta que tenga un contenido 4-6 que realmente le de valor y peso.

Qué hacer en determinados casos

Lo principal que hay que decidor es la combinatoria de si es permanente o temporal, y si los datos han de poderse ver por los usuarios o los buscadores.

Partiendo de esta base nos encontramos con los extremos. Hay que dejar todo (por lo que no hay que hacer nada) o hay que erradicar todo (me encanta esta palabra para este concepto). En este último caso la solución es sencilla: hay que devolver un código 410 y que la página que se muestre no tenga ningún contenido (se puede hacer una página de error explicando que ese contenido que estaba ahí ya no está).

A partir de ese momento nos encontramos con los grises. Por ejemplo, con la RGPD aparece la opción de eliminar todos los datos de un usuario de un sitio de forma pública. Esto significa que las direcciones URL de perfiles y similares han de desaparecer por completo (410). Pero puede ser que simplemente un usuario haya incumplido una acción y se le haya desconectado temporalmente su cuenta. En estos casos hay que plantearse opciones, como por ejemplo si queremos que su ficha siga activa, pero no se pueda interactuar, y al cabo de unos días convertirla en un 410 si no nos ha dado respuesta. O por ejemplo que haya que eliminar su cuenta, pero a sabiendas de que en unos días pueda volver a activarse esa cuenta, lo que en principio debería ser un 404.

Existe un artículo muy interesante sobre desindexación de contenidos en el que se ven reflejados distintos métodos para ver cuál es la mejor forma de eliminar datos de los resultados de búsqueda con el menor impacto posible, que es muy recomendable para leer.

Categorías SEO

Esto no es SEO, es hacer las cosas bien

El concepto de SEO está muy mal utilizado. Se llama SEO a prácticamente cualquier cosa que el realidad hace referencia a construir un sitio web correctamente. Y es que muchas veces clientes, jefes, socios y todo tipo de personas (y personajes) me piden que les ayude con el SEO de su web cuando ni siquiera se han preocupado por cosas más básicas como tener el robots.txt correctamente. Si no tienes robots.txt (que eso es previo al SEO y a Google) ¿cómo vas a querer hacer SEO?

Es por esta razón que además de hacer consultoría SEO, WPO y de otras tantas cosas que son en realidad las que hago como Arquitectura de la Información, Estructura de la Información, Buenas prácticas… de tanto en tanto me toca dar algo de formación a desarrolladores para que tengan presente que todo esto que no es SEO ha de estar incorporado en su ADN laboral. No puedes crear un sitio web de Internet sin saber cómo funciona Internet. Esa es la diferencia entre alguien mediocre y alguien profesional. Aquí también podría incluir “a mi cuñado” o a “mi sobrino” que me hace la web gratis o por 4 duros.

Esta presentación es básica, aunque toca muchos asuntos. la idea es plantar la semilla para que a partir de aquí cada uno por cuenta propia se lea el RFC2616, o por ejemplo el RFC6596, se mire la documentación sobre HTML5 y todo lo que va relacionado con la red de redes.

Así que nada, aquí está disponible el PDF de la presentación. Está disponible bajo licencia EUPL 1.2, así que puedes compartirlo siempre que se cite la fuente.

WordPress SEO: ¿Yoast o más sencillo?

En muchas ocasiones cuando instalamos un WordPress vamos con nuestra lista predefinida de plugins, y habitualmente incorporamos uno de SEO. Estos plugins de SEO en realidad hacen poco, ya que es cierto que WordPress no permite de serie gestionar cómo queremos los títulos, pero él es capaz de generar automáticamente el meta-description si se hace bien.

Es por esto que mucha gente utiliza Yoast como plugin de SEO, que además de llevar muchas herramientas que te dicen cómo escribir (algo que nunca he usado ni usaría), te corrigen (en cierta manera) el formato de título y snippet que se muestra en los resultados de búsqueda.

Hace poco me puse a buscar una solución que fuera extremadamente simple para el tema de eso: título, descripción y palabras clave. Estos tres viejos elementos son en el fondo lo único que necesitaba, el resto ya lo hace bien la plantilla. Y acabé encontrando un plugin que no está en el repositorio oficial pero que está gestionado como tal: WP SEO: A simple, straightforward SEO plugin for WordPress. Just the facts, Jack. Para aquellos que quieran, descarga la versión 0.13.0.

Este plugin lo que hace es añadir estos campos:

Y hace simplemente eso… aunque se pueden usar los distintos códigos de sustitución:

#archive_date#
#author#
#categories#
#date_modified#
#date_published#
#excerpt#
#post_type_plural_name#
#post_type_singular_name#
#search_term#
#site_description#
#site_name#
#tags#
#term_description#
#term_name#
#thumbnail_url#
#title#

Con estos códigos te puedes hacer la configuración personalizada para todos los tipos de página que tengas en tu sitio:

En la última opción, que te permite crear tus propios “metas”, podrías por ejemplo configurar uno para Google Search Console, de forma que el nombre sea google-site-verification y el content, el identificador que Google proporciona.

Lo siguiente es… si hasta ahora he estado utilizando Yoast ¿puedo migrar los datos de Yoast a este sistema? La respuesta es sí, se puede hacer, aunque no tengo ningún plugin ni nada parecido. Aún así, con 2 consultas SQL se hace muy rápido:

UPDATE wp_postmeta SET meta_key = '_meta_title' WHERE meta_key = '_yoast_wpseo_title';
UPDATE wp_postmeta SET meta_key = '_meta_description' WHERE meta_key = '_yoast_wpseo_metadesc';

Y si quieres hacer limpieza una vez desinstalado Yoast, puedes borrar “los restos”:

DELETE FROM wp_postmeta WHERE meta_key LIKE '_yoast%';

A partir de aquí tendrás una forma sencilla de añadir el título, descripción y keyworks que quieras sin necesidad de instalar un plugin pesado como son generalmente los de SEO.

Interés de un usuario según tiempo

¿Cómo sabrías qué le interesa a un usuario según lo que lee? Pues Yahoo! te ofrece una solución basado en el tiempo de lectura y que se pasa un usuario en una página en concreto. Y lo hace desde su patente US20150127662A1 llamada Dwell-time based generation of a user interest profile.

El objetivo es crear un perfil de usuario y que se basará en los documentos que visite y lea, el tiempo que pase en ellos y su temática. Así que si tenemos un usuario, lo primero que habrá que hacer es revisar qué artículos está visitando y en cada uno de ellos medir el tiempo que pasa. Hay que tener en cuenta que se puede calcular el tiempo de lectura basado en la cantidad de texto que hay en el bloque principal de una página, o por la duración de un audio o vídeo.

En base a los tiempos que está un usuario en cada página y las temáticas de estas páginas se podría crera un perfil temático, dadas las puntuaciones obtenidas por el sistema.

En este primer momento el usuario se conectaría al sitio web, en el que estaría identificado, se le mostrarían elementos relacionados a un contenido principal, basado en el histórico o en el propio contenido que está accediendo. En bas e alo que el usuario haga, la información sobre él se irá mejorando y ampliando.

Para determinal el peso de los contenidos hemos de tener en cuenta algunos elementos previos y posteriores, como los clics, si ha hecho scroll, en qué lugar se encontraban los enlaces anteriores, dentro del resto de contenidos… y sobre todo el tiempo que el usuario está en una pantalla interactuando con ella. En el momento en el que un usuario interactúe de alguna manera con alguno de los elementos que se porponen (vistas previas, tooltips, etc…) se le comenzarán a aplicar unos pesos a la actividad. En base a todos estos factores se creará un peso global que identificará el interés del usuario en un contenido en concreto.

Categorías SEO

Filtrar crawlers en Google Analytics

Desde hace ya un tiempo los robots de indexación (Googlebot, Yandexbot, …) además de indexar el código de la página y sus imágenes, también son capaces de compilar el resultado de la misma, incluyendo el código javascript de ellas. Entre estos códigos está el de Google Analytics, que controla algunos de los robots, pero no todos.

Además, también es posible que en alguna ocasión haya alguien que esté escrapeando tu sitio, y que eso altere tus estadísticas en Analytics.

Si quieres filtrar algunos crawlers en Analytics, puedes hacerlo creando un filtro tal que el siguiente:

y en el patrón del filtro, puedes poner, para empezar, esto:

(amazon|digital ocean|fastweb|ovh hosting|vpn)

Aunque siempre puedes ir añadiendo los distintos proveedores que vayas encontrando en tus datos del propio Google Analytics. Unos datos más fiables hacen tomar decisiones aún más inteligentes.

Categorías SEO

Certificado SSL/TLS gratis

Hasta hace un par de años la seguridad web era muy básica. Pocas personas que no tuvieran un comercio electrónico se preocupaban de la seguridad de cualquier tipo de información que se transfiere entre el usuario y el sitio web.

Aunque en general una web informativa no necesitaría necesariamente de estar cifrada, es algo que no cuesta nada implemantar y que, por ejemplo, si tu usuario está en una WiFi pública sin cifrar permitiría que su clave no se transfiera abierta a posibles mirones.

Para conseguir un certificado, hasta ahora tenías que pasar por el aro de los grandes como Symantec o Comodo, pero desde hace una temporada existe el proyecto Let’s Encrypt que han empujado la Linux Fundation, Mozilla, Akamai, Facebook, OVH, Google… y que básicamente es un sistema que permite crear servidores de autenticación.

Basado en este sistema nos encontramos un sitio web sencillo que, con esta tecnología, nos permite crear certificados gratuitos. Se llama SSL for free.

Cuando entras, lo primero que recomiendo es registrarte (sino lo tendrás que hacer después). Una vez eso, en la misma página inicial, puedes poner tu dominio (o dominios y subdominios). Por ejemplo, puedes escribir algo como:

example.com www.example.com

Cuando hayamos realizado esto tendremos los 3 bloques de información que necesitamos:

  1. Certificado
  2. Clave SSL
  3. Certificado de Autoridad

Con estos 3 elementos podemos configurar nuestro servidor web o ponerlos en nuestro panel de alojamiento web.

Una vez hecho esto, en el mismo sitio web tenemos la pestaña de Certificates donde podremos renovar, revocar y eliminar los certificados que tengamos activos.

Sin duda, a partir de ahora, tener tu propio sitio web con certificado SSL/TLS ya no será un coste añadido.

¿Dónde están las noticias de SEO?

En 2003 comencé el sitio googlemania.com en plena efervescencia de Google y de Internet en España, y cada día había noticias sobre Google.

Cuando tocó pasar en 2005 a ojobuscador.com todo creció ya que no sólo había Google sino cualquier otro buscador (Live, Yahoo!, Yandex, Baidu, Ask…). cada día se generaban al menos 3-4 noticias sobre buscadores…

¿Dónde han quedado las noticias de SEO? Aún mantengo mis fuentes y sitios de referencia tras muchos años, y aunque publican cada día tan sólo una noticia a la semana tiene algo de interés.

El SEO se ha convertido en un commodity en cuanto a la promoción de sitios. Todo el mundo tiene su fórmula mágica de SEO y los buscadores (principalmente Google) tienen foco de una o dos veces al año hacer una actualización que básicamente se basa en una de dos opciones: mejorar algún algoritmo existente (Panda y/o Penguin) o lanzar alguna funcionalidad que en sí no está pensada para SEO sino de cara a ampliar los conocimientos de las búsquedas (sinónimos, más OneBox…) o de dar más información interna en los resultados, es decir, convertirse en generador de contenidos (véase la búsqueda weather).

¿Quién genera noticias de SEO hoy en día? Creo que nadie, o muy poca gente. Sí que veo interesante lo que hace Bill Slawski en su SEO by the SEA, donde va comentando patentes de los buscadores, o los vídeos que se van publicando en el canal de Youtube de Google Webmasters, donde de tanto en tanto explican algunas cosas que, si se leen entre líneas te dan cierta información.

Sólo me queda por pensar dos posibilidades: la primera de ellas es que no hay noticias de SEO y por lo tanto no hay nada que publicar (algo que sería digno de análisis porque podría significar una maduración en los resultados de búsqueda, algo que comentaba por allá en 2007 sobre lo que pasaría a partir de 2012) y la otra posibilidad es que los SEO sean una comunidad poco dada al Open Source, lo que dice muy poco en comparación a la comunidad del WPO dónde prácticamente todo es abierto y está disponible para cualquiera.

Sin duda tengo muchas ganas de ver si a la gente se le pasa la fiebre del SEO y comienza a hacer webs correctamente, simplemente aplicando bien las reglas del RFC2616 o del HTML (y compañeros de viaje como CSS o JavaScript).

Categorías SEO

La Guía SEO liberada al completo bajo Creative Commons

Tras unas semanas sin poder publicar los capítulos que faltaba, he de decir que por fin está disponible el 100% de la Guía SEO a todo el mundo.

Además, se ha lanzado bajo licencia Creative Commons Reconocimiento-Sin obras derivadas 3.0 España de forma que se puede distribuir bajo reconocimiento del autor pero no se pueden hacer obras derivadas, básicamente porque eso podría llevar a que alguien documente de forma errónea la guía, y no debe ser así.

Aún así, todavía está disponible en papel y en PDF… además, la versión en papel ha bajado su precio hasta los 19,20 €uros y la versión en PDF sigue en su 1,20 €uro.

El SEO para lugares

Uno de los elementos que últimamente se están poniendo muy de moda es posicionar en mapas y en las versiones locales de los buscadores cualquier tienda o comercio que haya en una zona.

También es posible que tengas un sitio web enfocado a un país o a un idioma, y eso también ha de tenerse en cuenta a la hora de lograr su posicionamiento.

Es por eso que el capítulo de GeoSEO se ha vuelto de los más imprescindibles en los últimos tiempos, ya que cada vez más la navegación en terminales móviles está haciendo que busquemos información más localizada.

Detalles sobre la liberación de la Guía SEO

Es curioso que desde la liberación de la Guía SEO han cambiado algunas cosas que no me esperaba… por un lado, se han vendido un montón de versiones e-book. Entiendo que se hayan vendido muchas en comparación con el libro físico en papel… primero, por su bajo precio (que se cobra básicamente en compensación por el trabajo en la maquetación y diseño), y segundo, porque es una manera mucho más sencilla de consultar la guía sin necesidad de estar conectado.

Con respecto a los futuros cambios de la información, los va a haber. Mi idea es, en cuanto esté 100% publicada, que haya posibilidad de comentar los capítulos y de esa forma que cada uno pueda dar su opinión… La idea era haberlo lanzado así desde el inicio, pero como se me pasó la parte de los comentarios en las páginas, pues ya queda para cuando se libere por completo.

Por otro lado, la próxima versión se liberará antes en un nuevo PDF. Este PDF estará en formato DIN-A4 (para que sea fácil de imprimir si hiciera falta) y se presentará 28 días antes que en la versión web. Como he comentado antes, los ingresos de las ventas van a ir dedicadas al equipo de desarrollo de la guía “física”…

Y por último, quizá la reflexión más importante… ahora gano más pasta que antes. me explico (que esto puede sonar raro)… pero es que, desde que se ha liberado, la gente me hace más consultas y esas consultas acaban generando clientes. Como siempre he dicho, el SEO ha muerto, y es cierto, pero eso no implica que tecnológicamente, editorialmente y todo lo que queráis no haya que seguir haciendo SEO… eso sí, el secreto del SEO ha pasado de estar en libros y en Internet a estar en tecnología avanzada. Curiosamente, desde hace unas semanas que me estoy dedicando más a desarrollar, programar y ejercitar la cabeza en I+D estoy comprobando algunos elementos que, aún, no he visto a nadie del mundo SEO que me lo haya mencionado… y hay una relación directa entre esos elementos y los resultados de búsqueda…

Aún así, el problema del SEO viene a ser el de siempre… aunque hay una parte común (que es lo que hay en la Guía SEO, por mucho que otros se empeñen en que se puede encontrar en otros libros -o en la red-… donde puede estar más o menos explicado, pero lo que hay es lo que hay) está la parte variable, de cada proyecto, en el que hay que aplicar más el ingenio, la inteligencia y el I+D de una compañía para realmente lanzar un producto que acabe gustando a todos los buscadores… y ahí es donde entran los que, aunque no sepan de esto, acaban lanzando un buen producto.

El SEO para Blogs (y WordPress) ha llegado

Muchos de los que utilizáis blogs siempre acabáis buscando qué plugins son buenos o no para mejorar el ya de por sí buen posicionamiento de la plataforma…

Es por eso que dentro de la Guía SEO hay un capítulo general sobre el SEO a aplicar en los blogs, independientemente de la plataforma que se utilice, y otro específico para el SEO en WordPress, con la explicación y configuración de algunos de los plugins más interesantes.

Por cierto, desde hace unos días también hay un capítulo llamado Búsquedas y etiquetas, muy interesante en el caso de los blogs, sobretodo por la posibilidad de “taggear” casi cualquier cosa.

Los pequeños detalles, las grandes diferencias

Lo que diferencia el aplicar unas técnicas SEO generales de aparecer bien posicionado son los pequeños detalles, aquellas cosas a las que casi no se les da importancia pero que en realidad tienen más de lo que parecen.

¿Te has preguntado alguna vez para qué sirve realmente el Pagerank? ¿O qué hacer cuando vas a cambiar la versión de tu web o la has de parar temporalmente? Respuestas a esas preguntas son las que te harán mejorar tus resultados y no ser perjudicado.

Qué hacer si te penaliza un buscador

El gran problema de las penalizaciones es que muchas veces no se sabe qué hacer para salir de ellas, y, en cambio, la solución es bastante más sencilla de lo que parece, ya que casi todos los buscadores disponen de los medios para salir de una penalización.

Eso sí, recuerda que todas las penalizaciones son distintas y que lo mejor, antes de otra cosa, es comprobar que tu sitio está correcto y que no haces nada “que no les guste a los buscadores”.

Liberando la Guía SEO

No ha sido una decisión sencilla… en realidad llevaba unos 3 o 4 meses planteándolo… hasta que incluso hace unas semanas hablando con David lo puse a trabajar en algo que no verá ya nunca la luz… era una Guía “Básica” de SEO… una versión reducida de la actual en PDF, quizá más parecida a lo que era la Guía 1.

Pero al final, ayer hablando con él y teniendo en cuenta que el mercado está liberando mucho material he creído conveniente liberar completamente la Guía SEO (que aún se puede comprar en papel bastante más barata de lo que estaba, y en un PDF mucho más bonito por poco más de 1 euro).

Aún no está toda disponible (al menos no en el momento de escribir esto) pero lo irá estando poco a poco… he de hacer cosas que no tenía hechas en la plantilla original, que es la numeración de las categorías y poner las imágenes adaptadas a la versión web… aunque viendo el ritmo, supongo que este lunes estará completamente disponible.

Conozco a algunos a los que no les hará mucha gracia (gente de mi entorno) porque ya se quejaron en su momento de que explicase cosas que no debían estar ni siquiera en la versión de papel de pago, pero al fin y al cabo, esta pretende ser una guía en la que quién tenga algo que decir lo puede hacer libremente y si es factible, se actualizará… no quiero que sea una guía a modo de Wiki, pero sí una en la que quién quiera participar pueda hacerlo y así construir un documento bastante potente, siempre pensando en el SEO que se puede construir en español, ya que en muchas ocasiones hay que tener en cuenta que el SEO que se pueda hacer en otros idiomas y países no se parece en nada al que hacemos aquí.