Recuperando 4800 posts antiguos

Desde que hace un mes aproximadamente comenté que volvía a la vida digital como tal, me he dedicado a aprovecharme de mi Síndrome de Diógenes Digital (Digiógenes) y he conseguido recuperar un montón de artículos que he escrito estos últimos años… concretamente ¡estos últimos 18 años!

Entre los elementos que he recuperado han sido un boletín que de forma colaborativa teníamos en el año 1999-2001 llamado “la @RROBA es BELL@”. Posteriormente conseguí recuperar (aunque esto es lo que peor he podido gestionar) una copia de algunas entradas que tenía en “durky.com” entre el año 2001 y 2004, principalmente temas de ciencia y humor. Después de eso ya he conseguido recuperar unos backups de artículos de “OJObuscador” y “OJOinternet” (al menos los que escribí yo). En paralelo siempre he tenido algún blog abierto, y como también han sido en #WordPress he conseguido montar en una máquina uno limpio, meter la base de datos, hacer el upgrade (que se ha hecho correctamente incluso desde versiones 1.x de WordPress) y luego exportar e importar.

El problema ha estado en otros dos elementos: las imágenes y los enlaces rotos, aunque para ambos casos utilicé un plugin (premium) que me ha servido muchísimo, llamado WP Link Status (hay versión free), aunque como digo, usé la versión premium llamada WP Link Status Pro.

Este plugin básicamente lo que hace es analizar todos los enlaces e imágenes que hay en “posts” y “pages” (también puede revisar comentarios, aunque he pasado bastante). Al revisar todo me aparecieron como 15.000 errores, algo completamente ingestionable, por lo que decidí repartirme el trabajo poco a poco. Lo que más me interesaba era recuperar todo lo que eran imágenes y adjuntos (ZIP, PDF…), así que volví a hacer un repaso y recuperando backups de todos esos sitios webs antiguos fui subiendo y subiendo ficheros hasta poder recuperar cerca de un 90% de los contenidos. Al final, aunque ha sido un engorro, la gestión de imágenes y adjuntos ha sido fácil.

MORALEJA: Una cosa importante que he aprendido en este proceso es que si quieres una imagen o fichero, no lo enlaces a un origen donde se supone que está, es mejor descargarlo y alojarlo tú, principalmente porque hay documentos importantes y antiguos de Microsoft, Google y otros que se han pedido.

El mayor problema ha estado en los enlaces. Aquí podemos decir que había de dos tipos, los que apuntaban a cosas que eran mías (y que si he mantenido los dominios, he podido ir redirigiendo y recuperando) y los que no. De los que no, cerca de 4.000 enlaces, la mayoría eran de sitios conocidos e importantes de Internet. Por ejemplo, un detalle importante es que muchos de estos sitios no han cambiado las URL, pero sí el http normal por https seguro. El ejemplo más claro en este caso ha sido la Wikipedia. Todos sus enlaces seguían funcionando, aunque he hecho la redirección a su versión segura.

Para mi sorpresa los que peor han gestionado el cambio han sido Microsoft, Yahoo! y Google. Comenzando con Yahoo! principalmente se han perdido casi todos sus enlaces a blogs y posts antiguos. pasaron de tener sus popios blogs a usar tumbr y luego a otra cosa que no se han gestionado bien esos cambios y se han perdido muchísimos enlaces. En el caso de Microsoft es algo mixto. Por un lado de su web y productos que han evolucionado, parte de sus blogs han desaparecido, pero otra parte sí que se ha gestionado correctamente, sobre todo la parte de soporte y ayuda.

El caso más horrible y el que me ha hecho perder más tiempo ha sido el de Google. Sin duda hay una parte de Gran Hermano, otra de pérdida de información y otra de dejar de dar soporte por completo erradicando la información de productos antiguos. Volviendo al tema del HTTPS, en el caso de Google me ha pasado lo mismo, pero con varios problemas, y es que cada vez que había una redirección, se añadían un montón de parámetros para ellos internamente gestionar esos datos. ¿Tiene sentido que si pasas de una versión no-segura a una sí-segura tengan que añadir un parámetro en la URL que indique esa redirección? En el caso de la pérdida de información, muchos enlaces a documentos y páginas de ayuda o posts antiguos de blogs se han perdido, principalmente desde que tienen su blog.google al que no han hecho redirecciones de muchos blogs. Y para acabar los productos que ya no existen, simplemente se han cargado todo, ni han hecho una redirección a una pantalla diciendo que ese servicio está discontinuado (excepto en un producto, que ahora no recuerdo cuál, que mandaban a una entrada en el blog diciendo que eso ya no existía desde tal fecha).

MORALEJA: Si hay un contenido que está en otro sitio web, aunque hagas un enlace como corresponde en Internet, te recomiendo guardarte una copia de esa página, texto o lo que sea, en tu baúl personal, porque nunca sabes cuándo puede desaparecer.

Ahora que ya está todo el contenido recuperado, si tuviera tiempo y fuera buena persona lo que debería hacer es repasarme uno a uno para etiquetarlo y dejarlo ontológicamente correcto. Aunque creo que eso va a ser para otro lustro.

Deja un comentario