SQL de poblaciones españolas (con código postal, latitud y longitud)

Es difícil a veces encontrar por Internet alguna base de datos más o menos decente de las poblaciones españolas junto a algunos datos más… Hace un tiempo que tuve la posibilidad de disponer de una de ellas y, aunque no es 100% perfecta, creo que puede servir de base para algún que otro proyecto.

Tenemos la tabla de provincias y la tabla de poblaciones… en principio es un fichero sacado de una base de datos MySQL, pero por la simplicidad que tiene debería funcionar en cualquier base de datos… así que debería poderse usar en cualquier proyecto.

La tabla de provincias tiene los elementos:

  • idprovincia: un identificador
  • provincia: el nombre de la provincia
  • provinciaseo: la provincia sin espacios, letras raras, etc…
  • provincia3: un identificador de 3 letras

La tabla de poblaciones tiene los elementos:

  • idpoblacion: un identificador
  • idprovincia: el identificador de la tabla provincias
  • poblacion: el nombre de la población
  • poblacionseo: la población sin espacios, letras raras, etc…
  • postal: el código postal “principal” del lugar (si hay varios en una misma población, sólo se toma el “de numeración menor”)
  • latitud: la latitud aproximada
  • longitud: la longitud aproximada

Descargar SQL de Municipios de España con Código Postal, Latitud y Longitud (se recomienda usar “guardar como…”).

AMPLIACIÓN: Disponible la tabla de Municipios en Google Fusion Tables.

NOTA: Si alguien corrige la base de datos, se agradece que la mande para mantenerla actualizada. Ya que es gratis, al menos que la comunidad la mantenga. Gracias.

La Torre de Babel en España

Hace años que quiero escribir sobre esto y nunca acabo de ponerme… alguna vez he comentado que no entendía el porqué se escuchaba música en español e inglés en las emisoras estatales pero no es escuchaban el resto de lenguas cooficiales de algunas zonas del país. Que conste que no quiero hacer un artículo político, pero sí que he de hablar de política por ciertos detalles. Para empezar, los españoles más radicales (también conocidos como fachas o de extrema derecha -aka, de centro-) abogan por la unión territorial de España. Pues majos, eso implica también los idiomas que hay… me hace mucha gracia que el catalán sea un problema para España, pero el “valenciano” no lo sea… como tampoco lo es el gallego (curiosamente dos lugares en los que habitualmente gobiernan los partidos de derechas).

Bueno, todo esto viene por el tema de la música que ahora con el Grupo Manel es líder de ventas y, por ejemplo, sale en una televisión estatal (BFN – La Sexta) cantando en catalán… ¡brujería!

La cuestión es… la gente que cree que saber, hablan o conocer catalán es algo inútil y hay que saber francés, inglés o chino porque son “lenguas de futuro” ¿son incultas? Siento decirlo así de claro, pero probablemente la gran mayoría de esas personas sólo conozca el español como idioma único. Está latamente demostrado que saber idiomas es bueno para la actividad cerebral. Yo reconozco que sé algo de español, que el catalán lo tengo dejado, pero que puedo mantener una conversación perfectamente si hace falta y mi inglés es bastante malo, pero lo intento mejorar día a día.

En Suiza los idiomas oficiales son el alemán, el francés, el italiano y el retorrománico. No sé porqué me da a mi que en Suiza, cuando se pone la radio suenan canciones de al menos 4 idiomas: alemán, francés, italiano e inglés.

En cambio, en España sólo suenan en español e inglés… de tanto en tanto se cuela alguna en otro idioma, pero es porque es música de baile y tampoco importa mucho. No entiendo como las emisoras estatales no son capaces de meter en sus listas música en catalán (y aranés), euskera o gallego. Lo siento, no lo entiendo… no me entra en la cabeza como la gente de un propio país no tiene la necesidad de aprender otras lenguas, aunque sean minoritarias.

Hay un refrán que dice que el saber no ocupa lugar. Creo que toda persona, en el mundo, debería conocer al menos 3 idiomas. No voy a decir que haya que aprender chino, que es bastante complejo, pero sí que reconozco que hay que tener cierto interés. Por mi trabajo a veces me toca navegar por sitios web en otros idiomas, o con clientes que tienen sitios web en otros idiomas. Como mínimo hago el esfuerzo. El hecho de saber catalán y español me facilita bastante el poder leer francés, italiano y portugués. Que sí, que no sé hablar ni escribir, ni leer esos idiomas, pero, como se dice por ahí, leer en diagonal para pillar los conceptos sí que me da.

En fin, simple reflexión que dejo aquí. Sin duda, si algún día tengo criaturas que alimentar a mi cargo, intentaré que aprendan español, catalán, inglés (esos ya desde que nazca) y algún otro idioma, quizá francés. No me cabe duda que, aunque no sepa hacer la o con un canuto, podrá viajar por el mundo sin problema y conseguirá lo que quiera si se lo propone.

Windows 7 GodMode

Seguro que en alguna que otra ocasión te has preguntado cómo se puede acceder a toda la lista de opciones del Panel de Control de una forma más rápida de la que Windows nos propone inicialmente… ¿te lo has preguntado? ¿no? para ello existe el GodMode, nombre que se usa internamente y que permite hacer esto mismo.

Básicamente con esto conseguimos un listado de unos 100 elementos gracias al cual tendremos un acceso más rápido…

Para ello tan sólo hay que hacer una cosa muy sencilla… yo recomiendo hacerlo en el propio escritorio, pero cada uno que lo haga donde quiera. La idea es crear una nueva carpeta (botón derecho » nuevo » carpeta) y, en el momento en que la tenemos creada sólo hay que cambiarle el nombre por el siguiente:

GodMode.{ED7BA470-8E54-465E-825C-99712043E01C}

Sí, hay que copiarlo con todos esos números y letras… aunque luego se quedará un icono en el que sólo pone GodMode.

Esto funciona en Windows 7 (32 y 64 bits), Windows Server 2008 (32 bits) y Windows Vista (32 bits). En otras versiones, como Windows Vista (64 bits) puede saltarte una agradable pantalla azul de la muerte.

Y hasta aquí el truquito del mes… o hasta que se me ocurra publicar otro.

Qué raros son los estadounidenses

Sin duda Estados Unidos es un país que no te puede dejar indiferente. Y estos es debido a que tiene muchas diferencias con respecto a Europa, el viejo continente. Y como en todo hay cosas muy buenas y muy malas. La verdad es que me hubiera gustado conocer el país antes del 11-S, porque estoy convencido de que antes de aquella fecha todo era aún más liviano.

Lo primero y más importante: aquí todo se mueve en base al billete del dólar. En Europa cuando se lanzó el euro se planteó la posibilidad de que la unidad, la “moneda de 1 euro” fuera en realidad un billete, pero no, no se hizo porque incita a consumir. No voy a entrar en si es una decisión correcta o no, pero aquí las monedas son de 1 céntimo, 10 céntimos y 25 céntimos. De billetes hay de 1 dólar, 5 dólares, 10 dólares, 20 dólares, 50 dólares y 100 dólares, y si no me equivoco no hay de más valor (o si los hay, yo no los he visto). Creo que las medidas a la hora de la moneda es mucho más lógica que tener monedas de 1 céntimo, 2 céntimos, 5 céntimos, 20 céntimos, 50 céntimos, 1 euro, 2 euros y billetes de 5 euros, 10 euros, 20 euros, 50 euros, 100 euros, 200 euros y 500 euros. No me extraña que haya economía sumergida, que los “bin laden” no se vean y esas cosas… En USA sin duda a la gente no le gustan las monedillas y siempre va con un fajo de billetes, aunque sean de 1 dólar. Esto confirma el porqué casi cada día me encuentro por la calle algún céntimo… En USA hay que pagar por todo, eso sí, la gente cobra más, todo el mundo tiene coche, todo es muy amplio (y parece el Eixample de Barcelona, pero con muchos más parques y edificios la mitad de altos)… supongo que esto último es lo que hace que me apetezca vivir aquí una temporada y dejar una temporada Barcelona (o Madrid y en general España).

Otro detalle interesante: el pan. Sí, el pan, eso que es considerado alimento básico en España aquí en USA es como “un privilegio”. Normalmente uno se levanta por las mañanas, va a comprar el pan, de paso el periódico, y se va a casa a desayunar con los niños y a prepararles el bocadillo para el cole. Pues no, aquí encontrar una panadería es como una Misión Imposible (al menos, que yo sepa, en Miami Beach no hay ninguna). La gente no compra pan, y el pan que suele haber es pan de molde. ¿Por qué no se vende pan? Muy sencillo: la gente no cocina en casa, por lo que no consume pan. Sí, es así de simple… Creo que ya he comentado alguna vez que voy a comprar al Whole Foods, es parecido al Veritas, y básicamente es por comer “algo decente”, porque paso de comer lo que aquí se come, con la cantidad exagerada de medicamentos y potingues que les dan a los animales. Un pan de molde de lo que Bimbo considera “tamaño pequeño” aquí vale unos 4 dólares, es decir, unos 3 euros… no quiero aventurarme, pero si no recuerdo mal, en España por 1,5 euros consigues un paquete así aunque sea marca blanca. Un pan de Chapata cuesta 3 dólares, el doble que en España. Sin duda comer pan en USA es caro, muy caro.

Una cosa que sí que me gusta es el tema de los periódicos. Creo que otra de las cosas que no he visto por aquí han sido quioscos. Los periódicos se venden en la calle (en los puestos esos que siempre salen en las películas de color verde que se echa una moneda, se abre la puerta y el tipo coge un diario) o en los supermercados. En este último caso simplemente están allí, amontonados, y tu vas al cajero y le dices que te vas a llevar uno. En ambos casos, tanto el de la máquina con la moneda como el del supermercado, puedes pagar uno y llevarte 10, pero no, aquí la gente es “seria” y si compra un periódico sólo se lleva un periódico. La verdad es que sólo de pensarlo me da mucha risa, porque se me viene a la cabeza la imagen de Barcelona o Madrid, entrando/saliendo del metro y la gente desesperada por poder coger el 20 Minutos, el Qué y el Metro, con el ansia de que se vayan a quedar sin los 3 diarios. Sin duda una cara interesante de la moralidad estadounidense en relación al prójimo.

Aunque quizá la otra cara de la moneda es la religión. En Miami Beach hay muchos judíos, incluso tienen por aquí un museo, el monumento al Holocausto, en Miami he estado en un templo de los Hare Krishna. Aún así, Estados Unidos es un país de cristianos, incluso, me atrevería a decir que en algunos lugares son más radicales que los propios islamistas. Ser ateo o agnóstico es un sacrilegio. No me extraña que les den tanto miedo “las brujas”. Es bastante curioso todo esto. Supongo que de ahí que en las grandes ciudades, entre rascacielos puedes encontrarte una pequeña iglesia. Supongo que mi cabeza científica no acaba de entender cómo un país “tan avanzado” como USA sigue tan aferrado a la fe cristiana. Es imposible que un presidente sea ateo. Lo más curioso es que la frase de “In God We Trust” que aparece en los billetes no estaba hasta que alguien, a mediados del siglo pasado, decidió añadirlo.

Otra cosa que me gusta es el sistema de bike-sharing (compartir bicicletas) que han implantado en Miami Beach y que se llama DecoBike. Viene a ser como el Bicing de Barcelona, pero con varias peculiaridades. La primera es que cualquiera puede usarlo, porque se basa en meter la tarjeta de crédito (a menos que seas socio, para lo que hay que ser residente). Esto permite una cosa: los turistas pueden usarlo, y lo mejor de todo, seas residente o turista, alquilar la bicicleta la primera media hora siempre es gratuito. Los precios fuera de esa media hora no son baratos, la verdad, pero creo que sin duda es un buen invento. Como digo, lo mejor del sistema es que cualquiera (y no sólo los residentes) pueden utilizarlo. Una vez más, creo que esto en España no funcionaría, por el simple hecho de tener que usar la tarjeta de crédito…

Y esto del uso de la tarjeta de crédito lo puedo hilar con el tema bancario. Eso sí que es un mundo en el que creo que van muy por detrás de Europa. Y ya no hablo del tema crédito o ahorro, hablo de las simples transferencias. Aquí la gente usa los cheques… sé que en España se usan, quizá en los últimos 10 años de mi vida han pasado 3 cheques españoles y unas cuantas decenas americanos. La gente no hace transferencias… ¡te manda un cheque! Claro… ¿cuánto vale hacer una transferencia en España? Pues, por norma general, si lo haces entre cuentas del mismo banco suele ser gratuito, y si lo mandas a otro banco suele costar 3 o 6 euros, y 2 o 3 días. Aquí he intentado pagar el alquiler del apartamento de varias formas… al principio lo tuve que hacer en efectivo; más tarde, cuando ya tuve la posibilidad intenté hacer un pago. Un pago básicamente es que el banco, cada mes, manda un cheque a la dirección postal del que ha recibir el pago… ehm… ¿perdona? ¿pero qué me estás contando? Bueno, vale, hagámoslo así… hasta que empiezan a devolverte los cheques porque USPS no encuentra la dirección (dirección en la que yo he estado y se ve claramente el número de la calle y el número de puerta). Total, que llega el día en que voy al banco y digo que quiero hacer una wire-transfer (lo que toda la vida ha sido una transferencia bancaria, vamos)… pues nada, por hacerla una vez te cobran ¡25 dólares! ¡WTF! Y si lo haces de forma recurrente (cada mes)… te cascan ¡19 dólares! ¿pero esto qué es? ¿nos hemos vuelto locos? Eso sí, una cosa con toda la lógica del mundo… si haces una transferencia hoy, a lo más tardar, mañana a medio día la tienes en la cuenta de destino. Como tiene que ser… a ver si la informática se inventó para tener que esperar 3 días… ¡coño!, si hay dinero en la cuenta lo mandas y ya está ¿para qué hay que esperar 2-3 días? Lo siento, que me caliento…

Y para acabar, que no quiero alargarme mucho más… estos días atrás han inaugurado un edificio con un parque gigantesco, el SoundScape Park. Pues en este parque han instalado 4 proyectores FullHD que, unidos, proyectan una imagen más grande que la del IMAX, pero vamos, del estilo, para que os hagáis una idea… esta semana que viene van a dar Grease, y la próxima semana darán Inception… gratis. La gente va allí, se sienta y con un sonido simplemente espectacular te pones a ver las películas al aire libre en medio de la ciudad, porque es en el centro de Miami Beach.

Y, sin duda, algo que me gusta mucho… poder ver “criaturitas en medio de la ciudad”… por ejemplo, hace un par de días mismo, una ardilla correteaba por un parque.

La primera patente de Google: ¿BackRub?

Por norma general cuando hablas con alguien sobre los orígenes de Google y en qué está basada su tecnología siempre se habla de PageRank, pero no se suele hacer mención de BackRub (algo así como el “frota-espaldas”). Y es que sin duda el pensador máximo de Google siempre ha sido Larry Page, y de ahí que la application 60/035,205 del 10 de enero de 1997 no sea muy conocida. Su nombre: Improved Text Searching in Hypertext Systems. Sin duda difiere bastante de la 6.285.999, la más conocida como Pagerank y que en realidad lleva por nombre: Method for node ranking in a linked database. Además, es curioso porque Larry le hace referencia en 4 patentes posteriores a la primera.

La primera diferencia es clara: la primera patente hace referencia a formas de buscar y la segunda hace referencia a la forma en la que se relaciona la base de datos. Además, en el documento habla de la demostración de BackRub en la dirección http://zam.stanford.edu:1972/.

El documento comienza con:

Existing search engines on the Web produce very poor results when the query matches large numbers of documents. Yet, these simple queries are very frequently issued by users. Described here is a system which yields radically improved results for these queries using the additional information available from a large database of Web links. This database of Web citations is used to determine a citation importance ranking for every web page, which is then used to sort the query results. This system has been implemented, and yields excellent results, even on a relatively small database of four million web pages. Not only does the system yield better results, but it does so at significantly reduced computational cost, which can be a very large expense for Web search engines1. Demonstrating the improvement is as easy as picking a general query, for example “weather”, and comparing the results to the results from a traditional web search engine, like AltaVista (the results section shows some sample queries).
1 AltaVista is run on several large computers that each cost around a million dollars. And, every time they add another machine, the demand increases instantly to fully utilize the new equipment.

Sin duda las intenciones eran claras. En la época en la que el único buscador que podía encontrar entre los contenidos era AltaVista, su objetivo era demostrar que se podía hacer un sistema mejor y más barato.

Los primeros datos que se ofrecen es que, en base a la descarga de 30 millones de contenidos que había descargado BackRub, larry calculaba que el índice de AltaVista tenía 60 millones de contenidos y ocupaba unos 480 GigaBytes, teniendo 23 millones de usuarios/mensuales. Su preocupación era que cuando hacías una consulta genérica se mostraban decenas de miles de resultados y que eso sería un problema según la web fuera creciendo y que, teniendo en cuenta que la mayor parte de buscadores ordenaba las páginas según la frecuencia de la cadena de búsqueda, eso era un sistema muy aleatorio y de baja calidad.

La solución era clara:

By analyzing all the links on every web page we can compute a useful ranking that approximates a “quality” or “importance” criteria.

La comparación entre BackRub y el resto de buscadores se daba ya no palabras genéricas sino buscando un profesor de universidad. La comparación daba que el resto de buscadores mostraban unos cuantos artículos que hablaban de esa persona, en cambio BackRub ponía en primer lugar la web “oficial” del profesor.

PageRank — An Aproximation to “Importance”
The reason why my system works so sell, is that it decides which documents to return, and in what order, by using an approximation to how well cited, or “important” the matching documents are. I will call this aproximation to importance PageRank from now on. Web pages get a higher PageRank from being mentioned on other pages. But, the PageRank a page gains from a citation is based on the PageRank of the page that cites it. This definition may sound circular because it is in fact circular. But, it turns out with a few small modifications, we can still compute a PageRank of this form. So a page can have high PageRank even if it only has one citation, such as from an ad on the Yahoo home page, which of course has high PageRank. Or, a web page can get a high PageRank by being pointed to from thousands of other pages, like the Netscape download page which has 31,284 pages that point to it in my system. The intuition is that if your query matches tens of thousands of documents, you would be happier looking at documents that many people thought to mention in their web pages, or that people who had important pages mentioned at least a few times.

Tras esta explicación bastante clara del funcionamiento del sistema, comienza una serie de detalles sobre el funcionamiento. El modelo es el que todos conocemos: asumiendo que una página tiene un peso, este se distribuirá por sus hijos, y toda página tendrá como peso la suma del peso de todos los hijos. El ejemplo vendría a ser que si tu vas navegando aleatoriamente por la red, es muy probable que acabes en la página de descargas de Netscape y no en BackRub.

También se habla de los ciclos a la hora de re calcular el peso en el grafo, sobre todo porque no está todo interconectado. Y para solventar esto se usa el cyclotron effect de forma que se vuelve a dar energía a todo el grafo. En este caso este efecto vendría a ser que, una vez se ha visitado un enlace, se vuelve atrás en el navegador para seguir navegando por otro lugar. Un detalle interesante es que los usuarios van dejando de navegar, por lo que se ha de implementar un factor (15%) que haga que el peso de un enlace pierda fuerza dependiendo de la distancia a la que se encuentra del origen. El problema de esto es que se perdería fuerza general, por lo que las iteraciones acabarán siendo limitadas.

El siguiente paso del que se habla en el documento es sobre las posibles mejoras que se pueden llevar a cabo en el algoritmo. Teniendo en cuenta que sólo se distribuye el 15% del peso real de cada página, se podía falsear el algoritmo añadiendo muchos enlaces desde muchos sitios, para así hacer subir los puestos. This is a problem, because there is a great commercial interest to be at the top of the results of any search engine, and many people try to “beat” the system by this sort of “spamming”. I have considered distributing the damping 15% just to the major sites, like Netscape, which would likely completely alleviate this problem, and change the ranking little. But I need to do experiments to verify this. Es curioso que en la versión previa de Google ya se hablase de SEO y sobe todo que ya se hable de una especie de “listas blancas” como sería el caso de Netscape. También se habla de servidores computacionales a la hora de calcular el PageRank, en vez de calcularse por dominios. Hay que tener en cuenta que en aquella época había muy pocas empresas de alojamiento web, por lo que hacer este cálculo era bastante simple. Ahora se basaría en algo como los AS (Sistemas Autónomos). Un ejemplo que se pone sobre este asunto es el de las páginas de copyright que suelen enlazar siempre a la página principal comercial de las compañías, y que esto podría suponer un problema.

Otro detalle que se comenta y que es más sofisticado sería analizar el comportamiento del usuario según los enlaces. Esto podría ser analizar el tamaño del enlace y su posición en pantalla para determinar cuán clicable es. Otra opción sería la de dar más peso a aquellas páginas que se modifiquen con más frecuencia. Con esto se podría ganar más calidad en los resultados de búsqueda.

Un detalle (de sobrado) es que deja claro que el cálculo de este sistema necesita muy poca memoria RAM y que se puede re calcular todo el índice de 30 millones de páginas y 400 millones de enlaces en un ordenador de escritorio en unas pocas horas. hay que tener en cuenta que estamos hablando de máquinas del año 1996-1997.

Tener un alto PageRank, por lo tanto, significaba en ese momento 2 cosas: que el contenido de la página era popular, que a la gente le gustaba y lo guardaba en sus marcadores o lo enlazaba desde sus páginas, y ser la página principal (la homepage) de un sitio que contiene muchos nodos en su interior, algo parecido a lo que pasaba con la página principal de Yahoo!.

Y hasta aquí vendría a ser el funcionamiento de la algorítmica y la forma de ordenarse de los resultados, pero… ¿cómo se busca en un documento? ¿qué factores ha de tener para aparecer en los primeros puestos? A parte de dar explicaciones sobre el funcionamiento del PageRank, Larry también explicaba el funcionamiento del propio buscador BackRub.

BackRub al principio sólo buscaba información en los títulos de las páginas, algo que lo dejaba un paso atrás de AltaVista (que sí analizaba el contenido textual de la página). Detectaba contenidos duplicados y los agrupaba por sitio (los resultados indentados que todavía se siguen utilizando). Esto llevaba a un problema y es que por norma general algún contenido que debía aparecer en primer lugar quedaba relegado a la página principal (por la distribución del PageRank a las páginas principales). Esto se presentaba como una oportunidad ya que, dando la página principal, el usuario podría comenzar a navegar hasta encontrar la información. Sin duda, como mejoras estaba desde el primer día el tener en cuenta el contenido de las propias páginas (y no sólo el título), además de tener en cuenta el título de las páginas desde donde venían los enlaces o el texto que hay alrededor de un enlace puede servir para darle peso.

Es curioso que en este momento se hable del título de la página de destino del enlace y no del anchor-text. En mis presentaciones siempre comento que es importante poner como “title” del enlace el mismo título de la página de destino, y quitarle peso al propio texto del enlace… mi experiencia me decía que eso era mejor y ahora entiendo el porqué (algo que me alegra, la verdad).

En los primeros resultados de BackRub se mostraba una barra que podría representar el PageRank pero no iba de 0 a 10, sino que mostraba el valor de la importancia de la página en sí, además de ir acompañada de la cantidad de enlaces que se habían detectado para esa página concreta.

Sin duda es una buena forma de ver el origen real de Google, las preocupaciones que tenía Larry Page en sus inicios, cómo algunos mitos en los que muchos SEO se basan son totalmente erróneos (por basarse en una patente como la primera del PageRank que no es realmente la primera) y, quizá a mi lo que más me llama la atención es, como en los documentos, se habla de BackRub como “mi modesta página”. Sin duda estoy convendido que ni el propop Page sabía lo que estaba haciendo al patentar ese experimento que quería acabar con AltaVista, y lo consiguió gracias a Yahoo!.

Determinar la credibilidad de un sitio web

Estos días, con eso del Farmer Panda Update se está hablando mucho de la baja calidad de los contenidos. Aunque ahora mismo en realidad no se está atendiendo realmente a la calidad de los contenidos con respecto a su credibilidad, sí que se están revisando la calidad de una página con respecto al resto de páginas de un sitio. Pero de eso ya he hablado, así que voy a ir a por lo otro: la credibilidad.

Estos días se ha presentado un documento muy interesante llamado Augmenting Web Pages and Search Results to Support Credibility Assessment y reducido a “una palabra”: WebCredibility. Este documento está desarrollado parcialmente por Microsoft Research y básicamente detalla formas a tener en cuenta a la hora de intentar saber si un sitio (y una página concreta) es creíble o no.

El documento empieza con una frase muy interesante: The internet is increasingly becoming a primary source of information for people around the world algo que es completamente cierto… hoy en día todos nos fiamos de lo que se pone en Internet, aunque sabemos perfectamente que no nos podemos creer todo, porque cualquiera puede publicar. Entonces ¿cómo saber qué es verdad y qué no lo es?

Para empezar hay que buscar entre 4 tipos de credibilidad:

  1. Credibilidad presumible: basado en hipótesis generales que dan fuerza a la mente de los usuarios. Un ejemplo sería el uso de un dominio .GOV.
  2. Credibilidad de superficie: basada en una primera ojeada al sitio y lo profesional que puede aparentar.
  3. Credibilidad ganada: basada en la confianza a través del tiempo y que puede tener relación con la usabilidad del sitio y la arquitectura a la hora de ofrecer información.
  4. Credibilidad por reputación: basadas en las opiniones de terceros, premios, certificados…

Es curioso que 2/3 de los estadounidenses crean que los resultados proporcionados por los buscadores son “justos e imparciales” a la hora de ordenar los resultados, sin tener en cuenta la existencia propia del SEO, algo que no hace más o menos creíbles los sitios, sino que se basan en factores que los buscadores utilizan a la hora de generar la lista de resultados.

La credibilidad de una página se mide en base a esta premisa: A credible webpage is one whose information one can accept as the truth without needing to look elsewhere. If one can accept information on a page as true at face value, then the page is credible; if one needs to go elsewhere to check the validity of the information on the page, then it is less credible.

Para entender parte de cómo gestionar la credibilidad de un sitio podemos basarnos en algunos informes o estudios previos. Para analizar el contenido podemos usar el Open Information Extraction (PDF) aunque este sistema tiene problemas con el lenguaje natural o “de la calle”. Otras formas de detección son What is Disputed on the Web? (PDF) y el sistema BLEWS: Using Blogs to Provide Context for News Articles (PDF).

Otra cosa que se puede plantear es la predicción de la credibilidad de un sitio. Para ello se pueden usar técnicas como el Combating Web spam with TrustRank (PDF) (a.k.a TrustRank) and Countering Web spam with credibility-based link analysis (PDF) (a.k.a. CredibleRank). Estos sistemas básicamente observan y analizan la estructura de enlaces interna de un sitio y le dan una puntuación de credibilidad. De todas formas, estos sistemas no analizan la credibilidad en sí sino el Web Spam.

Para acabar encontramos la manera en la que se informa a los usuarios de la información incorrecta o poco precisa, y un ejemplo claro vendría a ser el historial de las páginas de la Wikipedia que permiten visualizar los cambios a través del tiempo. También existen organismos como el HON (que certifican la información médica) y que tienen en cuenta muchos factores.

A la hora de hacer un análisis in-vitro se utilizan ciertos valores con los que medir, que son los siguientes:

  • Elementos On-Page: son aquellas características que están presentes, pero son complejas de determinar para un usuario.
    • Errores ortográficos: revisando que la escritura sea correcta.
    • Publicidad: se comprueba la cantidad de anuncios que se sirven por página.
    • Tipo de dominio: los usuarios no se fijan en la URL y puede llevar a una falta de seguridad (ver Do security toolbars actually prevent phishing attacks (PDF)).
  • Elementos Off-Page: son aquellas características en las que el usuario ha de ver en otros sitios para conseguir datos suplementarios.
    • Premios: se recopila información de premios como los Webby Awards, Alexa, organizaciones como HON
    • PageRank: se recopila la información pública (desde la barra de herramientas) de cada página del dominio.
    • Compartido: datos de herramientas como Bit.ly, páginas compartidas en Facebook o número de bookmarks en delicious.
  • Elementos Agregados: son elementos a los que los usuarios no tienen acceso, como por ejemplo el comportamiento que se puede recopilar por la barra de herramientas de Bing (datos de +50 millones de usuarios).
    • Popularidad general: visitas únicas que ha tenido la página.
    • Alcance geográfico: cantidad de lugares geográficos distintos desde los que se ha accedido.
    • Tiempo de espera: tiempo que el usuario ha estado en la página.
    • Re visita: cuantas veces los usuarios han vuelto a visitar la página.
    • Popularidad experta: no todos los usuarios son capaces de determinar la credibilidad de un contenido y se analiza el comportamiento del usuario basada en su navegación anterior, contando el tiempo en otras páginas, etc…

El informe da ciertos datos interesantes que habría que tener en cuenta. Por ejemplo, uno de ellos dice que si los resultados de búsqueda dan más información sobre la página, los usuarios mejorarán la navegación y su decisión sobre la credibilidad del sitio. Un ejemplo sería el que BackRub (lo que después se convirtió en Google) tenía y donde aún puede verse algún ejemplo.

Sin duda este estudio es un buen punto de inicio para saber por dónde está investigando Bing, y la importancia que le están dando a la calidad de los resultados frente a la cantidad. Ahora sólo queda que el tiempo siga creándose y dentro de un tiempo ver si se aplican estos cambios.

Por cierto, como nota y detalle, si os fijáis en la imagen de BackRub, parece que Google “nunca” ha ordenado basándose en la cantidad de enlaces, sino en la calidad de los enlaces.

En fin, como siempre, los buscadores se basan en dos conceptos básicos: ingeniería y sentido común.

“Internet no es un trabajo, es un servicio”

Hace un par de días, hablando con la gente de aquí, recordaba que ya hace unas cuantas semanas que estoy por aquí y, entre otras cosas, se me vino a la cabeza lo que me dijo aquel tipo de inmigración cuando me preguntó en qué trabajaba y yo le resumí que en Internet: “Internet no es un trabajo, es un servicio”.

Sin duda esta frase esconde mucho, y lo primero que se me viene a la cabeza (y se me vino, pero no le contesté) es: ¿y las cosas de Internet se crean por combustión espontánea?. A ver, puede que para muchos “Internet no sea un trabajo”, pero alguien ha de construir Internet, porque las webs, los servicios, la tecnología no se crea sola. Facebook no ha aparecido un día porque a alguien se le ha ocurrido y a los pocos minutos estaba ahí, “tal y como lo veía en su cabeza”.

Esto me da pie a una siguiente pregunta: la gente que no se dedica a Internet ¿qué piensa de mi? (en este caso, de mi o de cualquiera de los que nos dedicamos a esto, tanto da). Es cierto que quizá debería ser más específico cuando alguien me pregunta a qué me dedico, pero decir que me dedico a hacer páginas web es algo que no me apetece, y que tampoco es del todo cierto, si digo que hago SEO me van a mandar ATPC, y ya no te digo si hablo de WPO, que ya me detienen por ponerme dronjas en el colacao.

Estoy pensando en cambiarme mi puesto y decir que soy arquitecto de Internet (Internet architect). Supongo que la siguiente pregunta se referirá a ¿y eso que c*** es? La respuesta es fácil: diseño y creo proyectos de Internet. ¿Cuela?

La otra cosa que salió en la conversación es sobre los sitios web de aquí y de allí. Cuando llegué a USA os comenté que tenía la sensación de que aquí, a nivel de uso de Internet van como 3 años adelantados, pero que en cuestiones más de producto y técnicas van 3 años atrasados. Y ya sé la razón: el comercio electrónico. Aquí se vende, ya de por sí, porque la gente compra por Internet aunque el sitio web sea una m*****.

Y ahora voy a decir la cosa esa explosiva: creo que los SEO europeos somos muchísimo mejores que los estadounidenses. Tengo la sensación, y ahora hablo concretamente de España que es lo que más conozco, que nosotros probamos mucho más, estamos pendientes mucho más de los cambios o de lo que pueda venir que el resto. Y es que desde hace un par de años, y después, cuando dejé OJObuscador, que me he dado cuenta de que ya casi nadie habla de SEO, nadie explica cosas nuevas, la gente que publica sólo explica las mismas cosas sobre los mismos productos pero nadie explica ninguna novedad “grande” que veas que realmente se prevea un gran cambio en el sector. Por supuesto esto es sólo una opinión, pero vamos, que en USA aún siguen hablando de cosas que yo ya tengo demostradas que son falsas (o al menos con muchísimo menos peso del que nos intentan hacer creer).

Así que, para acabar un aviso para todos los colegas de la profesión: ¡Al loro! Que no estamos tan mal hombre.

Guerras económicas

Creo que es una de esas pocas veces en las que voy a hablar un poco de política y de la situación del mundo. Aunque la verdad no es que la idea haya sido mía, pero la mayor parte de las semanas quedamos a comer un grupo en Miami y hablamos de todo, y entre estas cosas está lo de Libia.

Es curioso que de golpe ahora todos nos demos cuenta que en “esa zona” hay países en los que hay dictadores y cosas así… por ejemplo, nadie se esperaba que el Kingdom of Bahrain fuera de ese estilo… ¿no se hace allí la Fórmula 1? ¿cómo pueden ser malos? Ahora le ha tocado el turno a Muammar Gaddafi ser el malo de la película…

Como decía, yo de política no sé mucho, y menos aún de la internacional… pero con Toño y Marcos hablamos de este tema y un día me quedó claro: no es por el petróleo.

La diferencia entre estos países es que Bahrain, aunque el tío sea un dictador, se gasta mucha pasta en “mantener” contenidos y felices a sus ciudadanos… simplemente invirtiendo en pan y circo, poniendo hospitales y, importante, consume productos del exterior… es decir, la gente y el gobierno puede comprar productos de otros países. En cambio en Libia la cosa es distinta… los países compran muchísimo petróleo pero el único que se gasta los dineros en el resto de países es el señor Muammar. Sólo hacía falta que saltase la chispa.

¿Por qué le interesa a los países “atacar” Libia? Pues, aunque en parte sea por el petróleo, que un país quede “democrático” significa que empresas del exterior podrán ponerse allí, que la gente pueda empezar a tener cierto nivel de vida y comiencen a tener necesidades. Al principio los países “conquistadores” construirán pisos y casas… pero claro, necesitarán hipotecas los libios, así que Bank of America tendrá una sucursal en las ciudades importantes para poder ofrecer una hipoteca… y claro, ya que estamos, ¿por qué no te doy unos cuantos dolarcitos más y te compras un coche? Eso sí, que sea un Chevrolet, por supuesto, made in USA.

En muchos casos se dice que es “para quitar a esa mala persona que hay en el poder”… es lo que los países están poniendo como excusa… pero, si fuera por eso no habría que irse tan lejos. Un ejemplo claro sería Cuba. Al fin y al cabo, Cuba es un país en el que pasa lo mismo… la diferencia es que, aunque no haya petróleo, “arreglar” ese país tampoco tiene tanto interés, porque no habría que rascar mucho… el poder evolucionador de Cuba es totalmente inferior al que se puede dar en Libia.

En un momento así me gustaría poder decir que soy alemán, que en vez de “invertir en la guerra”, deciden mirar un poco para lo que tienen ellos dentro y “reservarse esos cientos de millones” que va a costar la operación para su propio país… por algo Alemania es lo que es, económicamente hablando.

Mantener una empresa: USA vs. Spain

Llevo varios días analizando cosas (como ya habréis notado los habituales de la casa) en cuestión de mi vida personal y profesional, y una de las decisiones que estoy acabando de cerrar estas semanas es si finalmente monto una empresa en USA o no. No voy a explicar las historias sobre lo complicado que es montar algo en España, pero, la verdad, la sencillez con la que se hacen aquí las cosas da para explicar algunas cosas.

Ya comenté qué hace falta para crear una empresa en Florida pero algo que no había investigado es cuánto cuesta mantener una empresa en Florida. Y la verdad es que es sorprendente.

En España a parte de que montar una empresa puede llevarte más de un mes (en Florida pueden ser unos 2-3 días), hay que pagar mucho en impuestos. Este tema no lo llegué a pensar mucho cuando fui a consultar sobre la creación… no pensé en el “mantenimiento”, pero, hablando con otros empresarios y clientes de por aquí me han ido explicando algunas cosas que creo que son de interés, porque la verdad, me dan ganas de montar una empresa aquí y cerrar todos mis negocios de España (no, por ahora es algo que no voy a hacer, pero ganas no me faltan).

Una vez montada la empresa básicamente en Florida hay que pagar… 1 vez al año. Básicamente las empresas de servicios no cobran los taxes (lo que vendría a ser el IVA) por lo que las facturas “sólo llevan lo que se cobra”. Una vez al año, se hace una especie de “Impuesto de Sociedades” y pagas un 7% (en España es sobre un 35% o así). A parte de esto, hay que pagar una tasa anual de unos 200 dólares para “renovar la empresa” (por así llamarlo) de forma que te renuevan el EIN (que es como el CIF) y la empresa sigue activa…

En el caso de tener trabajadores, existe algo parecido al IRPF que se paga trimestralmente, pero esto ya no lo tengo tan por la mano, así que no puedo explicar mucho sobre ello, todavía.

En fin, ya seguiré informando según vaya sabiendo… pero creo que valía la pena decirlo: los americanos sí que saben cómo hacer que el dinero circule.

NOTA: que conste que esto es lo que voy aprendiendo y lo que me van explicando… que si alguien quiere montar una empresa en Florida, que vaya a un abogado y que contrate un contable… y que se informe bien.

Cierra el p*** Facebook ya

El otro día cuando hablé lo de dejar Internet me pasaron por Twitter una canción de Spotify que habla de las Redes Sociales, de Tote King. Le he dado una ojeada a los comentarios del propio Youtube y, aunque no creo que la canción tenga la intención de decir que cerremos todo, sí que tiene un buen sentido sobre la moderación en su uso, moderación que algunos que conozco no tienen.

Reconozco que yo soy el primero que cuando está fuera de casa va con el móvil y con Twitter publicando fotos y tonterías, y aunque me he aplicado el cuento alguna vez, quizá este vídeo y canción debería hacernos reflexionar un poco más sobre lo que está pasando, sobre lo que la juventud vive.

A veces pienso en el hijo de un amigo y qué hará cuando le diga que quiere tener su cuenta de Facebook, Tuenti o similar… hoy en día no le puedes prohibir a un chaval que cree su cuenta (porque sino la creará sin tú saberlo) y creo que explicarle a un chaval la importancia de la privacidad de las herramientas tiene mucho de importante por parte de los padres… al menos, yo es algo que haría, aunque mi chaval no sea mi follower en Twitter