Parsear el robots.txt con PHP

Cuando construyes un robots de Internet has de tener en cuenta dos elementos:

Tener tu propio «User-Agent»
Cumplir el estándar de robots.txt

Para el primer elemento hay una forma muy sencilla de ejecutar un código en PHP:

ini_set("user_agent", "Agente 1.0 ");

Con esto ya consigues que, cuando se haya una petición desde PHP hacia cualquier sitio, en vez de llevar el agente del propio PHP se genere uno con los datos que tú indiques.

Aunque, quizá lo más interesante es tener un sistema de parseo de los ficheros de robots.txt. Para ello hemos de leer todas las líneas del fichero y procesarlas, sobretodo si coinciden con nuestro agente.

La idea es crear una función que consulte si tenemos acceso o no a esa dirección URL. Se puede mejorar con un sistema de caché y similar, pero lo pondré sencillo para dar unos primeros pasos.

Ahora sólo faltaría hacer un llamada:

$url = "http://www.ejemplo.ext/preba.html"; if(robots($url, "Agente")) { $contenido = file_get_contents($url); }

Parsear el robots.txt con PHP

Comments

Una respuesta a «Parsear el robots.txt con PHP»

Deja una respuesta Cancelar la respuesta