Parsear el robots.txt con PHP
·
Cuando construyes un robots de Internet has de tener en cuenta dos elementos: Tener tu propio «User-Agent» Cumplir el estándar de robots.txt Para el primer elemento hay una forma muy sencilla de ejecutar un código en PHP: ini_set(«user_agent», «Agente 1.0 «); Con esto ya consigues que, cuando se haya una petición desde PHP hacia cualquier sitio, en vez de llevar el agente del propio PHP se genere uno con los datos que tú indiques. Aunque, quizá lo más interesante es tener un sistema de parseo de los ficheros de robots.txt. Para ello hemos de leer todas las líneas del fichero… Read More →