Sunday, October 5, 2008

bajarse pdf de web con links

Cuando nos encntramos el caso que una web ofrecen pdf's o otro tipo de archivos con enlaces es facil hacer un script o escribir directamente el comando para descargar los mismos mediante wget:
Suponemos que tenemos un archivo de codigo html que se llama archivo.html donde aparecen los enlaces asi:

../li>
  • Documentos de Secretaría...

    limpiamos el contenido del archivo asi:

    $ sed '1,$ s/pdf/pdf\n/g' archivo.html |sed '1,$ s/http/\nhttp/g'|grep pdf | cat >>lista

    EXPLICACION DEL COMANDO: sed se utiliza para hacer cambios relativamente pequenos en archivos de texto. '1,$ s/pdf/pdf\n/g' es la orden, quiere decir, de la linea (1) hasta la ultima ($), substituir (s), la palabra pdf, por pdf\n donde \n es fin de linea, vamos como si pulsaramos intro. g indica que se hagan tantas substituciones como apariciones haya en cada linea. La salida de esta accion se continua. grep hace que se eliminen todas las lineas donde no aparezca la palabra pdf

    ahora tenemos un nuevo archivo llamado lista que contiene solamente las URL de cada archivo que queremos bajar
    y ahora bajamos todos los archivos de la lista con

    $ wget -i lista
  • No comments: