Suponemos que tenemos un archivo de codigo html que se llama archivo.html donde aparecen los enlaces asi:
../li>
limpiamos el contenido del archivo asi:
$ sed '1,$ s/pdf/pdf\n/g' archivo.html |sed '1,$ s/http/\nhttp/g'|grep pdf | cat >>listaEXPLICACION DEL COMANDO: sed se utiliza para hacer cambios relativamente pequenos en archivos de texto. '1,$ s/pdf/pdf\n/g' es la orden, quiere decir, de la linea (1) hasta la ultima ($), substituir (s), la palabra pdf, por pdf\n donde \n es fin de linea, vamos como si pulsaramos intro. g indica que se hagan tantas substituciones como apariciones haya en cada linea. La salida de esta accion se continua. grep hace que se eliminen todas las lineas donde no aparezca la palabra pdf
ahora tenemos un nuevo archivo llamado lista que contiene solamente las URL de cada archivo que queremos bajar
y ahora bajamos todos los archivos de la lista con
$ wget -i lista
No comments:
Post a Comment