2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

Descarregar TODAS as Pastas, Subpastas e Ficheiros usando Wget

Tenho usado Wget, e deparei-me com um problema. Tenho um site,que tem várias pastas e subpastas dentro do site. Preciso de descarregar todo o conteúdo dentro de cada pasta e subpasta. Tentei vários métodos usando Wget, e quando verifico a conclusão, tudo o que consigo ver nas pastas é um ficheiro “índice”. Posso clicar no ficheiro índice, e este levar-me-á aos ficheiros, mas preciso dos ficheiros reais.

alguém tem um comando para Wget que eu tenha ignorado, ou há outro programa que eu possa usar para obter toda esta informação?

exemplo de site:

www.mysite.com/Pictures/ dentro da Pictures DIr, há várias pastas…..

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

Preciso de todos os ficheiros, pastas, etc…..

Respostas (3)

38
38
38
2013-10-07 16:23:25 +0000

Quero assumir que ainda não tentou isto:

wget -r --no-parent http://www.mysite.com/Pictures/

ou recuperar o conteúdo, sem descarregar os ficheiros “index.html”:

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

Referência: Usando wget para ir buscar de forma recorrente um directório com ficheiros arbitrários nele

20
20
20
2014-12-20 09:22:17 +0000

Eu uso wget -rkpN -e robots=off http://www.example.com/

-r significa recursivamente

-k significa converter ligações. Assim, as ligações na página web serão locaishost em vez de example.com/bla

-p significa obter todos os recursos da página web de modo a obter imagens e ficheiros javascript para fazer com que a página web funcione correctamente.

-N consiste em recuperar os carimbos temporais, por isso, se os ficheiros locais forem mais recentes do que os ficheiros em sítio web remoto, ignore-os.

-e é uma opção de bandeira que precisa de estar presente para que o robots=off funcione.

robots=off significa ignorar ficheiro de robots.

Eu também tinha -c neste comando, por isso, se a ligação cair se continuar de onde parou quando eu voltei a executar o comando. Imaginei que -N iria bem com -c.

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A * -pk -e robots=off www.mysite.com/ isto irá descarregar todos os tipos de ficheiros localmente e apontar para eles a partir do ficheiro html e irá ignorar o ficheiro robots