Download di interi siti Web. [Archivio]

View Full Version : Download di interi siti Web.

GianSega

12-09-2008, 15:26

Salve a tutti ragazzi.. Volevo chiedervi come era possibile scaricare una pagina web e i relativi link in essa contenuti in un solo colpo.

Un esempio:
in questa pagina http://programmazione.html.it/guide/leggi/32/guida-c/ è contenuto un elenco dei titoli dei capitoli di una guida al C. Non esiste un link per il download diretto: come faccio a scaricare tutti i capitoli invece di visitarli uno ad uno premento Ctrl+S ogni volta (sono 46 in questo caso.. )

Ho provato httrack (http://ciaolinux.myblog.it/archive/2008/07/28/scaricare-interi-siti-con-httrack.html) ma non capisco come funziona e se è adatto al mio scopo.

:muro: :muro:
:help:

GianSega

12-09-2008, 16:24

Non è possibile vero? :stordita:

lucasbreak

13-09-2008, 18:38

Httrack dovrebbe andare bene,credo che debba solo essere impostato in modo corretto.

pc001

13-09-2008, 19:19

hai visto cosa c'è nel robots.txt

#Vuoi sapere come si crea un testo come questo?
#Vai su http://webmarketing.html.it/articoli/leggi/84/il-file-robotstxt-escludere-i-motori-indesiderati/
#
#Creato la prima volta il 28/03/2002 per html.it da Francesco Caccavella (f.caccavella@html.it)

#Aggiunto il 25 ottobre 2007
User-agent: *
Disallow: /articoli/stampa/
Disallow: /guide/stampa_lezione/

#Aggiunto il 16 maggio 2005
User-agent: Microsoft URL
Disallow: /

#Aggiunto il 14 febbraio 2003
User-agent: webmirror
Disallow: /

#Aggiunto il 14 febbraio 2003
User-agent: webcopy
Disallow: /

#Aggiunto il 03 agosto 2002
User-agent: WinHTTrack
Disallow: /

che html.it sarebbe se non avesse l'accortezza nemmeno di aggiungere queste banalissime precauzioni? Sono curioso invece di capire se c'è un modo di bypassare tutti questi disallow a questi user-agent, ma non credo! :-(

GianSega

14-09-2008, 08:53

Peccato..:( una cosa buona però c'è! Non avevo mai sentito di questo file robots.txt e perlomeno adesso so qualcosa di più su connesione server-client.
:D

pc001

14-09-2008, 14:33

ok, so che sarà un po' più lunga ma se ti fa piacere puoi usare anche questo sistema:
httrack o meglio winhttrack website copier; inserisci project name, poi, dove salvarlo, scarica il sito web, nelle opzioni vista: identità browser, identificati come Lynx browser e nei collegamenti vista scarica prima file html; avanti, ora arriva la menata:
ti porti qui: http://programmazione.html.it/guide/leggi/32/guida-c/
poi su ogni link al corso o manuale che sia clik destro e copia indirizzo, ti copi gli indirizzi con un copy&paste dentro il box d'inserimento dei link di winhttrack e poi lanci il processo. Avrai tutto in locale come da sito. è sempre un poco più veloce del salva con pagina con nome, almeno credo.:read:
Ciao

GianSega

14-09-2008, 16:02

E' lento ma sempre più veloce di prima! ;) Fantastico grazie!:D

pc001

14-09-2008, 16:46

è stato un piacere, alla prox:doh: