PDA

View Full Version : scaricare intero sito, come?


YordanRhapsody
26-11-2007, 15:00
salve a tutti...

ho la necessità di scaricare l'intero contenuto di un sito

questo sito ha come pagina principale molti collegamenti ad ulteriori pagine, ognuna delle queli contiene un'immagine se non ulteriori collegamenti...

come posso fare? che programma uso sotto linux?

viaggio con la linux mint 4 se può esser utile...

sotto win ho provato con httrack, ma non ho avuto molto successo...

Caldwell83
26-11-2007, 15:14
Per win esite Teleport Pro.
Lo usavo e funziona benone.
Ha la funzione "Copia struttura sito", o qualcosa di simile, che ti fa la copia "browsabile" del sito sul tuo pc.
Per il pinguino non saprei.

YordanRhapsody
26-11-2007, 15:37
ho visto che esiste httrack per linux, l'ho installato ma non lo so adoperare come si deve

se qualche anima pia mi sa dare una mano...

se volete ci possiamo sentire anche su msn... mandatemi un mp semmai...

ilsensine
26-11-2007, 15:55
wget non va bene?

YordanRhapsody
26-11-2007, 15:57
ho visto che c'è anche wget, ma non riesco a definire i limiti di scaricamento...

faccio un esempio pratico, se io volessi scaricare il mio sito su pbase

che è www.pbase.com/nomeutente/

come faccio a dirgli di scaricare tutto quanto comincia con www.pbase.com/nomeutente senza andare a scaricare l'intero pbase?

inoltre sotto al sito ci sono ulteriori sottocartelle, come gli dico di scaricare tutti i link in cui inciampa (soprattutto deve scaricare le foto) senza però uscire da quel dominio?

ilsensine
26-11-2007, 16:18
--no-parent

YordanRhapsody
26-11-2007, 16:42
grazie, ora sto andando con

wget --mirror --no-parent http://sito da scaricare

pare che funzioni, ma ancora è presto per dirlo

ps c'è un modo per interrompere momentaneamente il download e riprenderlo più avanti?

ilsensine
26-11-2007, 16:52
-c

(mi hai preso per la man page di wget? :D )

mykol
26-11-2007, 16:53
usa httrack, è semplicissimo.

lo lanci con

httrack

in una console

poi rispondi semplicemente alle domande che ti fa (e se non hai esigenze particolari, o dietro firewall, proxy, ecc...) accetti le impostazioni di default. Se vuoi esiste anche whttrack che ha un'interfaccia grafica ma secondo me è più complicato.

Comunque il sito lo scarichi ...se vuole farsi scaricare ...

[giorgio@mandriva_2007_spring ~]$ httrack

Welcome to HTTrack Website Copier (Offline Browser) 3.40-2-nossl
Copyright (C) Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack --help

Enter project name :pippo

Base path (return=/home/giorgio/websites/) :

Enter URLs (separated by commas or blank spaces) :www.pippo.it www.pluto.com

Action:
(enter) 1 Mirror Web Site(s)
2 Mirror Web Site(s) with Wizard
3 Just Get Files Indicated
4 Mirror ALL links in URLs (Multiple Mirror)
5 Test Links In URLs (Bookmark Test)
0 Quit
: 1

Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
Wildcards (return=none) :

You can define additional options, such as recurse level (-r<number>), separed by blank spaces
To see the option list, type help
Additional options (return=none) :

---> Wizard command line: httrack www.pippo.it www.pluto.com -O "/home/giorgio/websites/pippo" -%v

Ready to launch the mirror? (Y/n) :y

Mirror launched on Mon, 26 Nov 2007 17:51:18 by HTTrack Website Copier/3.40-2-nossl [XR&CO'2006]
........................................................................................................
......................................................................................................

crea una dir "pippo" nella dir locale "/home/giorgio/websites/" (ovviamente puoi metterci quella che vuoi tu)

memorizzandovi, in formato navigabile i siti "www.pippo.it" e "www.pluto.com"

nella dir "pippo" ti trovi questi file

mykol
26-11-2007, 16:55
usa httrack, è semplicissimo.

lo lanci con

httrack

in una console

poi rispondi semplicemente alle domande che ti fa (e se non hai esigenze particolari, o dietro firewall, proxy, ecc...) accetti le impostazioni di default. Se vuoi esiste anche whttrack che ha un'interfaccia grafica ma secondo me è più complicato.

Comunque il sito lo scarichi ...se vuole farsi scaricare ...

[giorgio@mandriva_2007_spring ~]$ httrack

Welcome to HTTrack Website Copier (Offline Browser) 3.40-2-nossl
Copyright (C) Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack --help

Enter project name :pippo

Base path (return=/home/giorgio/websites/) :

Enter URLs (separated by commas or blank spaces) :www.pippo.it www.pluto.com

Action:
(enter) 1 Mirror Web Site(s)
2 Mirror Web Site(s) with Wizard
3 Just Get Files Indicated
4 Mirror ALL links in URLs (Multiple Mirror)
5 Test Links In URLs (Bookmark Test)
0 Quit
: 1

Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
Wildcards (return=none) :

You can define additional options, such as recurse level (-r<number>), separed by blank spaces
To see the option list, type help
Additional options (return=none) :

---> Wizard command line: httrack www.pippo.it www.pluto.com -O "/home/giorgio/websites/pippo" -%v

Ready to launch the mirror? (Y/n) :y

Mirror launched on Mon, 26 Nov 2007 17:51:18 by HTTrack Website Copier/3.40-2-nossl [XR&CO'2006]
........................................................................................................
......................................................................................................

crea una dir "pippo" nella dir locale "/home/giorgio/websites/" (ovviamente puoi metterci quella che vuoi tu)

memorizzandovi, in formato navigabile i siti "www.pippo.it" e "www.pluto.com"

nella dir "pippo" ti trovi questi file


hts-cache
www.pippo.it
backblue.gif
fade.gif
index.html
hts-in_progress.lock
hts-log.txt


Clicchi su index.html e navighi in locale sul tuo sito.

Facile no ?