PDA

View Full Version : Salvare codice HTML da URL


pippo985
22-02-2007, 13:18
Salve a tutti,
dovrei realizzare un programma che data una determinata URL, esempio www.sito.com/pagina.html, salvi il codice html della pagina su file. Meglio ancora se venisse creato uno screenshot della pagina e salvarlo come jpeg.
Possibilmente dovrebbe essere un'applicazione WEB.

Mi potete dare qualche dritta?

Ciao

andbin
22-02-2007, 13:39
dovrei realizzare un programma che data una determinata URL, esempio www.sito.com/pagina.html, salvi il codice html della pagina su file.Fattibile. Linguaggio da usare?? (e sistema operativo?)

Meglio ancora se venisse creato uno screenshot della pagina e salvarlo come jpeg.Questo è più tosto ...

Possibilmente dovrebbe essere un'applicazione WEB.Cioè ... vorresti farlo da una pagina web??

pippo985
22-02-2007, 13:47
Fattibile. Linguaggio da usare?? (e sistema operativo?)

Questo è più tosto ...

Cioè ... vorresti farlo da una pagina web??

Il linguaggio non è un problema: java, C, php, perl; unix/linux come SO
Vorrei che, all'interno di una pagina WEB, inserendo la URL da una text e successivamente cliccando su un bottone fosse possibile salvare la pagina, possibilmente con tutti i relativi fogli di stile, immagini, etc.
Ecco perchè salvarla come immagine sarebbe il massimo.

andbin
22-02-2007, 14:22
Il linguaggio non è un problema: java, C, php, perl; unix/linux come SO
Vorrei che, all'interno di una pagina WEBQuesto allora complica un pochino le cose. Potresti usare una applet Java ma dovrebbe comunque essere firmata digitalmente. Con una applet firmata puoi fare connessioni verso qualunque host, quindi ad esempio puoi fare una richiesta HTTP per scaricare una pagina web.
Altre soluzioni ci sarebbero ma a questo punto dovresti sfuttare un qualcosa lato server (es. PHP, ASP, ecc...). Anche in questo caso si può sicuramente aprire una connessione HTTP per scaricare una pagina web. Ad esempio con PHP si può usare la libreria CURL (ne avevo parlato e fatto un esempio <qui> (http://www.hwupgrade.it/forum/showthread.php?t=1370279)).
Sarebbe comunque da studiare molto bene.

inserendo la URL da una text e successivamente cliccando su un bottone fosse possibile salvare la pagina, possibilmente con tutti i relativi fogli di stile, immagini, etc.Anche questa è una cosa in più che richiede una certa analisi. Innanzitutto si deve fare una richiesta HTTP per scaricare il documento html. A quel punto però dovresti analizzare la pagina per cercare tutti i collegamenti a script, fogli di stile, immagini e quant'altro sia collegato alla pagina. Dovresti o usare una libreria apposita per il parsing, oppure fai tutte le ricerche magari con delle espressioni regolari. Comunque non è banale. E non può essere preciso/perfetto al 100% (se in una pagina web c'è del codice Javascript che usa document.write per scrivere un tag <img>, che fai??? :p ).

Ecco perchè salvarla come immagine sarebbe il massimo.Questo è molto più tosto, perché tutto quello che ho detto finora non servirebbe. Dovresti far aprire una finestra di un browser e quindi "catturare" l'area. Bisogna vedere poi se ti basta una area della pagina o tutta la pagina per l'intera lunghezza.
Talvolta mi capita di vedere su riviste o libri delle immagini che mostrano un intero sito web, in tutta la sua "altezza". Non so come facciano, se fanno gli screenshot a mano e poi incollano di brutto o se usano dei software appositi.


P.S.: Tra l'altro ... non volevo dirlo :p ... ma tutti i principali browser (almeno IE/Mozilla/Firefox) hanno l'opzione per salvare una pagina web, solo l'html o tutto quanto.

pippo985
22-02-2007, 14:34
Innanzitutto grazie per le prezione risposte.
Avevo intuito che non era una cosa banale e me ne hai dato conferma.
Ma andando verso la strada dell'html > jpeg, sarebbe possibile aprire l' URL con un browser e stampare la pagina in formato PS senza che l'utente faccia nulla?