PDA

View Full Version : [JAVA] Modifica file di testo


DarkSiDE
06-08-2006, 17:01
Salve,
ho un quesito relativamente semplice da porvi. Ho in input un file, solitamente html, devo rimuovere determinate righe, delle quali non conosco il numero ma solo che contengono determinati tag. Mi spiego meglio: solitamente in una pagina html si trova ad es. html+javascript, devo rimuovere le righe contententi codice js tra tag <script></script>. Come posso fare?

grazie :D

andbin
06-08-2006, 17:11
Salve,
ho un quesito relativamente semplice da porvi. Ho in input un file, solitamente html, devo rimuovere determinate righe, delle quali non conosco il numero ma solo che contengono determinati tag. Mi spiego meglio: solitamente in una pagina html si trova ad es. html+javascript, devo rimuovere le righe contententi codice js tra tag <script></script>. Come posso fare?Una idea potrebbe essere questa: leggi il file riga x riga. Per ogni riga, cerchi la sottostringa "<script>". Se la trovi, attivi un flag. Se il flag è attivo, cerchi in ogni riga anche la sottostringa "</script>" e se la trovi azzeri il flag.
Tutto quello che trovi quando il flag è attivo, lo ignori. Il resto lo scrivi dove ti serve (es. su un altro file).
Spero di essermi spiegato a parole. Non dovrebbe essere difficile da codificare. ;)

sottovento
06-08-2006, 18:05
Un'altra idea potrebbe essere quella di caricare tutto il file in una stringa, per esempio di nome testo e poi scrivere

testo = testo.replaceAll ("<script>.*<\\/script>", "");

In testo avrai il codice senza i tag in questione.

High Flying
Sottovento

DarkSiDE
09-08-2006, 16:27
Un'altra idea potrebbe essere quella di caricare tutto il file in una stringa, per esempio di nome testo e poi scrivere

testo = testo.replaceAll ("<script>.*<\\/script>", "");

In testo avrai il codice senza i tag in questione.

High Flying
Sottovento

grazie mille ad entrambi

ho parzialmente risolto usando replace, se non fosse che dà problemi..

es:

<SCRIPT>
<!--
function MM_swapImgRestore() { //v3.0
var i,x,a=document.MM_sr; for(i=0;a&&i<a.length&&(x=a[i])&&x.oSrc;i++) x.src=x.oSrc;
}
</SCRIPT>


testo = testo.replaceAll ("<SCRIPT>.*<\\/SCRIPT>", "");

non funziona..

loris_p
10-08-2006, 05:06
io quoto al 100% la soluzione di andbin, molto C-style :cool:

Mixmar
10-08-2006, 22:17
Mi permetto di suggerire una variante: se il file di testo è xhtml potresti semplicemente utilizzare un parser con un apposito file xsl per trasformare il sorgente con gli script in un nuovo file senza script.

Però non so se questo sia il tuo caso.

loris_p
10-08-2006, 22:22
bella anche questa soluzione.. :)
però non dimentichiamo che XSL (eXtesible Style Language) sarebbe nato per applicare stili a pagine Xml o XHtml.. che poi sia un linguaggio potentissmo è vero, però ci si scosta un po' dalla natura del linguaggio..
un'altra cosetta..se lo conosce, benissimo, altrimenti forse non è proprio il linguaggio più facile da imparare così in quattro e qattr'otto :cry:
spero che almeno gli piaccia la ricorsione.. :D

DarkSiDE
11-08-2006, 13:45
grazie mille ad entrambi

ho parzialmente risolto usando replace, se non fosse che dà problemi..

es:

<SCRIPT>
<!--
function MM_swapImgRestore() { //v3.0
var i,x,a=document.MM_sr; for(i=0;a&&i<a.length&&(x=a[i])&&x.oSrc;i++) x.src=x.oSrc;
}
</SCRIPT>


testo = testo.replaceAll ("<SCRIPT>.*<\\/SCRIPT>", "");

non funziona..


nessuno?
grazie per i consigli ma se riuscissi a far funzionare replace all sarebbe sicuramente molto più comodo e sicuro ;)

andbin
11-08-2006, 14:57
se riuscissi a far funzionare replace all sarebbe sicuramente molto più comodo e sicuro ;)Questo è un esempio:
import java.util.regex.*;

public class Prova
{
public static void main (String[] args)
{
try
{
String page = "<html>\r\n" +
"<head>\r\n" +
"<title>Prova</title>\r\n" +
"<script type=\"text/javascript\">\r\n" +
"<!--\r\n" +
"alert (\"Ciao\");\r\n" +
"//-->\r\n" +
"</script>\r\n" +
"</head>\r\n" +
"<body>\r\n" +
"\r\n" +
"<h1>Ciao</h1>\r\n" +
"<SCRIPT TYPE=\"text/javascript\">\r\n" +
"</SCRIPT>\r\n" +
"\r\n" +
"</body>\r\n" +
"</html>";


Pattern pattern = Pattern.compile ("<script.*?</script>(\r\n)?", Pattern.DOTALL | Pattern.CASE_INSENSITIVE);

Matcher matcher = pattern.matcher (page);
String output = matcher.replaceAll ("");

System.out.println (output);
}
catch (Exception e)
{
e.printStackTrace ();
}
}
}

DarkSiDE
11-08-2006, 16:52
Questo è un esempio:
[cut]

Avevo pensato a mettere tutto su una riga e mettere un marcatore alla fine di ogni riga, rimuovere gli script e sostituire il marcatore con un a capo, poco elegante ma funzionale.

Sicuramente di gran lunga migliore la tua soluzione..perchè mi hai inizialmente consigliato di scrivere manualmente il codice? nondovrebbe essere più efficiente l'ultima soluzione proposta?

grazie mille, davvero.

andbin
11-08-2006, 17:49
Avevo pensato a mettere tutto su una riga e mettere un marcatore alla fine di ogni riga, rimuovere gli script e sostituire il marcatore con un a capo, poco elegante ma funzionale.Sì, ho capito quello che pensavi di fare. Prima togli i CR/LF (e li fai diventare, che so, <EOL>), poi fai le sostituzioni che vuoi e alla fine rimetti "a posto" i CR/LF. Sicuramente fattibile ma a mio avviso un pochino macchinoso.

Sicuramente di gran lunga migliore la tua soluzione..perchè mi hai inizialmente consigliato di scrivere manualmente il codice? nondovrebbe essere più efficiente l'ultima soluzione proposta?Utilizzando il metodo come nel mio esempio, devi avere tutta la pagina caricata in una stringa. Quindi è esclusivamente una questione di occupazione di memoria e di gestione delle stringhe.
Facendo invece come avevo detto all'inizio, è vero che sarebbe stato un pochino più complesso analizzare ogni riga per trovare i vari delimitatori, ma così non occupavi troppa memoria.

Insomma ... è una cosa da valutare. Se ti piace l'esempio che ho appena fatto, in linea di massima dovrebbe andarti bene (se non devi gestire pagine molto grosse).
Dovresti solo leggere il file a blocchi di tot caratteri e metterli direttamente in uno StringBuffer (per motivi di prestazioni). Poi alla fine ottieni una String su cui operare.

DarkSiDE
12-08-2006, 15:22
[cut]
Dovresti solo leggere il file a blocchi di tot caratteri e metterli direttamente in uno StringBuffer (per motivi di prestazioni). Poi alla fine ottieni una String su cui operare.

Rimango dell'idea di utilizzare il tuo codice poichè credo che scrivere un algoritmo sia una soluzione 'meno affidabile'.
Per quanto riguarda la stringa che conterrà il codice, vale la pena utilizzare una StringBuffer sapendo che utilizzerò SOLO l'append per copiare le singole righe?

andbin
12-08-2006, 18:11
vale la pena utilizzare una StringBuffer sapendo che utilizzerò SOLO l'append per copiare le singole righe?Sì, perché facendo stringa = stringa + linea; viene creato un nuovo oggetto String ogni volta! Mentre invece utilizzando un StringBuffer, hai un solo oggetto (il cui buffer interno si espande in modo "intelligente").

Anzi, ti dico di più: non dovresti nemmeno leggere riga per riga (ad esempio con readLine() della classe BufferedReader) perché così perderesti i fine riga. È molto meglio leggere a blocchi di char che, tra l'altro, è anche più performante!!
BufferedReader br = ......;

char[] cbuf = new char[1024];

....

int len = br.read (cbuf, 0, cbuf.length); // ripetuto in loop, ovviamente
....

DarkSiDE
12-08-2006, 20:49
Sì, perché facendo stringa = stringa + linea; viene creato un nuovo oggetto String ogni volta! Mentre invece utilizzando un StringBuffer, hai un solo oggetto (il cui buffer interno si espande in modo "intelligente").

Anzi, ti dico di più: non dovresti nemmeno leggere riga per riga (ad esempio con readLine() della classe BufferedReader) perché così perderesti i fine riga. È molto meglio leggere a blocchi di char che, tra l'altro, è anche più performante!!
BufferedReader br = ......;

char[] cbuf = new char[1024];

....

int len = br.read (cbuf, 0, cbuf.length); // ripetuto in loop, ovviamente
....


char[] cbuf = new char[1024];
StringBuffer testo=new StringBuffer();

while(br.read (cbuf, 0, cbuf.length)!=-1) {
br.read (cbuf, 0, cbuf.length);
testo.append(cbuf);
}
br.close();

avevo pensato a qualcosa del genere ma non ho idea di come posso utilizzare a mò di stringa l'array di caratteri

andbin
13-08-2006, 09:30
avevo pensato a qualcosa del genere ma non ho idea di come posso utilizzare a mò di stringa l'array di caratteriMolto semplice. Al posto di BufferedReader si può anche usare, ho visto adesso, un InputStreamReader.
FileInputStream fis = new FileInputStream ("nomefile");
InputStreamReader isr = new InputStreamReader (fis);

int len;

char[] chbuf = new char[1024];
StringBuffer strbuf = new StringBuffer ();

do {
len = isr.read (chbuf, 0, chbuf.length);

if (len > 0) {
strbuf.append (chbuf, 0, len);
}
} while (len > 0);