View Full Version : [Java] Parser HTML
Ho un file HTML con del testo e delle immagini e vorrei recuperare da questo file solo il testo senza le immagini e senza i tag html.
Praticamente devo ripulire questo file per recuperare solo e soltanto le informazioni testuali contenute in esso
Conoscete qualche classe java che mi possa aiutare a far ciò...
magari corredata da qualche esempio...
ciao e grazie
franksisca
25-06-2005, 20:41
guarad, prendi il file hatml, con uyn flusso in ingresso ti crei una unica stringa, la tokenizzi, e se il token in esame è un tag lo elimini, altrimenti aggiungi ad una stringa finale.Credo che questo sia il modo più semplice.
ci avevo provato ma non funziona con i tag che presentano attributi:
<td witdh..... id....>
<table id.... >
funziona solo con tag
<table>
</table>
<tr>
</tr>
<td>
</td>
etc...
franksisca
25-06-2005, 22:37
Prova a usare come token "<>", e tra un token e l'altro, non memorizzare niente, vedi se risolvi qualcosa.
Probabilmente te la cavi facilmente con java.util.regex; e qualche voodoo con le espressioni regolari.
http://java.sun.com/docs/books/tutorial/extra/regex/
prova a vedere se questo fa al caso tuo:
String thisStringHasNoHtml = stringWithHtml.replaceAll("\\<.*?\\>","");
ciao ;)
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.