PDA

View Full Version : [Java] Parser HTML


carMAN
25-06-2005, 17:59
Ho un file HTML con del testo e delle immagini e vorrei recuperare da questo file solo il testo senza le immagini e senza i tag html.
Praticamente devo ripulire questo file per recuperare solo e soltanto le informazioni testuali contenute in esso

Conoscete qualche classe java che mi possa aiutare a far ciò...
magari corredata da qualche esempio...

ciao e grazie

franksisca
25-06-2005, 20:41
guarad, prendi il file hatml, con uyn flusso in ingresso ti crei una unica stringa, la tokenizzi, e se il token in esame è un tag lo elimini, altrimenti aggiungi ad una stringa finale.Credo che questo sia il modo più semplice.

carMAN
25-06-2005, 20:48
ci avevo provato ma non funziona con i tag che presentano attributi:
<td witdh..... id....>
<table id.... >

funziona solo con tag
<table>
</table>
<tr>
</tr>
<td>
</td>

etc...

franksisca
25-06-2005, 22:37
Prova a usare come token "<>", e tra un token e l'altro, non memorizzare niente, vedi se risolvi qualcosa.

VICIUS
25-06-2005, 22:47
Probabilmente te la cavi facilmente con java.util.regex; e qualche voodoo con le espressioni regolari.

http://java.sun.com/docs/books/tutorial/extra/regex/

prova a vedere se questo fa al caso tuo:
String thisStringHasNoHtml = stringWithHtml.replaceAll("\\<.*?\\>","");

ciao ;)