|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
Senior Member
Iscritto dal: Oct 2000
Messaggi: 432
|
[Java] Parser HTML
Ho un file HTML con del testo e delle immagini e vorrei recuperare da questo file solo il testo senza le immagini e senza i tag html.
Praticamente devo ripulire questo file per recuperare solo e soltanto le informazioni testuali contenute in esso Conoscete qualche classe java che mi possa aiutare a far ciò... magari corredata da qualche esempio... ciao e grazie
__________________
"Nulla deve essere temuto nella vita. Deve solo essere compreso" Marie Courie "Compilatio non petita, bacarozio manifesta" |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: May 2005
Città: Roma
Messaggi: 7938
|
guarad, prendi il file hatml, con uyn flusso in ingresso ti crei una unica stringa, la tokenizzi, e se il token in esame è un tag lo elimini, altrimenti aggiungi ad una stringa finale.Credo che questo sia il modo più semplice.
__________________
My gaming placement |
![]() |
![]() |
![]() |
#3 |
Senior Member
Iscritto dal: Oct 2000
Messaggi: 432
|
ci avevo provato ma non funziona con i tag che presentano attributi:
<td witdh..... id....> <table id.... > funziona solo con tag <table> </table> <tr> </tr> <td> </td> etc...
__________________
"Nulla deve essere temuto nella vita. Deve solo essere compreso" Marie Courie "Compilatio non petita, bacarozio manifesta" |
![]() |
![]() |
![]() |
#4 |
Senior Member
Iscritto dal: May 2005
Città: Roma
Messaggi: 7938
|
Prova a usare come token "<>", e tra un token e l'altro, non memorizzare niente, vedi se risolvi qualcosa.
__________________
My gaming placement |
![]() |
![]() |
![]() |
#5 |
Senior Member
Iscritto dal: Oct 2001
Messaggi: 11471
|
Probabilmente te la cavi facilmente con java.util.regex; e qualche voodoo con le espressioni regolari.
http://java.sun.com/docs/books/tutorial/extra/regex/ prova a vedere se questo fa al caso tuo: Codice:
String thisStringHasNoHtml = stringWithHtml.replaceAll("\\<.*?\\>",""); ![]() |
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 03:33.