[JAVA] Semplice parser di un file html

Wall4c3 · 27-07-2009, 15:24

ciao a tutti!
Mi serviva un aiuto..devo realizzare un semplice parser html. le pagine html sono del tipo

<html>
<head> </head>
<body>

 Nome1
 Nome2
etc.
</body>
</html>

a me serviva fare un parser in modo tale da restituire Nome1 , Nome2 etc.
qualcuno ha qualche idea?

zulutown · 27-07-2009, 15:29

Quote:

Originariamente inviato da Wall4c3

ciao a tutti!
Mi serviva un aiuto..devo realizzare un semplice parser html. le pagine html sono del tipo

<html>
<head> </head>
<body>

 Nome1
 Nome2
etc.
</body>
</html>

a me serviva fare un parser in modo tale da restituire Nome1 , Nome2 etc.
qualcuno ha qualche idea?

Se sei certo che attorno ai dati che ti servono hai tag ben identificabili.. puoi andare di espressioni regolari (se le sai usare) oppure prova a far le cose semplici usando banali funzioni su stringhe.

Wall4c3 · 27-07-2009, 15:36

si..ho sempre il tag , provo a vedere come funzionano in java le espressioni regolari ( so cosa sono ).
Grazie

zulutown · 27-07-2009, 15:39

Quote:

Originariamente inviato da Wall4c3

si..ho sempre il tag , provo a vedere come funzionano in java le espressioni regolari ( so cosa sono ).
Grazie

occhio al classico problema che devi escapare due volte il backslash

^TiGeRShArK^ · 27-07-2009, 19:20

se le pagine sono xhtml puoi anche usare uno degli n parser xml a disposizione, come jdom ad esempio....

zulutown · 27-07-2009, 20:47

Quote:

Originariamente inviato da ^TiGeRShArK^

se le pagine sono xhtml puoi anche usare uno degli n parser xml a disposizione, come jdom ad esempio....

sì.. ma è difficile trovare pagine che rispettano perfettamente apertura/chiusura dei tag ecc

Wall4c3 · 28-07-2009, 00:24

ciao, è una semplice pagina html , rispetta quello scheletro perchè sono io a generarla

ho risolto cosi

Codice:

public static String[] parser(String pHtml) {
Pattern p = Pattern.compile("<body>+.*|\\t* +</body>");
Matcher m = p.matcher(pHtml);
String line="";
String app="";
while (m.find()) {
     app = m.group();
     line+=app;
}

String[] pageSplit = line.split("<br>");

return pageSplit;
}

a funzionare funziona

anche se si può fare di meglio penso(sicuramente)...nel vettore pageSplit ho i dati che mi interessano..anche se la prima e l ultima stringa sono rispettivamente <body> e </body><html> Non considerandole va bene il risultato. Se avete proposte migliori sono ben accette

Grazie.

:.Blizzard.: · 28-07-2009, 10:22

Quote:

Originariamente inviato da Wall4c3

ciao a tutti!
Mi serviva un aiuto..devo realizzare un semplice parser html. le pagine html sono del tipo

<html>
<head> </head>
<body>

 Nome1
 Nome2
etc.
</body>
</html>

a me serviva fare un parser in modo tale da restituire Nome1 , Nome2 etc.
qualcuno ha qualche idea?

Hai provato con la classe String Tokenizer? A me è tornata molto utile quando ho fatto un programma per disegnare funzioni.

http://java.sun.com/j2se/1.4.2/docs/...Tokenizer.html

27-07-2009, 15:24	#1
Wall4c3 Junior Member Iscritto dal: Aug 2006 Messaggi: 18	[JAVA] Semplice parser di un file html ciao a tutti! Mi serviva un aiuto..devo realizzare un semplice parser html. le pagine html sono del tipo <html> <head> </head> <body> <br> Nome1 <br> Nome2 etc. </body> </html> a me serviva fare un parser in modo tale da restituire Nome1 , Nome2 etc. qualcuno ha qualche idea? __________________

27-07-2009, 15:36	#3
Wall4c3 Junior Member Iscritto dal: Aug 2006 Messaggi: 18	si..ho sempre il tag <br> , provo a vedere come funzionano in java le espressioni regolari ( so cosa sono ). Grazie __________________

27-07-2009, 19:20	#5
^TiGeRShArK^ Senior Member Iscritto dal: Jul 2002 Città: Reggio Calabria -> London Messaggi: 12112	se le pagine sono xhtml puoi anche usare uno degli n parser xml a disposizione, come jdom ad esempio.... __________________

28-07-2009, 00:24	#7
Wall4c3 Junior Member Iscritto dal: Aug 2006 Messaggi: 18	ciao, è una semplice pagina html , rispetta quello scheletro perchè sono io a generarla ho risolto cosi Codice: public static String[] parser(String pHtml) { Pattern p = Pattern.compile("<body>+.\|\\t +</body>"); Matcher m = p.matcher(pHtml); String line=""; String app=""; while (m.find()) { app = m.group(); line+=app; } String[] pageSplit = line.split("<br>"); return pageSplit; } a funzionare funziona anche se si può fare di meglio penso(sicuramente)...nel vettore pageSplit ho i dati che mi interessano..anche se la prima e l ultima stringa sono rispettivamente <body> e </body><html> Non considerandole va bene il risultato. Se avete proposte migliori sono ben accette Grazie. __________________ Ultima modifica di Wall4c3 : 28-07-2009 alle 00:27.

Strumenti
Mostra una versione stampabile Invia questa pagina per email