fbcyborg
15-02-2009, 09:44
Salve a tutti,
ho bisogno di una mano per capire quale sia l'espressione regolare da impostare nel mio programma scritto in Java, che mi dia la possiblità di estrarre del testo da una pagina html.
Il testo che mi interessa estrarre è il seguente:
<TD class=\"ratingsListRank\">10</TD><TD class=\"foo\"><A HREF=\"/Places/ShowPlace.asp?PlaceID=4485\">Nome oggetto
Da notare che il "10", che è il numero di posizione in classifica di una certa cosa, è un numero che può cambiare, e può essere a una o due cifre.
Chiaramente ho messo uno "\" davanti ad ogni doppio apice, altrimenti non avrebbe funzionato, dal momento che il codice HTML ha i doppi apici.
La prima espressione regolare che mi è venuta in mente (Sempre che così la si possa chiamare) è la stessa, solo che al posto dei segni di < e > ho messo un \\W.
Ovviamente non funziona.
Un'altra cosa che mi fa rimanere perplesso è che se volessi utilizzare i codici che sono descritti in questa pagina (http://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html#sum), il compilatore dice "Invalid escape sequence (valid ones are \b \t \n \f \r \" \' \\ )". Questo accade quando ci metto ad esempio uno "\D" (A non-digit: [^0-9]).
Perché?
Qualcuno può darmi una mano?
ho bisogno di una mano per capire quale sia l'espressione regolare da impostare nel mio programma scritto in Java, che mi dia la possiblità di estrarre del testo da una pagina html.
Il testo che mi interessa estrarre è il seguente:
<TD class=\"ratingsListRank\">10</TD><TD class=\"foo\"><A HREF=\"/Places/ShowPlace.asp?PlaceID=4485\">Nome oggetto
Da notare che il "10", che è il numero di posizione in classifica di una certa cosa, è un numero che può cambiare, e può essere a una o due cifre.
Chiaramente ho messo uno "\" davanti ad ogni doppio apice, altrimenti non avrebbe funzionato, dal momento che il codice HTML ha i doppi apici.
La prima espressione regolare che mi è venuta in mente (Sempre che così la si possa chiamare) è la stessa, solo che al posto dei segni di < e > ho messo un \\W.
Ovviamente non funziona.
Un'altra cosa che mi fa rimanere perplesso è che se volessi utilizzare i codici che sono descritti in questa pagina (http://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html#sum), il compilatore dice "Invalid escape sequence (valid ones are \b \t \n \f \r \" \' \\ )". Questo accade quando ci metto ad esempio uno "\D" (A non-digit: [^0-9]).
Perché?
Qualcuno può darmi una mano?