PDA

View Full Version : [Java] Estrazione testo contenuto in tag da file XML


fak3
04-07-2010, 00:15
Salve, avrei bisogno di un consiglio per un piccolo programma che devo realizzare. Devo prendere in input un file XML che quindi conterrà i suoi vari tag, tipo <autore>, <versione>... il tag che mi interessa, che contiene del normalissimo testo, punteggiatura inclusa, è <body>. Devo estrarre il testo contenuto in body e restituire in output un conteggio della frequenza con cui si ripete ogni singola parola del testo.
Ho già scritto del codice che mi permette, dato in input un semplice file di testo, di contare le frequenze delle parole (con HashTable è stato molto semplice), ma il mio problema viene nel trattare questo file XML per estrarre il testo contenuto in body... non so nemmeno da dove iniziare.
Come avrete capito con Java non ho molta esperienza, spero abbiate qualche buon consiglio per me. :) Grazie.

nalsk
04-07-2010, 02:10
Java fornisce assieme alla JDK degli strumenti in grado di operare in modo efficace sui file XML, la risposta alle tue domande si chiama JAXB :) tramite questo package dovrai eseguire un unmarshalling.

Il package di jaxb è javax.xml.bind

Una possibile implementazione sarebbe:

- Inizializzare un oggetto di classe JAXBContext tramite il metodo newInstance();

- Inizializzare un oggetto di classe Unmarshaller tramite il metodo dell'oggetto JAXBContext createUnmarshaller();

- Inizializzare un oggetto di classe JAXBElement tipizzato all'oggetto che vuoi leggere (es. String) ed invocare il metodo unmarshall(); sull'oggetto Unmarshaller precedentemente istanziato indicandogli il file di input tramite un costruttore StreamSource("file.xml"); e dandogli come secondo argomento il campo "class" dell'oggetto che dev'essere letto.

- Infine recuperarti l'oggetto che volevi leggere dall'oggetto JAXBElement tramite il metodo .getValue();

Scusa la spiegazione complicata ma sono un pò assonnato.. :) è molto più semplice di quanto sembra.. ti scrivo un piccolo codice di esempio:


JAXBContext jaxbc = JAXBContext.newInstance("mio.package.programma");

Unmarshaller unmarsh = jaxbc.createUnmarshaller();

JAXBElement<String> element = unmarsh.unmarshal(new StreamSource("file.xml"), String.class);

String output = element.getValue();


IMPORTANTE: nel tuo caso ovviamente non dovrai utilizzare un oggetto String ma un oggetto di classe creata da te che sia compatibile con la struttura del file xml.

Spero di essere stato almeno un pochino d'aiuto..in ogni caso dai uno sguardo alla documentazione java :)

fak3
04-07-2010, 02:29
Ti ringrazio tantissimo, alla fine stavo tentando di seguire degli esempi con DOM ma capendoci veramente poco, questo package invece mi sembra arrivi dritto al punto. :) Vado a studiarmelo e grazie ancora.