PDA

View Full Version : Problema con PDFBox e lucene


traod
02-07-2012, 17:59
Ciao a tutti,
dovrei indicizzare il contenuto di alcuni file .pdf all' interno dell' indice di Lucene per poter poi effettuarne la ricerca nel portale. I file .pdf nel mio progetto sono in un path del tipo

MioProgetto/resources/documents/nomefile.pdf

tramite questo script tento l' estrazione del testo


PDFTextStripper stripper = new PDFTextStripper();
PDDocument pdDoc = PDDocument.load(path);
StringWriter writer = new StringWriter();
stripper.writeText(pdDoc, writer);
System.out.println(writer.toString());

dove path è una stringa del tipo illustrato prima (MioProgetto/resources/documents/nomefile.pdf)

Il problema è che mi da FileNotFoundExcepetion perchè inverte lo / con \.
In pratica va a cercare il file al seguente path

MioProgetto\resources\documents\nomefile.pdf

e ovviamente non lo trova. Qualcuno sa dirmi come posso risolvere? Grazie

traod
04-07-2012, 15:21
Nessuno sa aiutarmi?

Questa è l'eccezione che mi viene data

java.io.FileNotFoundException: \MioProgetto\resources\cms\documents\nome_file.pdf (Impossibile trovare il percorso specificato)
at java.io.FileInputStream.open(Native Method)
at java.io.FileInputStream.<init>(Unknown Source)
at java.io.FileInputStream.<init>(Unknown Source)

franksisca
04-07-2012, 18:14
per usare una risorsa o un file esterno ti consiglio di usare sempre il getClass().getResouce(); oppure getClass().getResouceAsStream();


sulla documentazione ufficiale trovi i dettagli sull'utilizzo

traod
05-07-2012, 12:19
ho provato sia con getResource() che con getResourceAsStream() ma mi restituiscono entrambi NULL...