|
|
Risultati sondaggio: Quale libreria pensiate sia la migliore per lavorare con i .pdf? | |||
PDFTextStream |
![]() ![]() ![]() |
0 | 0% |
IText |
![]() ![]() ![]() |
1 | 100.00% |
PdfBox |
![]() ![]() ![]() |
0 | 0% |
PdfToText |
![]() ![]() ![]() |
0 | 0% |
Altra proposta |
![]() ![]() ![]() |
0 | 0% |
Votanti: 1. Non puoi votare in questo sondaggio |
|
![]() |
|
Strumenti |
![]() |
#1 |
Member
Iscritto dal: Oct 2011
Messaggi: 45
|
Estrarre testo da un file PDF in java
Devo sviluppare un applicazione java che estragga il testo di più file pdf, lo copi in un database per poi eseguire delle ricerche.
Il mio problema principale e riuscire ad estrarre interamente il testo ,i file pdf sono molto grandi (100 pg o più). Ho letto e cercato in rete ma ci sono poche informazioni e vaghe su delle librerie come: - IText - PDFTextStram - PJX - PdfBox sapreste indicarmi cosa fanno? e qual'è la migliore da usare nel mio caso? eventualmente se dovete segnalarmene altre fatelo. Spero ne esca una bella discussione che sia utile, visto la scarsità della rete.
__________________
Teo ![]() |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Oct 2004
Messaggi: 1945
|
Dai uno sguardo qui... io non l'ho mai provato però mi sembra che sia ben documentato iText http://itextpdf.com/book/examples.php
naviga il sito che c'è tutto |
![]() |
![]() |
![]() |
#3 |
Member
Iscritto dal: Oct 2011
Messaggi: 45
|
grazie ma mi serve anche qualche esempio pratico di codice
![]()
__________________
Teo ![]() |
![]() |
![]() |
![]() |
#4 |
Senior Member
Iscritto dal: Oct 2004
Messaggi: 1945
|
|
![]() |
![]() |
![]() |
#5 |
Member
Iscritto dal: Oct 2011
Messaggi: 45
|
no no il sito l'ho visitato tutto, e mi sarà molto utile, volevo anche qualche piccolo stralcio di codice del mio caso specifico. In oltre mi servirebbe qualche informazione sulle altre librerie perchè per quello che dovrò fare IText forse non mi basta.
__________________
Teo ![]() |
![]() |
![]() |
![]() |
#6 |
Senior Member
Iscritto dal: Apr 2002
Città: Palermo
Messaggi: 4913
|
Apache pdfBox
http://java-rude-inside.blogspot.com...e-in-java.html http://www.hwupgrade.it/forum/showpo...93&postcount=6 Ciao
__________________
Sun Certified Java Programmer - Sun Certified Web Component Developer - Sun Certified Business Component Developer |
![]() |
![]() |
![]() |
#7 |
Senior Member
Iscritto dal: Oct 2001
Messaggi: 11471
|
iText è veramente facile da usare. Devi prima di tutto creare un PdfReader del file da cui vuoi estrarre il testo. Poi chiami PdfTextExtractor.getTextFromPage() a cui passi il reader, il numero della pagina e la strategia di estrazione. Ce ne sono un paio che funzionano più o meno bene in base ai tipi di documento. Guarda la documentazione e sperimenta un po' per capire quella che fa al caso tuo.
|
![]() |
![]() |
![]() |
#8 | |
Member
Iscritto dal: Oct 2011
Messaggi: 45
|
Quote:
FileInputStream f2=new FileInputStream("TestRighe.pdf"); PdfReader lettore2 = new PdfReader(f2); String testoSenzaS2=PdfTextExtractor.getTextFromPage(lettore2,1); System.out.println(testoSenzaS2); che stampa: 1agina p iivnideerutaizapsacifirev876543agiradnoces2agiramirp1doc TestRighe.pdf contiene: doc 1 prima riga 2 seconda riga 3 4 5 6 7 8 verifica spaziature ed invii ora devo riuscire a sviluppare una strategia che mantenga l'ordine esatto del testo senza incasinare le lettere, appena ho qualcosa la posto qui
__________________
Teo ![]() |
|
![]() |
![]() |
![]() |
#9 |
Member
Iscritto dal: Oct 2011
Messaggi: 45
|
Ho risolto
__________________
Teo ![]() |
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 06:00.