PDA

View Full Version : [PHP] Ricerca all'interno di un pdf


Gregor
07-06-2012, 09:09
Buongiorno,
vorrei sapere come realizzare una ricerca mirata all'interno di un pdf.
Spiego: scansiono una serie di pagine che contengono articoli di giornale, precedentemente preparati.
Una pagina può contenere uno o più ritagli di giornale.
Mediante script in php faccio una ricerca per key, dopo aver caricato in un db le parole chiavi di ogni articolo, con data di uscita del giornale.
Così facendo risalgo al pdf, cerco l'articolo e lo leggo.
Il punto è che vorrei fare in modo che saltasse fuori solo l'articolo e non tutto il pdf che lo contiene.
Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf.
Si può fare? :confused:
Tnx! ;)

mindless
21-06-2012, 22:23
Vorresti "leggere" nel pdf scansionato? Quindi fare ocr?

Sent from my Lumia 800 using Board Express

banryu79
22-06-2012, 08:12
Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf.
Si può fare?

Non so niente di come il contenuto di un pdf possa essere letto da PHP (aka: che libreria e come si usi) ma se un singolo file pdf per te è una raccolta di articoli, forse potresti includere in quel dato file anche una sezione di bookmark: uno per ogni articolo contenuto.

A quel punto, se con la tua ricerca riesci a trovare il file pdf e il bookmark dell'articolo, e se hai un modo per poter aprire il file pdf direttamente ad un bookmark specifico, il gioco è fatto.

Gregor
29-06-2012, 08:35
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...

banryu79
29-06-2012, 09:43
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...
E allora, come già detto da mindless, qui si tratta di OCR...

Gregor
30-06-2012, 09:26
E allora, come già detto da mindless, qui si tratta di OCR...

Ma come lo leggo il pdf "immagine"?

wizard1993
30-06-2012, 12:17
Ma come lo leggo il pdf "immagine"?

con un software/libreria di ocr. Dubito ne troverai qualcuno in php però

Julianz
05-07-2012, 22:38
Ma come lo leggo il pdf "immagine"?

Ciao, ho lavorato su un progetto che prevedeva proprio questo tipo di acquisizione.

Io avevo utilizzato al tempo una combinazione di shell script insieme al PHP.
Avevo a disposizione un server linux, il mio script PHP eseguiva una SHELL_EXEC di uno script che utilizzando ghostscript e tesseract-ocr estraeva un file TXT a partire da un PDF... successivamente era possibile analizzarne il contenuto.

Non è immediato, e soprattutto il mondo OCR è molto complicato.
Se l'immagine è scansita a bassa qualità perderai la metà delle parole .. :(