|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
Senior Member
Iscritto dal: May 2000
Messaggi: 6087
|
[PHP] Ricerca all'interno di un pdf
Buongiorno,
vorrei sapere come realizzare una ricerca mirata all'interno di un pdf. Spiego: scansiono una serie di pagine che contengono articoli di giornale, precedentemente preparati. Una pagina può contenere uno o più ritagli di giornale. Mediante script in php faccio una ricerca per key, dopo aver caricato in un db le parole chiavi di ogni articolo, con data di uscita del giornale. Così facendo risalgo al pdf, cerco l'articolo e lo leggo. Il punto è che vorrei fare in modo che saltasse fuori solo l'articolo e non tutto il pdf che lo contiene. Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf. Si può fare? ![]() Tnx! ![]()
__________________
PSN: jNash08 "Iddu pensa sulu a iddu..." (cit.) ![]() ![]() |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Dec 2005
Città: Montecatini, Empoli
Messaggi: 3832
|
Vorresti "leggere" nel pdf scansionato? Quindi fare ocr?
Sent from my Lumia 800 using Board Express
__________________
iMac 21 & 27, MBP 13, MBA 11, Mac mini, iPhone X & 6s plus, iPad Air 2 |
![]() |
![]() |
![]() |
#3 | |
Senior Member
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
|
Quote:
A quel punto, se con la tua ricerca riesci a trovare il file pdf e il bookmark dell'articolo, e se hai un modo per poter aprire il file pdf direttamente ad un bookmark specifico, il gioco è fatto.
__________________
As long as you are basically literate in programming, you should be able to express any logical relationship you understand. If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it. (Chris Crawford) |
|
![]() |
![]() |
![]() |
#4 |
Senior Member
Iscritto dal: May 2000
Messaggi: 6087
|
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...
__________________
PSN: jNash08 "Iddu pensa sulu a iddu..." (cit.) ![]() ![]() |
![]() |
![]() |
![]() |
#5 |
Senior Member
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
|
E allora, come già detto da mindless, qui si tratta di OCR...
__________________
As long as you are basically literate in programming, you should be able to express any logical relationship you understand. If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it. (Chris Crawford) |
![]() |
![]() |
![]() |
#6 |
Senior Member
Iscritto dal: May 2000
Messaggi: 6087
|
Ma come lo leggo il pdf "immagine"?
__________________
PSN: jNash08 "Iddu pensa sulu a iddu..." (cit.) ![]() ![]() |
![]() |
![]() |
![]() |
#7 |
Senior Member
Iscritto dal: Apr 2006
Messaggi: 22462
|
con un software/libreria di ocr. Dubito ne troverai qualcuno in php però
__________________
amd a64x2 4400+ sk939;asus a8n-sli; 2x1gb ddr400; x850 crossfire; 2 x western digital abys 320gb|| asus g1
Se striscia fulmina, se svolazza l'ammazza |
![]() |
![]() |
![]() |
#8 |
Member
Iscritto dal: Mar 2009
Città: Torino
Messaggi: 203
|
Ciao, ho lavorato su un progetto che prevedeva proprio questo tipo di acquisizione.
Io avevo utilizzato al tempo una combinazione di shell script insieme al PHP. Avevo a disposizione un server linux, il mio script PHP eseguiva una SHELL_EXEC di uno script che utilizzando ghostscript e tesseract-ocr estraeva un file TXT a partire da un PDF... successivamente era possibile analizzarne il contenuto. Non è immediato, e soprattutto il mondo OCR è molto complicato. Se l'immagine è scansita a bassa qualità perderai la metà delle parole .. ![]() |
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 22:53.