Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Sony INZONE H6 Air: il primo headset open-back di Sony per giocatori
Sony INZONE H6 Air: il primo headset open-back di Sony per giocatori
Il primo headset open-back della linea INZONE arriva a 200 euro con driver derivati dalle cuffie da studio MDR-MV1 e un peso record di soli 199 grammi
Nutanix cambia pelle: dall’iperconvergenza alla piattaforma full stack per cloud ibrido e IA
Nutanix cambia pelle: dall’iperconvergenza alla piattaforma full stack per cloud ibrido e IA
Al .NEXT 2026 di Chicago, Nutanix ha mostrato quanto sia cambiata: una piattaforma software che gestisce VM, container e carichi di lavoro IA ovunque, dall’on-premise al cloud pubblico. Con un’esecuzione rapidissima sulle partnership e sulla migrazione da VMware
Recensione Xiaomi Pad 8 Pro: potenza bruta e HyperOS 3 per sfidare la fascia alta
Recensione Xiaomi Pad 8 Pro: potenza bruta e HyperOS 3 per sfidare la fascia alta
Xiaomi Pad 8 Pro adotta il potente Snapdragon 8 Elite all'interno di un corpo con spessore di soli 5,75 mm e pannello LCD a 144Hz flicker-free, per un tablet che può essere utilizzato con accessori dedicati di altissima qualità. Fra le caratteristiche esclusive, soprattutto per chi intende usarlo con la tastiera ufficiale, c'è la modalità Workstation di HyperOS 3, che trasforma Android in un sistema operativo con interfaccia a finestre
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 07-06-2012, 09:09   #1
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
[PHP] Ricerca all'interno di un pdf

Buongiorno,
vorrei sapere come realizzare una ricerca mirata all'interno di un pdf.
Spiego: scansiono una serie di pagine che contengono articoli di giornale, precedentemente preparati.
Una pagina può contenere uno o più ritagli di giornale.
Mediante script in php faccio una ricerca per key, dopo aver caricato in un db le parole chiavi di ogni articolo, con data di uscita del giornale.
Così facendo risalgo al pdf, cerco l'articolo e lo leggo.
Il punto è che vorrei fare in modo che saltasse fuori solo l'articolo e non tutto il pdf che lo contiene.
Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf.
Si può fare?
Tnx!
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 21-06-2012, 22:23   #2
mindless
Senior Member
 
L'Avatar di mindless
 
Iscritto dal: Dec 2005
Città: Montecatini, Empoli
Messaggi: 3832
Vorresti "leggere" nel pdf scansionato? Quindi fare ocr?

Sent from my Lumia 800 using Board Express
__________________
 iMac 21 & 27, MBP 13, MBA 11, Mac mini, iPhone X & 6s plus, iPad Air 2
mindless è offline   Rispondi citando il messaggio o parte di esso
Old 22-06-2012, 08:12   #3
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
Quote:
Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf.
Si può fare?
Non so niente di come il contenuto di un pdf possa essere letto da PHP (aka: che libreria e come si usi) ma se un singolo file pdf per te è una raccolta di articoli, forse potresti includere in quel dato file anche una sezione di bookmark: uno per ogni articolo contenuto.

A quel punto, se con la tua ricerca riesci a trovare il file pdf e il bookmark dell'articolo, e se hai un modo per poter aprire il file pdf direttamente ad un bookmark specifico, il gioco è fatto.
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
Old 29-06-2012, 08:35   #4
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 29-06-2012, 09:43   #5
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...
E allora, come già detto da mindless, qui si tratta di OCR...
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2012, 09:26   #6
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
Quote:
Originariamente inviato da banryu79 Guarda i messaggi
E allora, come già detto da mindless, qui si tratta di OCR...
Ma come lo leggo il pdf "immagine"?
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2012, 12:17   #7
wizard1993
Senior Member
 
L'Avatar di wizard1993
 
Iscritto dal: Apr 2006
Messaggi: 22462
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Ma come lo leggo il pdf "immagine"?
con un software/libreria di ocr. Dubito ne troverai qualcuno in php però
__________________
amd a64x2 4400+ sk939;asus a8n-sli; 2x1gb ddr400; x850 crossfire; 2 x western digital abys 320gb|| asus g1
Se striscia fulmina, se svolazza l'ammazza
wizard1993 è offline   Rispondi citando il messaggio o parte di esso
Old 05-07-2012, 22:38   #8
Julianz
Member
 
Iscritto dal: Mar 2009
Città: Torino
Messaggi: 203
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Ma come lo leggo il pdf "immagine"?
Ciao, ho lavorato su un progetto che prevedeva proprio questo tipo di acquisizione.

Io avevo utilizzato al tempo una combinazione di shell script insieme al PHP.
Avevo a disposizione un server linux, il mio script PHP eseguiva una SHELL_EXEC di uno script che utilizzando ghostscript e tesseract-ocr estraeva un file TXT a partire da un PDF... successivamente era possibile analizzarne il contenuto.

Non è immediato, e soprattutto il mondo OCR è molto complicato.
Se l'immagine è scansita a bassa qualità perderai la metà delle parole ..
Julianz è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Sony INZONE H6 Air: il primo headset open-back di Sony per giocatori Sony INZONE H6 Air: il primo headset open-back d...
Nutanix cambia pelle: dall’iperconvergenza alla piattaforma full stack per cloud ibrido e IA Nutanix cambia pelle: dall’iperconvergenza alla ...
Recensione Xiaomi Pad 8 Pro: potenza bruta e HyperOS 3 per sfidare la fascia alta Recensione Xiaomi Pad 8 Pro: potenza bruta e Hyp...
NZXT H9 Flow RGB+, Kraken Elite 420 e F140X: abbiamo provato il tris d'assi di NZXT NZXT H9 Flow RGB+, Kraken Elite 420 e F140X: abb...
ASUS ROG Swift OLED PG34WCDN recensione: il primo QD-OLED RGB da 360 Hz ASUS ROG Swift OLED PG34WCDN recensione: il prim...
L'IA ha fatto incetta anche di processor...
Affidabilità delle GPU NVIDIA cro...
Maxi incendio in un parcheggio BYD: fiam...
Apple potrebbe diventare il terzo produt...
L'IA aiuta i computer quantistici con i ...
Nutanix Database Platform è ora i...
iliad lancia il 5G Standalone in Italia:...
Alexa+ da oggi disponibile anche in Ital...
SpaceX Starship: Ship 39 ha eseguito il ...
Auto usate: Peugeot 3008 tra le peggiori...
YMTC, il produttore di memorie 100% cine...
I gamer rinunciano alla RAM ma non agli ...
Oltre 100 estensioni Chrome malevole rub...
Multi Frame Generation 5x e 6x anche su ...
Kraken sotto ricatto dopo due accessi in...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 19:11.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v