Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Sistema Mesh Roamii BE Pro: il Wi-Fi 7 secondo MSI
Sistema Mesh Roamii BE Pro: il Wi-Fi 7 secondo MSI
Con velocità teoriche fino a 11 Gbps, gestione tramite app intelligente e protezione avanzata dei dispositivi, Roamii BE Pro porta il Wi‑Fi 7 tri‑band nelle abitazioni più esigenti. Un sistema Wi-Fi Mesh proposto da MSI allo scopo di garantire agli utenti una rete fluida e continua capace di sostenere streaming 8K, gaming competitivo e le applicazioni moderne più esigenti in termini di banda
Recensione HUAWEI Mate X7: un foldable ottimo, ma restano i soliti problemi
Recensione HUAWEI Mate X7: un foldable ottimo, ma restano i soliti problemi
Mate X7 rinnova la sfida nel segmento dei pieghevoli premium puntando su un design ancora più sottile e resistente, unito al ritorno dei processori proprietari della serie Kirin. L'assenza dei servizi Google e del 5G pesa ancora sull'esperienza utente, ma il comparto fotografico e la qualità costruttiva cercano di compensare queste mancanze strutturali con soluzioni ingegneristiche di altissimo livello
Nioh 3: souls-like punitivo e Action RPG
Nioh 3: souls-like punitivo e Action RPG
Nioh 3 aggiorna la formula Team NINJA con aree esplorabili più grandi, due stili di combattimento intercambiabili al volo (Samurai e Ninja) e un sistema di progressione pieno di attività, basi nemiche e sfide legate al Crogiolo. La recensione entra nel dettaglio su combattimento, build, progressione e requisiti PC
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 07-06-2012, 10:09   #1
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
[PHP] Ricerca all'interno di un pdf

Buongiorno,
vorrei sapere come realizzare una ricerca mirata all'interno di un pdf.
Spiego: scansiono una serie di pagine che contengono articoli di giornale, precedentemente preparati.
Una pagina può contenere uno o più ritagli di giornale.
Mediante script in php faccio una ricerca per key, dopo aver caricato in un db le parole chiavi di ogni articolo, con data di uscita del giornale.
Così facendo risalgo al pdf, cerco l'articolo e lo leggo.
Il punto è che vorrei fare in modo che saltasse fuori solo l'articolo e non tutto il pdf che lo contiene.
Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf.
Si può fare?
Tnx!
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 21-06-2012, 23:23   #2
mindless
Senior Member
 
L'Avatar di mindless
 
Iscritto dal: Dec 2005
Città: Montecatini, Empoli
Messaggi: 3832
Vorresti "leggere" nel pdf scansionato? Quindi fare ocr?

Sent from my Lumia 800 using Board Express
__________________
 iMac 21 & 27, MBP 13, MBA 11, Mac mini, iPhone X & 6s plus, iPad Air 2
mindless è offline   Rispondi citando il messaggio o parte di esso
Old 22-06-2012, 09:12   #3
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
Quote:
Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf.
Si può fare?
Non so niente di come il contenuto di un pdf possa essere letto da PHP (aka: che libreria e come si usi) ma se un singolo file pdf per te è una raccolta di articoli, forse potresti includere in quel dato file anche una sezione di bookmark: uno per ogni articolo contenuto.

A quel punto, se con la tua ricerca riesci a trovare il file pdf e il bookmark dell'articolo, e se hai un modo per poter aprire il file pdf direttamente ad un bookmark specifico, il gioco è fatto.
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
Old 29-06-2012, 09:35   #4
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 29-06-2012, 10:43   #5
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...
E allora, come già detto da mindless, qui si tratta di OCR...
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2012, 10:26   #6
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
Quote:
Originariamente inviato da banryu79 Guarda i messaggi
E allora, come già detto da mindless, qui si tratta di OCR...
Ma come lo leggo il pdf "immagine"?
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2012, 13:17   #7
wizard1993
Senior Member
 
L'Avatar di wizard1993
 
Iscritto dal: Apr 2006
Messaggi: 22462
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Ma come lo leggo il pdf "immagine"?
con un software/libreria di ocr. Dubito ne troverai qualcuno in php però
__________________
amd a64x2 4400+ sk939;asus a8n-sli; 2x1gb ddr400; x850 crossfire; 2 x western digital abys 320gb|| asus g1
Se striscia fulmina, se svolazza l'ammazza
wizard1993 è offline   Rispondi citando il messaggio o parte di esso
Old 05-07-2012, 23:38   #8
Julianz
Member
 
Iscritto dal: Mar 2009
Città: Torino
Messaggi: 203
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Ma come lo leggo il pdf "immagine"?
Ciao, ho lavorato su un progetto che prevedeva proprio questo tipo di acquisizione.

Io avevo utilizzato al tempo una combinazione di shell script insieme al PHP.
Avevo a disposizione un server linux, il mio script PHP eseguiva una SHELL_EXEC di uno script che utilizzando ghostscript e tesseract-ocr estraeva un file TXT a partire da un PDF... successivamente era possibile analizzarne il contenuto.

Non è immediato, e soprattutto il mondo OCR è molto complicato.
Se l'immagine è scansita a bassa qualità perderai la metà delle parole ..
Julianz è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Sistema Mesh Roamii BE Pro: il Wi-Fi 7 secondo MSI Sistema Mesh Roamii BE Pro: il Wi-Fi 7 secondo M...
Recensione HUAWEI Mate X7: un foldable ottimo, ma restano i soliti problemi Recensione HUAWEI Mate X7: un foldable ottimo, m...
Nioh 3: souls-like punitivo e Action RPG Nioh 3: souls-like punitivo e Action RPG
Test in super anteprima di Navimow i220 LiDAR: il robot tagliaerba per tutti Test in super anteprima di Navimow i220 LiDAR: i...
Dark Perk Ergo e Sym provati tra wireless, software via browser e peso ridotto Dark Perk Ergo e Sym provati tra wireless, softw...
La Cina lancia un servizio simile a Dire...
SpaceX: Elon Musk torna a parlare dei pr...
G.Skill risarcisce 2,4 milioni di dollar...
Test degli annunci su ChatGPT avviati: '...
TSMC approva investimenti record da quas...
L'IA agentica arriva anche sullo storage...
Euro digitale, il Parlamento UE cambia r...
Alphabet e la sua obbligazione centenari...
L'UE anticipa un intervento per bloccare...
Il Trump Phone esiste ma è molto ...
Frodi deepfake fuori controllo: perch&ea...
Consumano il 30% in meno: arrivano i nuo...
Tesla Semi svela i numeri definitivi: 80...
La Air Force statunitense vieta occhiali...
Wi-Fi Intel e Windows: le novità ...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 06:27.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v