Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Cybersecurity: email, utenti e agenti IA, la nuova visione di Proofpoint
Cybersecurity: email, utenti e agenti IA, la nuova visione di Proofpoint
Dal palco di Proofpoint Protect 2025 emerge la strategia per estendere la protezione dagli utenti agli agenti IA con il lancio di Satori Agents, nuove soluzioni di governance dei dati e partnership rafforzate che ridisegnano il panorama della cybersecurity
Hisense A85N: il ritorno all’OLED è convincente e alla portata di tutti
Hisense A85N: il ritorno all’OLED è convincente e alla portata di tutti
Dopo alcuni anni di assenza dai cataloghi dei suoi televisori, Hisense riporta sul mercato una proposta OLED che punta tutto sul rapporto qualità prezzo. Hisense 55A85N è un televisore completo e versatile che riesce a convincere anche senza raggiungere le vette di televisori di altra fascia (e altro prezzo)
Recensione Borderlands 4, tra divertimento e problemi tecnici
Recensione Borderlands 4, tra divertimento e problemi tecnici
Gearbox Software rilancia la saga con Borderlands 4, ora disponibile su PS5, Xbox Series X|S e PC. Tra le novità spiccano nuove abilità di movimento, un pianeta inedito da esplorare e una campagna che lascia al giocatore piena libertà di approccio
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 07-06-2012, 09:09   #1
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
[PHP] Ricerca all'interno di un pdf

Buongiorno,
vorrei sapere come realizzare una ricerca mirata all'interno di un pdf.
Spiego: scansiono una serie di pagine che contengono articoli di giornale, precedentemente preparati.
Una pagina può contenere uno o più ritagli di giornale.
Mediante script in php faccio una ricerca per key, dopo aver caricato in un db le parole chiavi di ogni articolo, con data di uscita del giornale.
Così facendo risalgo al pdf, cerco l'articolo e lo leggo.
Il punto è che vorrei fare in modo che saltasse fuori solo l'articolo e non tutto il pdf che lo contiene.
Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf.
Si può fare?
Tnx!
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 21-06-2012, 22:23   #2
mindless
Senior Member
 
L'Avatar di mindless
 
Iscritto dal: Dec 2005
Città: Montecatini, Empoli
Messaggi: 3832
Vorresti "leggere" nel pdf scansionato? Quindi fare ocr?

Sent from my Lumia 800 using Board Express
__________________
 iMac 21 & 27, MBP 13, MBA 11, Mac mini, iPhone X & 6s plus, iPad Air 2
mindless è offline   Rispondi citando il messaggio o parte di esso
Old 22-06-2012, 08:12   #3
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
Quote:
Pensavo di numerare gli articoli e mostrare dopo la ricerca qual è il numer ocorrispondente nel pdf, ma cercavo qualcosa di più immediato, cioè cerco tramite e key e a video mi appare subito la pagina corretta del pdf.
Si può fare?
Non so niente di come il contenuto di un pdf possa essere letto da PHP (aka: che libreria e come si usi) ma se un singolo file pdf per te è una raccolta di articoli, forse potresti includere in quel dato file anche una sezione di bookmark: uno per ogni articolo contenuto.

A quel punto, se con la tua ricerca riesci a trovare il file pdf e il bookmark dell'articolo, e se hai un modo per poter aprire il file pdf direttamente ad un bookmark specifico, il gioco è fatto.
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
Old 29-06-2012, 08:35   #4
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 29-06-2012, 09:43   #5
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Non posso agire in fase di creazione del pdf, ma solo dopo...
L'idea di leggere dentro al pdf può essere la soluzione, ma il pdf nasce come scansione di A4, quindi è un'immagine...
E allora, come già detto da mindless, qui si tratta di OCR...
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2012, 09:26   #6
Gregor
Senior Member
 
L'Avatar di Gregor
 
Iscritto dal: May 2000
Messaggi: 6087
Quote:
Originariamente inviato da banryu79 Guarda i messaggi
E allora, come già detto da mindless, qui si tratta di OCR...
Ma come lo leggo il pdf "immagine"?
__________________
PSN: jNash08
"Iddu pensa sulu a iddu..." (cit.)
Più di 100 compravendite sul forum
Gregor è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2012, 12:17   #7
wizard1993
Senior Member
 
L'Avatar di wizard1993
 
Iscritto dal: Apr 2006
Messaggi: 22462
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Ma come lo leggo il pdf "immagine"?
con un software/libreria di ocr. Dubito ne troverai qualcuno in php però
__________________
amd a64x2 4400+ sk939;asus a8n-sli; 2x1gb ddr400; x850 crossfire; 2 x western digital abys 320gb|| asus g1
Se striscia fulmina, se svolazza l'ammazza
wizard1993 è offline   Rispondi citando il messaggio o parte di esso
Old 05-07-2012, 22:38   #8
Julianz
Member
 
Iscritto dal: Mar 2009
Città: Torino
Messaggi: 203
Quote:
Originariamente inviato da Gregor Guarda i messaggi
Ma come lo leggo il pdf "immagine"?
Ciao, ho lavorato su un progetto che prevedeva proprio questo tipo di acquisizione.

Io avevo utilizzato al tempo una combinazione di shell script insieme al PHP.
Avevo a disposizione un server linux, il mio script PHP eseguiva una SHELL_EXEC di uno script che utilizzando ghostscript e tesseract-ocr estraeva un file TXT a partire da un PDF... successivamente era possibile analizzarne il contenuto.

Non è immediato, e soprattutto il mondo OCR è molto complicato.
Se l'immagine è scansita a bassa qualità perderai la metà delle parole ..
Julianz è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Cybersecurity: email, utenti e agenti IA, la nuova visione di Proofpoint Cybersecurity: email, utenti e agenti IA, la nuo...
Hisense A85N: il ritorno all’OLED è convincente e alla portata di tutti Hisense A85N: il ritorno all’OLED è convi...
Recensione Borderlands 4, tra divertimento e problemi tecnici Recensione Borderlands 4, tra divertimento e pro...
TCL NXTPAPER 60 Ultra: lo smartphone che trasforma la lettura da digitale a naturale TCL NXTPAPER 60 Ultra: lo smartphone che trasfor...
Un fulmine sulla scrivania, Corsair Sabre v2 Pro ridefinisce la velocità nel gaming Un fulmine sulla scrivania, Corsair Sabre v2 Pro...
Avio: contratto da 40 milioni di € da ES...
Claude Sonnet 4.5, il nuovo modello di A...
Silent Hill f è un successo: gi&a...
Nuova Jeep Compass: aperti i preordini p...
La PS5 Slim con SSD più piccolo s...
Zero combustibili fossili e controllo qu...
Corsair NAUTILUS 360 RS LCD: raffreddame...
Nuovo record nel mondo dei computer quan...
Sony e Universal combatteranno l'IA con....
Il Chips Act europeo attuale è un...
OnePlus 15: debutto globale con design '...
Amazon Prime: addio alla prova gratuita ...
Windows 11 25H2: guida passo-passo per l...
ECOVACS Deebot Mini sotto i 300€, robot ...
USA chiedono a Taiwan di produrre chip i...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 22:53.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v