PDA

View Full Version : [Generico] Gestione Documentale


RaouL_BennetH
07-03-2011, 10:24
Ciao a tutti :)

Mi sto cimentando nello sviluppo di un software che permetta la gestione e l'archiviazione dei documenti. In rete ho trovato moltissimi riferimenti, anche progetti professionali open source (OpenMK, Alfresco).

Ho le idee molto chiare su ciò che vorrei e qualche dubbio sul 'come' dovrei.

I dubbi che ho, per mancanza di esperienza, riguardano la gestione post-scansione dei documenti:

Un documento scansionato, su quasi tutti i dispositivi che ho maneggiato (scanner, multifunzione etc..), viene convertito principalmente in:

tiff, jpg, pdf ;

Fin qui, nei limiti delle mie conoscenze, riesco anche ad immaginare una struttura che contenga: il file, dei tags per le ricerche, la tipologia del documento (fattura, lettera, fax et similia), etc..

Ciò che non riesco ad immaginare invece è come fare una ricerca direttamente sul file, cioè:

Supponendo che voglia fare una ricerca su tutti i files che contengono una determinata parola, che questa parola non sia stata gestita come tag, trattandosi di immagini o pdf , in che modo dovrei ragionare sulla ricerca ?

Per il momento mi basterebbero dei chiarimenti su questo primo dubbio :)

Grazie mille :)

RaouL.

PGI-Bis
07-03-2011, 12:50
Non fai una ricerca sul file ma una ricerca sull'indice che il programma crea quando acquisisce il file.

Carichi il file nel programma, il programma lo esamina e per ogni parola che contiene genera un'associazione nell'indice generale. L'indice può essere semplicemente un insieme di parole per ognuna delle quali esiste una lista di file che la contengono - probabilmente organizzato in una struttura idonea anche se il numero di chiavi è al più qualche centinaio di migliaia.

Usi un indice di questo genere perchè l'insieme delle parole esistenti in una o più lingue è storicamente finito mentre l'insieme dei testi che puoi generare combinando quelle parole è infinito.

Nota che esistono sesquilioni di programmi di indicizzazione già pronti, l'unica cosa che forse manca in quelli free è il collegamento con delle api OCR ma anche di queste ne trovi a carrettate.

RaouL_BennetH
09-03-2011, 09:55
Grazie per il chiarimento :)

Per quanto riguarda l'ocr, in fase iniziale forse potrei farne a meno. Pensavo di "simulare" il tutto in questo modo :

L'acquisizione del file la simulo inserendolo in un db, in una tabella dove prevedo anche l'inserimento di tags, più o meno una cosa del genere:



--documents--
ID_Documento
tipoDocumento
dataArchiviazione
fileName

--documentTags
documentoID (fk ID_Documento)
tag

//o anche una tabella che mi funga da 'dizionario'
etc..


Successivamente potrei poi concentrarmi sull'utilizzo di qualche libreria per l'ocr.

In linea di massima, può andar bene una cosa del genere ?

Grazie :)

RaouL.