[Generico] Gestione Documentale

RaouL_BennetH · 07-03-2011, 09:24

Ciao a tutti

Mi sto cimentando nello sviluppo di un software che permetta la gestione e l'archiviazione dei documenti. In rete ho trovato moltissimi riferimenti, anche progetti professionali open source (OpenMK, Alfresco).

Ho le idee molto chiare su ciò che vorrei e qualche dubbio sul 'come' dovrei.

I dubbi che ho, per mancanza di esperienza, riguardano la gestione post-scansione dei documenti:

Un documento scansionato, su quasi tutti i dispositivi che ho maneggiato (scanner, multifunzione etc..), viene convertito principalmente in:

tiff, jpg, pdf ;

Fin qui, nei limiti delle mie conoscenze, riesco anche ad immaginare una struttura che contenga: il file, dei tags per le ricerche, la tipologia del documento (fattura, lettera, fax et similia), etc..

Ciò che non riesco ad immaginare invece è come fare una ricerca direttamente sul file, cioè:

Supponendo che voglia fare una ricerca su tutti i files che contengono una determinata parola, che questa parola non sia stata gestita come tag, trattandosi di immagini o pdf , in che modo dovrei ragionare sulla ricerca ?

Per il momento mi basterebbero dei chiarimenti su questo primo dubbio

Grazie mille

RaouL.

PGI-Bis · 07-03-2011, 11:50

Non fai una ricerca sul file ma una ricerca sull'indice che il programma crea quando acquisisce il file.

Carichi il file nel programma, il programma lo esamina e per ogni parola che contiene genera un'associazione nell'indice generale. L'indice può essere semplicemente un insieme di parole per ognuna delle quali esiste una lista di file che la contengono - probabilmente organizzato in una struttura idonea anche se il numero di chiavi è al più qualche centinaio di migliaia.

Usi un indice di questo genere perchè l'insieme delle parole esistenti in una o più lingue è storicamente finito mentre l'insieme dei testi che puoi generare combinando quelle parole è infinito.

Nota che esistono sesquilioni di programmi di indicizzazione già pronti, l'unica cosa che forse manca in quelli free è il collegamento con delle api OCR ma anche di queste ne trovi a carrettate.

RaouL_BennetH · 09-03-2011, 08:55

Grazie per il chiarimento

Per quanto riguarda l'ocr, in fase iniziale forse potrei farne a meno. Pensavo di "simulare" il tutto in questo modo :

L'acquisizione del file la simulo inserendolo in un db, in una tabella dove prevedo anche l'inserimento di tags, più o meno una cosa del genere:

Codice:

--documents--
ID_Documento
tipoDocumento
dataArchiviazione
fileName

--documentTags
documentoID (fk ID_Documento)
tag

//o anche una tabella che mi funga da 'dizionario'
etc..

Successivamente potrei poi concentrarmi sull'utilizzo di qualche libreria per l'ocr.

In linea di massima, può andar bene una cosa del genere ?

Grazie

RaouL.

07-03-2011, 09:24	#1
RaouL_BennetH Senior Member Iscritto dal: Sep 2004 Messaggi: 3967	[Generico] Gestione Documentale Ciao a tutti Mi sto cimentando nello sviluppo di un software che permetta la gestione e l'archiviazione dei documenti. In rete ho trovato moltissimi riferimenti, anche progetti professionali open source (OpenMK, Alfresco). Ho le idee molto chiare su ciò che vorrei e qualche dubbio sul 'come' dovrei. I dubbi che ho, per mancanza di esperienza, riguardano la gestione post-scansione dei documenti: Un documento scansionato, su quasi tutti i dispositivi che ho maneggiato (scanner, multifunzione etc..), viene convertito principalmente in: tiff, jpg, pdf ; Fin qui, nei limiti delle mie conoscenze, riesco anche ad immaginare una struttura che contenga: il file, dei tags per le ricerche, la tipologia del documento (fattura, lettera, fax et similia), etc.. Ciò che non riesco ad immaginare invece è come fare una ricerca direttamente sul file, cioè: Supponendo che voglia fare una ricerca su tutti i files che contengono una determinata parola, che questa parola non sia stata gestita come tag, trattandosi di immagini o pdf , in che modo dovrei ragionare sulla ricerca ? Per il momento mi basterebbero dei chiarimenti su questo primo dubbio Grazie mille RaouL. __________________ Dai wafer di silicio nasce: LoHacker... il primo biscotto Geek

07-03-2011, 11:50	#2
PGI-Bis Senior Member Iscritto dal: Nov 2004 Città: Tra Verona e Mantova Messaggi: 4553	Non fai una ricerca sul file ma una ricerca sull'indice che il programma crea quando acquisisce il file. Carichi il file nel programma, il programma lo esamina e per ogni parola che contiene genera un'associazione nell'indice generale. L'indice può essere semplicemente un insieme di parole per ognuna delle quali esiste una lista di file che la contengono - probabilmente organizzato in una struttura idonea anche se il numero di chiavi è al più qualche centinaio di migliaia. Usi un indice di questo genere perchè l'insieme delle parole esistenti in una o più lingue è storicamente finito mentre l'insieme dei testi che puoi generare combinando quelle parole è infinito. Nota che esistono sesquilioni di programmi di indicizzazione già pronti, l'unica cosa che forse manca in quelli free è il collegamento con delle api OCR ma anche di queste ne trovi a carrettate. __________________ Uilliam Scecspir ti fa un baffo? Gioffri Cioser era uno straccione? E allora blogga anche tu, in inglese come me!

09-03-2011, 08:55	#3
RaouL_BennetH Senior Member Iscritto dal: Sep 2004 Messaggi: 3967	Grazie per il chiarimento Per quanto riguarda l'ocr, in fase iniziale forse potrei farne a meno. Pensavo di "simulare" il tutto in questo modo : L'acquisizione del file la simulo inserendolo in un db, in una tabella dove prevedo anche l'inserimento di tags, più o meno una cosa del genere: Codice: --documents-- ID_Documento tipoDocumento dataArchiviazione fileName --documentTags documentoID (fk ID_Documento) tag //o anche una tabella che mi funga da 'dizionario' etc.. Successivamente potrei poi concentrarmi sull'utilizzo di qualche libreria per l'ocr. In linea di massima, può andar bene una cosa del genere ? Grazie RaouL. __________________ Dai wafer di silicio nasce: LoHacker... il primo biscotto Geek

Strumenti
Mostra una versione stampabile Invia questa pagina per email