|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#1 |
|
Senior Member
Iscritto dal: Sep 2004
Messaggi: 3967
|
[Generico] Gestione Documentale
Ciao a tutti
Mi sto cimentando nello sviluppo di un software che permetta la gestione e l'archiviazione dei documenti. In rete ho trovato moltissimi riferimenti, anche progetti professionali open source (OpenMK, Alfresco). Ho le idee molto chiare su ciò che vorrei e qualche dubbio sul 'come' dovrei. I dubbi che ho, per mancanza di esperienza, riguardano la gestione post-scansione dei documenti: Un documento scansionato, su quasi tutti i dispositivi che ho maneggiato (scanner, multifunzione etc..), viene convertito principalmente in: tiff, jpg, pdf ; Fin qui, nei limiti delle mie conoscenze, riesco anche ad immaginare una struttura che contenga: il file, dei tags per le ricerche, la tipologia del documento (fattura, lettera, fax et similia), etc.. Ciò che non riesco ad immaginare invece è come fare una ricerca direttamente sul file, cioè: Supponendo che voglia fare una ricerca su tutti i files che contengono una determinata parola, che questa parola non sia stata gestita come tag, trattandosi di immagini o pdf , in che modo dovrei ragionare sulla ricerca ? Per il momento mi basterebbero dei chiarimenti su questo primo dubbio Grazie mille RaouL.
__________________
Dai wafer di silicio nasce: LoHacker... il primo biscotto Geek
|
|
|
|
|
|
#2 |
|
Senior Member
Iscritto dal: Nov 2004
Città: Tra Verona e Mantova
Messaggi: 4553
|
Non fai una ricerca sul file ma una ricerca sull'indice che il programma crea quando acquisisce il file.
Carichi il file nel programma, il programma lo esamina e per ogni parola che contiene genera un'associazione nell'indice generale. L'indice può essere semplicemente un insieme di parole per ognuna delle quali esiste una lista di file che la contengono - probabilmente organizzato in una struttura idonea anche se il numero di chiavi è al più qualche centinaio di migliaia. Usi un indice di questo genere perchè l'insieme delle parole esistenti in una o più lingue è storicamente finito mentre l'insieme dei testi che puoi generare combinando quelle parole è infinito. Nota che esistono sesquilioni di programmi di indicizzazione già pronti, l'unica cosa che forse manca in quelli free è il collegamento con delle api OCR ma anche di queste ne trovi a carrettate.
__________________
Uilliam Scecspir ti fa un baffo? Gioffri Cioser era uno straccione? E allora blogga anche tu, in inglese come me! |
|
|
|
|
|
#3 |
|
Senior Member
Iscritto dal: Sep 2004
Messaggi: 3967
|
Grazie per il chiarimento
Per quanto riguarda l'ocr, in fase iniziale forse potrei farne a meno. Pensavo di "simulare" il tutto in questo modo : L'acquisizione del file la simulo inserendolo in un db, in una tabella dove prevedo anche l'inserimento di tags, più o meno una cosa del genere: Codice:
--documents-- ID_Documento tipoDocumento dataArchiviazione fileName --documentTags documentoID (fk ID_Documento) tag //o anche una tabella che mi funga da 'dizionario' etc.. In linea di massima, può andar bene una cosa del genere ? Grazie RaouL.
__________________
Dai wafer di silicio nasce: LoHacker... il primo biscotto Geek
|
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 14:34.


















