|
|
|
![]() |
|
Strumenti |
![]() |
#1 | |
Senior Member
Iscritto dal: Jul 2006
Messaggi: 379
|
OCR e linux
Visto che la settimana scorsa mi hanno regalato un vecchio scanner inutilizzato ho deciso di provare tesseract 2.01. Ho fatto una scansione a 300 dpi di una fotocopia che avevo in scrivania e l'ho passata al programma senza modifiche per facilitargli il lavoro (es: lavoro sulle curve per ridurre il rumore nelle parti bianche o miglioramento del contrasto) ed ho ottenuto questo:
Quote:
Qui sotto una copia, ridotta in dimensioni, dell'immagine di partenza con segnati gli errori: puntino rosso per lettere riconosciute male, puntino verde per caratteri aggiunti. ![]() Come si può vedere, quasi tutti gli errori sono su caratteri i/1/l e sui blocchi composti da r/m/n. Mi pare un buon risultato, però non ho mai avuto a che fare con software ocr commerciali e non ho idea di come si comportino. Adesso vedrò di provare con qualche testo in italiano.
__________________
So high, so low, so many things to know. |
|
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Jan 2001
Messaggi: 3363
|
in confronto a quelli che ho visto io sono ottimi ... certo dipende molto dalla qualità dell'originale scansionato e dalle impostazioni di luminosità, contrasto e dai DPI impostati.
Com'era la qualità del tuo originale ? Com'è sto tesseract, ha un'intefaccia grafica, come come si usa ? Dacci notizie, perchè il prob dell'OCR è uno dei maggiori tra il soft linux. |
![]() |
![]() |
![]() |
#3 | ||
Senior Member
Iscritto dal: Jul 2006
Messaggi: 379
|
Quote:
Originale (tiff, 1.31 mb): http://www.megaupload.com/it/?d=CR5F2FWB (su megaupload, per qualche motivo imageshack lo converte in png a bassa risoluzione) Ridimensionato, errori evidenziati come prima: ![]() Testo ottenuto: Quote:
Tesseract non ha interfaccia grafica, accetta solo tiff e restituisce un file txt. Per queste prove ho usato tesseract 2.01 con i dati 2.00 italiani e inglesi, il comando usato è semplicemente 'tesseract immagine.tiff testo -l eng'. Qualche mese fa avevo letto di un progetto per integrare tesseract (e ocropus, un software sempre di google che usa tesseract e fa anche analisi del layout) in gnome-scan, però non so se poi si sia fatto qualcosa. Adesso cerco qualcosa in italiano per vedere come funziona con la nostra lingua.
__________________
So high, so low, so many things to know. |
||
![]() |
![]() |
![]() |
#4 | |
Senior Member
Iscritto dal: Jul 2006
Messaggi: 379
|
Testo in italiano, da un giornale, modificata leggermente la curva dei colori perché la carta era molto scura: http://www.megaupload.com/?d=3SETCJVV
Testo ottenuto: Quote:
![]() Circa 800 parole. In rosso, 14, parole sbagliate (la maggior parte accenti non riconosciuti) In verde, 9, spazi non riconosciuti (c'è da dire che il testo è molto compresso per motivi di spazio disponibile). In blu, 3, caratteri spurii aggiunti. Risultati peggiori di prima, però l'immagine di partenza era di qualità inferiore e non so quanto sia completo il training per l'italiano, quindi può darsi che ci siano miglioramenti nelle prossime versioni.
__________________
So high, so low, so many things to know. |
|
![]() |
![]() |
![]() |
#5 |
Senior Member
Iscritto dal: Feb 2004
Città: /media/ValSusa
Messaggi: 3607
|
devo provarlo. Ho sempre cercato un programma ocr in linux.
|
![]() |
![]() |
![]() |
#6 |
Senior Member
Iscritto dal: Jul 2006
Messaggi: 379
|
Oggi ho fatto qualche altra prova con testi in italiano di varia origine (giornali, libri, enciclopedia): l'accuratezza media è stata del 97.5%. Per curiosità ho provato a usare sulle stesse scansioni (300 dpi, niente post-processing, direttamente come uscivano dallo scanner) ocrad e gocr: impressionante, spesso c'erano due o tre righe di seguito senza una singola parola corretta.
Tesseract, già nella sua versione 2.01, è su un livello completamente diverso. Sono anche curioso di vedere cosa verrà fuori dall'integrazione con ocropus, che dovrebbe fornire le feature che tesseract ancora non supporta (preprocessing, analisi del layout).
__________________
So high, so low, so many things to know. Ultima modifica di Willy McBride : 09-02-2008 alle 23:36. |
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 03:24.