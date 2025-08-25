Granary, il nuovo dataset multilingue sviluppato da NVIDIA con Carnegie Mellon e FBK, fornisce un milione di ore di audio per addestrare modelli di riconoscimento e traduzione vocale. Insieme ai modelli Canary e Parakeet, punta a rendere più inclusiva lIA linguistica per lEuropa

I modelli linguistici basati su intelligenza artificiale usano oggi solamente una piccolissima frazione delle oltre 7000 lingue parlate in tutto il mondo: ecco che NVIDIA prova ad affrontare questo limite con il rilascio, avvenuto la scorsa settimana, di un nuovo dataset e due modelli dedicati alla trascrizione e traduzione vocale pensati per 25 lingue europee, comprese quelle con poca disponibilità di dati, come croato, estone e maltese.

Questi strumenti offrono agli sviluppatori la possibilità di scalare facilmente applicazioni AI destinate a un pubblico internazionale, con tecnologie vocali rapide e accurate adatte a casi duso in produzione come chatbot multilingue, assistenti vocali per il customer service e servizi di traduzione quasi in tempo reale.

Il cuore delliniziativa è Granary, un ampio corpus open source di dati vocali multilingue, disponibile su Hugging Face. Il dataset contiene circa un milione di ore di audio, con oltre 650.000 ore destinate al riconoscimento vocale e più di 350.000 per la traduzione automatica del parlato. Su di esso si basano due nuovi modelli: Canary-1b-v2, da un miliardo di parametri, pensato per trascrizioni multilingue ad alta qualità e per la traduzione tra inglese e 24 lingue supportate, e Parakeet-tdt-0.6b-v3, più leggero con 600 milioni di parametri, progettato per trascrizioni rapide e su larga scala. Canary ha già conquistato la vetta della classifica Hugging Face per accuratezza nel riconoscimento vocale, mentre Parakeet eccelle nel throughput, trascrivendo audio lunghi con elevatissima velocità.

Tutti i materiali, compresi i modelli e il dataset, sono disponibili su piattaforme open source. Per lo sviluppo del dataset, il team di NVIDIA Speech AI ha collaborato con la Carnegie Mellon University e la Fondazione Bruno Kessler (FBK), facendo processare enormi quantità di audio non etichettato attraverso una pipeline di elaborazione innovativa alimentata dal toolkit NVIDIA NeMo Speech Data Processor. Questo sistema ha permesso di generare dati strutturati e ad alta qualità senza dover ricorrere a unannotazione manuale costosa e intensiva in termini di risorse. Lintera pipeline, resa disponibile in open source su GitHub, può essere riutilizzata dalla comunità per ulteriori modelli di ASR (Automatic Speech Recognition) e AST (Automatic Speech Translation).

Il sistema ha mostrato un'elevata efficienza: secondo i risultati illustrati nel paper, per ottenere lo stesso livello di accuratezza rispetto a dataset popolari, Granary richiede circa la metà dei dati di addestramento. Questo significa che può costituire una risorsa fondamentale per garantire una maggiore inclusività e rappresentare la diversità linguistica europea riducendo i costi di sviluppo.