Addio barriere linguistiche: NVIDIA offre accesso a modelli e dataset per traduzioni e trascrizioni in 25 lingue europee
Granary, il nuovo dataset multilingue sviluppato da NVIDIA con Carnegie Mellon e FBK, fornisce un milione di ore di audio per addestrare modelli di riconoscimento e traduzione vocale. Insieme ai modelli Canary e Parakeet, punta a rendere più inclusiva l’IA linguistica per l’Europa
di Andrea Bai pubblicata il 25 Agosto 2025, alle 13:31 nel canale Scienza e tecnologiaNVIDIA
I modelli linguistici basati su intelligenza artificiale usano oggi solamente una piccolissima frazione delle oltre 7000 lingue parlate in tutto il mondo: ecco che NVIDIA prova ad affrontare questo limite con il rilascio, avvenuto la scorsa settimana, di un nuovo dataset e due modelli dedicati alla trascrizione e traduzione vocale pensati per 25 lingue europee, comprese quelle con poca disponibilità di dati, come croato, estone e maltese.
Questi strumenti offrono agli sviluppatori la possibilità di scalare facilmente applicazioni AI destinate a un pubblico internazionale, con tecnologie vocali rapide e accurate adatte a casi d’uso in produzione come chatbot multilingue, assistenti vocali per il customer service e servizi di traduzione quasi in tempo reale.

Il cuore dell’iniziativa è Granary, un ampio corpus open source di dati vocali multilingue, disponibile su Hugging Face. Il dataset contiene circa un milione di ore di audio, con oltre 650.000 ore destinate al riconoscimento vocale e più di 350.000 per la traduzione automatica del parlato. Su di esso si basano due nuovi modelli: Canary-1b-v2, da un miliardo di parametri, pensato per trascrizioni multilingue ad alta qualità e per la traduzione tra inglese e 24 lingue supportate, e Parakeet-tdt-0.6b-v3, più leggero con 600 milioni di parametri, progettato per trascrizioni rapide e su larga scala. Canary ha già conquistato la vetta della classifica Hugging Face per accuratezza nel riconoscimento vocale, mentre Parakeet eccelle nel throughput, trascrivendo audio lunghi con elevatissima velocità.
Tutti i materiali, compresi i modelli e il dataset, sono disponibili su piattaforme open source. Per lo sviluppo del dataset, il team di NVIDIA Speech AI ha collaborato con la Carnegie Mellon University e la Fondazione Bruno Kessler (FBK), facendo processare enormi quantità di audio non etichettato attraverso una pipeline di elaborazione innovativa alimentata dal toolkit NVIDIA NeMo Speech Data Processor. Questo sistema ha permesso di generare dati strutturati e ad alta qualità senza dover ricorrere a un’annotazione manuale costosa e intensiva in termini di risorse. L’intera pipeline, resa disponibile in open source su GitHub, può essere riutilizzata dalla comunità per ulteriori modelli di ASR (Automatic Speech Recognition) e AST (Automatic Speech Translation).
Il sistema ha mostrato un'elevata efficienza: secondo i risultati illustrati nel paper, per ottenere lo stesso livello di accuratezza rispetto a dataset popolari, Granary richiede circa la metà dei dati di addestramento. Questo significa che può costituire una risorsa fondamentale per garantire una maggiore inclusività e rappresentare la diversità linguistica europea riducendo i costi di sviluppo.










Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Core Ultra 7 270K Plus e Core Ultra 7 250K Plus: Intel cerca il riscatto ma ci riesce in parte
PC Specialist Lafité 14 AI AMD: assemblato come vuoi tu
Google risolve il problema della memoria negli LLM: TurboQuant fa girare gli stessi modelli con cinque volte meno RAM
Un altro colpo alle auto elettriche: Panasonic taglia le batterie EV in favore di quelle per data center IA
Core Ultra 9 290K Plus: Intel conferma che non arriverà sul mercato
Addio connettori fusi? MSI promette di fermare tutto prima del disastro con GPU Safeguard+
Basta brani fake su Spotify: la nuova funzione dà controllo totale agli artisti
OPPO Find X9 Ultra: come funziona il rivoluzionario zoom 10x Hasselblad
Prezzo diverso per giochi digitali e fisici: la nuova politica Nintendo divide i giocatori
DDR5 32GB a meno di 340€: le Corsair Vengeance 6000MHz hanno buoni prezzi (visto il periodo) su Amazon
Harry Potter: HBO pubblica il primo trailer della serie TV e svela il nuovo volto di Hogwarts
Android 17 Beta 2 si allarga: la lista completa dei modelli (non solo Pixel) compatibili
RDNA 4m: AMD evolve RDNA 3.5 con AI e FSR 4 per le prossime APU Ryzen?
Sunseeker ha un mostro per i Pro e un'intera gamma domestica: punta ai prati italiani
Storica sentenza negli USA: Meta e Google ritenute responsabili della dipendenza da social e dei danni psicologici ai giovani
Musica generativa, arriva Lyria 3 Pro: ora Gemini compone brani completi









6 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoA cosa ti serve un'auto quando puoi usare il teletrasporto ?
dovresti chiederlo a Jean Luc Picard
https://youtu.be/IpCHCospKdk?si=XHd...lQCnB_&t=58
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".