Addio barriere linguistiche: NVIDIA offre accesso a modelli e dataset per traduzioni e trascrizioni in 25 lingue europee

Granary, il nuovo dataset multilingue sviluppato da NVIDIA con Carnegie Mellon e FBK, fornisce un milione di ore di audio per addestrare modelli di riconoscimento e traduzione vocale. Insieme ai modelli Canary e Parakeet, punta a rendere più inclusiva l’IA linguistica per l’Europa

di Andrea Bai pubblicata il 25 Agosto 2025, alle 13:31 nel canale Scienza e tecnologia
NVIDIA

I modelli linguistici basati su intelligenza artificiale usano oggi solamente una piccolissima frazione delle oltre 7000 lingue parlate in tutto il mondo: ecco che NVIDIA prova ad affrontare questo limite con il rilascio, avvenuto la scorsa settimana, di un nuovo dataset e due modelli dedicati alla trascrizione e traduzione vocale pensati per 25 lingue europee, comprese quelle con poca disponibilità di dati, come croato, estone e maltese.

Questi strumenti offrono agli sviluppatori la possibilità di scalare facilmente applicazioni AI destinate a un pubblico internazionale, con tecnologie vocali rapide e accurate adatte a casi d’uso in produzione come chatbot multilingue, assistenti vocali per il customer service e servizi di traduzione quasi in tempo reale.

Il cuore dell’iniziativa è Granary, un ampio corpus open source di dati vocali multilingue, disponibile su Hugging Face. Il dataset contiene circa un milione di ore di audio, con oltre 650.000 ore destinate al riconoscimento vocale e più di 350.000 per la traduzione automatica del parlato. Su di esso si basano due nuovi modelli: Canary-1b-v2, da un miliardo di parametri, pensato per trascrizioni multilingue ad alta qualità e per la traduzione tra inglese e 24 lingue supportate, e Parakeet-tdt-0.6b-v3, più leggero con 600 milioni di parametri, progettato per trascrizioni rapide e su larga scala. Canary ha già conquistato la vetta della classifica Hugging Face per accuratezza nel riconoscimento vocale, mentre Parakeet eccelle nel throughput, trascrivendo audio lunghi con elevatissima velocità.

Tutti i materiali, compresi i modelli e il dataset, sono disponibili su piattaforme open source. Per lo sviluppo del dataset, il team di NVIDIA Speech AI ha collaborato con la Carnegie Mellon University e la Fondazione Bruno Kessler (FBK), facendo processare enormi quantità di audio non etichettato attraverso una pipeline di elaborazione innovativa alimentata dal toolkit NVIDIA NeMo Speech Data Processor. Questo sistema ha permesso di generare dati strutturati e ad alta qualità senza dover ricorrere a un’annotazione manuale costosa e intensiva in termini di risorse. L’intera pipeline, resa disponibile in open source su GitHub, può essere riutilizzata dalla comunità per ulteriori modelli di ASR (Automatic Speech Recognition) e AST (Automatic Speech Translation).

Il sistema ha mostrato un'elevata efficienza: secondo i risultati illustrati nel paper, per ottenere lo stesso livello di accuratezza rispetto a dataset popolari, Granary richiede circa la metà dei dati di addestramento. Questo significa che può costituire una risorsa fondamentale per garantire una maggiore inclusività e rappresentare la diversità linguistica europea riducendo i costi di sviluppo.

I migliori sconti su Amazon oggi

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

140.84€ Compra ora

-30%

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

99.90 69.99€ Compra ora

-22%

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

449.00 349.00€ Compra ora

Prezzo di 23.000 euro e 40.000 ordini in 24 ore. L'amore dei cinesi per il Super-Hybrid

La serie OPPO Reno14 arriva in Europa (e in Italia)! Tutti i dettagli

Unrue25 Agosto 2025, 14:31 #1

Io attendo il traduttore universale stile Star Trek

risk-io25 Agosto 2025, 16:37 #2

Io attendo le auto con motore al dilitio

Giulio197626 Agosto 2025, 08:01 #3

Io attendo.

oniryujin26 Agosto 2025, 12:54 #4

Io mi accontenterei di un serio traduttore di testo scritto. Deepl è molto buono, ma limitato free. Gpt e simili se la cavano forse meglio (ma perché puoi dare contesto). Ma in locale nulla di decente!

mail9000it09 Ottobre 2025, 19:22 #5

Originariamente inviato da: risk-io

Io attendo le auto con motore al dilitio

A cosa ti serve un'auto quando puoi usare il teletrasporto ?

biometallo10 Ottobre 2025, 00:21 #6

Originariamente inviato da: mail9000it

A cosa ti serve un'auto quando puoi usare il teletrasporto ?

dovresti chiederlo a Jean Luc Picard

https://youtu.be/IpCHCospKdk?si=XHd...lQCnB_&t=58

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

ASUS ROG CROSSHAIR X870E GLACIAL

Nuova Opel Astra Electric, stile rinnovato

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei HUAWEI WiFi Mesh X3 Pro Suite è probabilmente il router mesh più fotogenico che si possa acquistare oggi in Italia, ma dietro il guscio in acrilico trasparente e...

Recensione Nothing Phone 4(a): sempre iconico ma ora più concreto Nothing con il suo nuovo Phone 4(a) conferma la sua identità visiva puntando su una costruzione che nobilita il policarbonato. La trasparenza resta l'elemento cardine,...

Diablo II Resurrected: il nuovo DLC Reign of the Warlock Abbiamo provato per voi il nuovo DLC lanciato a sorpresa da Blizzard per Diablo II: Resurrected e quella che segue è una disamina dei nuovi contenuti che abbiamo...

DJI RS 5: stabilizzazione e tracking intelligente per ogni videomaker Analizziamo nel dettaglio DJI RS 5, l'ultimo arrivato della famiglia Ronin progettato per videomaker solisti e piccoli studi. Tra tracciamento intelligente migliorato...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Deep Tech Revolution: così Area Science Park apre i laboratori alle startup Siamo tornati nel parco tecnologico di Trieste per il kick-off del programma che mette a disposizione di cinque startup le infrastrutture di ricerca, dal sincrotrone...

Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite Abbiamo guidato per diversi giorni la Alpine A290, la prima elettrica del nuovo corso della marca. Non è solo una Renault 5 sotto steroidi, ha una sua identità e...

Ecovacs DEEBOT T90 PRO OMNI: ora il rullo di lavaggio è ampio DEEBOT T90 PRO OMNI abbina un sistema di aspirazione basato su tecnologia BLAST ad un rullo di lavaggio dei pavimenti dalla larghezza elevata, capace di trattare...

Addio barriere linguistiche: NVIDIA offre accesso a modelli e dataset per traduzioni e trascrizioni in 25 lingue europee

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

6 Commenti