Addio barriere linguistiche: NVIDIA offre accesso a modelli e dataset per traduzioni e trascrizioni in 25 lingue europee
Granary, il nuovo dataset multilingue sviluppato da NVIDIA con Carnegie Mellon e FBK, fornisce un milione di ore di audio per addestrare modelli di riconoscimento e traduzione vocale. Insieme ai modelli Canary e Parakeet, punta a rendere più inclusiva l’IA linguistica per l’Europa
di Andrea Bai pubblicata il 25 Agosto 2025, alle 13:31 nel canale Scienza e tecnologiaNVIDIA
I modelli linguistici basati su intelligenza artificiale usano oggi solamente una piccolissima frazione delle oltre 7000 lingue parlate in tutto il mondo: ecco che NVIDIA prova ad affrontare questo limite con il rilascio, avvenuto la scorsa settimana, di un nuovo dataset e due modelli dedicati alla trascrizione e traduzione vocale pensati per 25 lingue europee, comprese quelle con poca disponibilità di dati, come croato, estone e maltese.
Questi strumenti offrono agli sviluppatori la possibilità di scalare facilmente applicazioni AI destinate a un pubblico internazionale, con tecnologie vocali rapide e accurate adatte a casi d’uso in produzione come chatbot multilingue, assistenti vocali per il customer service e servizi di traduzione quasi in tempo reale.

Il cuore dell’iniziativa è Granary, un ampio corpus open source di dati vocali multilingue, disponibile su Hugging Face. Il dataset contiene circa un milione di ore di audio, con oltre 650.000 ore destinate al riconoscimento vocale e più di 350.000 per la traduzione automatica del parlato. Su di esso si basano due nuovi modelli: Canary-1b-v2, da un miliardo di parametri, pensato per trascrizioni multilingue ad alta qualità e per la traduzione tra inglese e 24 lingue supportate, e Parakeet-tdt-0.6b-v3, più leggero con 600 milioni di parametri, progettato per trascrizioni rapide e su larga scala. Canary ha già conquistato la vetta della classifica Hugging Face per accuratezza nel riconoscimento vocale, mentre Parakeet eccelle nel throughput, trascrivendo audio lunghi con elevatissima velocità.
Tutti i materiali, compresi i modelli e il dataset, sono disponibili su piattaforme open source. Per lo sviluppo del dataset, il team di NVIDIA Speech AI ha collaborato con la Carnegie Mellon University e la Fondazione Bruno Kessler (FBK), facendo processare enormi quantità di audio non etichettato attraverso una pipeline di elaborazione innovativa alimentata dal toolkit NVIDIA NeMo Speech Data Processor. Questo sistema ha permesso di generare dati strutturati e ad alta qualità senza dover ricorrere a un’annotazione manuale costosa e intensiva in termini di risorse. L’intera pipeline, resa disponibile in open source su GitHub, può essere riutilizzata dalla comunità per ulteriori modelli di ASR (Automatic Speech Recognition) e AST (Automatic Speech Translation).
Il sistema ha mostrato un'elevata efficienza: secondo i risultati illustrati nel paper, per ottenere lo stesso livello di accuratezza rispetto a dataset popolari, Granary richiede circa la metà dei dati di addestramento. Questo significa che può costituire una risorsa fondamentale per garantire una maggiore inclusività e rappresentare la diversità linguistica europea riducendo i costi di sviluppo.










Test ride con Gowow Ori: elettrico e off-road vanno incredibilmente d'accordo
Recensione OnePlus 15: potenza da vendere e batteria enorme dentro un nuovo design
AMD Ryzen 5 7500X3D: la nuova CPU da gaming con 3D V-Cache per la fascia media
IBM presenta i nuovi processori quantistici: arrivano Nighthawk e Loon
Amazon Haul esplode di sconti: con l'offerta 'Acquista 2', lo sconto vola al -40% fino al 19 novembre
Dacia Sandriders, incontro con piloti e navigatori dopo un anno di successi (e carburante alternativo)
Quanto costerà la Steam Machine? Valve conferma che il prezzo sarà competitivo
QNAP TS-h1655XeU-RP: filesystem ZFS e connettività a 10 GbE per archiviazione e virtualizzazione
Etica e software libero protagonisti a SFSCON 2025
Il reattore che ricarica le batterie scartate e produce nuovo litio: la rivoluzione di Rice University
AMD FSR Redstone: la nuova tecnologia basata sulle reti neurali esordisce su Call of Duty: Black Ops 7
Meta Quest 3S a un prezzo senza precedenti per le offerte Black Friday: realtà mista e bundle esclusivo a soli 249,99€
Rischio per gli SSD? I driver chipset AMD scrivono continuamente sul drive, ma non è chiaro il perché
Quanto sono 'woke' le intelligenze artificiali? Anthropic ha adesso uno strumento per misurarlo
Rockstar rilancia Red Dead Redemption su PS5, Series X, Switch 2 e smartphone
Blue Origin centra l'obiettivo: New Glenn atterra e porta ESCAPADE verso Marte
Regali di Natale spendendo poco con il Black Friday: tante idee mai sopra i 100€









6 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoA cosa ti serve un'auto quando puoi usare il teletrasporto ?
dovresti chiederlo a Jean Luc Picard
https://youtu.be/IpCHCospKdk?si=XHd...lQCnB_&t=58
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".