HONOR Magic V5 integra il primo modello vocale AI on-device per traduzioni multilingue

HONOR Magic V5 integra il primo modello vocale AI on-device per traduzioni multilingue

HONOR ha annunciato il debutto su Magic V5 del primo large speech model completamente on-device, eliminando la dipendenza dal cloud e garantendo privacy assoluta agli utenti. Una soluzione che è valsa al produttore due riconoscimenti a INTERSPEECH 2025.

di pubblicata il , alle 10:31 nel canale Telefonia
honor
 

HONOR ha annunciato l'implementazione del primo on-device large speech model su Magic V5, una soluzione che ha come scopo migliorare la traduzione vocale multilingue sui dispositivi mobile. La tecnologia presentata rappresenta una risposta alle limitazioni strutturali delle attuali soluzioni di traduzione, che dipendono massicciamente dall'infrastruttura cloud. Magic V5 introduce un approccio completamente diverso, elaborando le traduzioni vocali direttamente sul dispositivo senza necessità di connessione internet.

Le attuali piattaforme di traduzione operano attraverso server remoti, creando inevitabili vulnerabilità in termini di privacy e sicurezza dei dati. Ogni conversazione viene trasmessa, elaborata e archiviata su infrastrutture esterne, esponendo informazioni sensibili a potenziali rischi. La soluzione on-device di Magic V5 elimina completamente la trasmissione di dati vocali verso server esterni, garantendo che ogni parola rimanga esclusivamente sul dispositivo dell'utente. Le precedenti soluzioni tentavano di affrontare il problema della privacy attraverso compromessi tecnologici che penalizzavano drasticamente le prestazioni, tuttavia il nuovo foldable di HONOR supera questi limiti offrendo prestazioni paragonabili, se non superiori, alle soluzioni cloud mantenendo la totale riservatezza dei dati.

HONOR Magic V5 è il primo smartphone con un large speech model in locale

L'implementazione di un large speech model su dispositivo mobile richiede soluzioni ingegneristiche sofisticate. Nel caso di Magic V5, HONOR ha sviluppato un'architettura che comprime drasticamente l'ingombro della memoria, riducendolo da 3-4 GB richiesti dai modelli tradizionali a soli 800 MB, ottenendo un risparmio del 75%. La soluzione integra sei pacchetti linguistici completi - cinese, inglese, tedesco, francese, spagnolo e italiano - eliminando la necessità di download separati da 500 MB ciascuno. L'approccio tradizionale richiederebbe circa 3 GB di spazio aggiuntivo per supportare tutte le lingue, mentre Magic V5 include tutto nel pacchetto base ottimizzato.

Il sistema opera attraverso un meccanismo di elaborazione in streaming che consente la traduzione "speak-as-you-go", superando i metodi convenzionali che richiedono l'attesa del completamento di intere frasi. Le prestazioni raggiungono un incremento del 38% nella velocità di elaborazione e del 16% nell'accuratezza della traduzione rispetto alle soluzioni precedenti. La validità scientifica dell'approccio di HONOR ha trovato conferma nei riconoscimenti ottenuti durante INTERSPEECH 2025, una prestigiosa conferenza nel campo della tecnologia del linguaggio parlato. Due ricerche correlate hanno ricevuto premi, attestando l'eccellenza delle soluzioni sviluppate.

Il primo studio, intitolato "MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition", affronta la problematica del riconoscimento vocale in streaming a bassa latenza sui dispositivi mobili. La ricerca presenta l'integrazione di un sensore basato su CIF (Continuous Integrate-and-Fire) con la strategia Wait-k. Le strategie Wait-k tradizionali funzionano efficacemente per compiti relativamente semplici come la traduzione automatica di testo, ma la loro applicazione diretta al riconoscimento vocale automatico (ASR) genera costi computazionali elevati, limitando l'efficacia dell'approccio. HONOR ha risolto questa limitazione introducendo un predittore basato sul meccanismo CIF, che adatta con successo l'approccio a bassa latenza dal dominio testuale a quello vocale.

Il secondo studio, "Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation", supera i limiti dell'inferenza in tempo reale per modelli vocali di grandi dimensioni su dispositivi con risorse limitate. La ricerca introduce la strategia di accelerazione del campionamento speculativo a doppia scala, sviluppata in collaborazione con l'Università Jiao Tong di Shanghai. Questa strategia consente un aumento del 38% della velocità di inferenza mantenendo intatte le prestazioni del modello.

La tecnologia vocale AI implementata su Magic V5 si configura come un'evoluzione importante per quanto riguarda un uso conveniente dell'IA per funzionalità utili per molti utenti. L'implementazione pratica di large speech model su dispositivi consumer apre prospettive concrete per comunicazioni multilingue senza ostacoli, ridefinendo le possibilità di interazione globale attraverso la tecnologia mobile.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^