PDA

View Full Version : Il riconoscimento vocale di Microsoft raggiunge l'affidabilità di un essere umano


Redazione di Hardware Upg
20-10-2016, 06:01
Link alla notizia: http://pro.hwupgrade.it/news/scienza-tecnologia/il-riconoscimento-vocale-di-microsoft-raggiunge-l-affidabilita-di-un-essere-umano_65214.html

Gli algoritmi di riconoscimento vocale di Microsoft hanno raggiunto il livello di capacità dell'uomo, ma non basta. In futuro si cercherà di superare il risultato ed arrivare ben oltre

Click sul link per visualizzare la notizia.

cignox1
20-10-2016, 08:05
Complimenti!

Quando vado in ferie dai parenti di mia moglie in puglia, a cena il mio tasso di compressione deve essere inferiore al 10% :-) Chissá se questa tecnologia potrebbe un giorno aiutarmi :-)

Phoenix Fire
20-10-2016, 08:32
sempre interessante vedere queste notizie
complimenti al team

Correx
20-10-2016, 09:58
Nel 1989 lanciavo comandi dos a voce su un XT, con una Covox Voice Master. Naturalmente dovevo campionarli prima...
E' passato un quarto di secolo e ancora scriviamo con la tastiera. All'epoca pensavo sinceramente che questa tecnologia si sarebbe sviluppata in maniera piu' rapida.

calabar
20-10-2016, 10:11
@Correx
Beh, sono cose differenti. La scrittura del testo è ad un buon livello da parecchio tempo (un'amica, diversi anni fa, aveva scritto la tesi di laurea quasi esclusivamente con Dragon Naturally Speaking della Nuance), ma la comprensione del testo e la sua traduzione sono ben altro paio di maniche.

Simonex84
20-10-2016, 10:14
Sarei curioso di provarlo, perchè Siri non capisce mai un ca##o :D chissà questo di quanto è migliore...

Correx
20-10-2016, 10:25
@Correx
Beh, sono cose differenti. La scrittura del testo è ad un buon livello da parecchio tempo (un'amica, diversi anni fa, aveva scritto la tesi di laurea quasi esclusivamente con Dragon Naturally Speaking della Nuance), ma la comprensione del testo e la sua traduzione sono ben altro paio di maniche.
calabar, e' proprio l'opposto : qualsiasi computer o smartphone oggi traduce al volo un testo, gia' scritto. E' proprio il riconoscimento vocale il problema, di cui parla l'articolo. Difatti usiamo ancora la tastiera!

avvelenato
20-10-2016, 10:44
calabar, e' proprio l'opposto : qualsiasi computer o smartphone oggi traduce al volo un testo, gia' scritto. E' proprio il riconoscimento vocale il problema, di cui parla l'articolo. Difatti usiamo ancora la tastiera!

Il vero problema (e collo di bottiglia per applicazioni orizzontali) è la comprensione del testo senza training preventivo.

Suite già esistenti (come la succitata DNS) fanno il lavoro di trascrizione con una precisione già accettabile per utilizzi produttivi. Il problema è che il lavoro di training è oneroso e quindi ne preclude l'utilizzo occasionale.

Correx
20-10-2016, 11:00
Il vero problema (e collo di bottiglia per applicazioni orizzontali) è la comprensione del testo senza training preventivo.

Suite già esistenti (come la succitata DNS) fanno il lavoro di trascrizione con una precisione già accettabile per utilizzi produttivi. Il problema è che il lavoro di training è oneroso e quindi ne preclude l'utilizzo occasionale.

Non sono d'accordo, almeno in parte. Il vero problema, e lo è sempre stato, e' la comprensione fonetica vera e propria di qualsiasi parola da parte del computer. Ognuno di noi difatti parla in modo differente. Non puoi campionare miliardi di voci di miliardi di individui (o forse si), e un tasso di errore e di approssimazione ci sara' sempre. Se hai la "r" moscia puoi insistere quanto vuoi a chiamare "Siri", non ti rispondera' mai! :p
Prima di DNS c'era IBM viavoice, lo ricordo bene... E sta di fatto che oggi tu utilizzerai la tastiera per rispondere a questo messaggio.

calabar
20-10-2016, 14:29
calabar, e' proprio l'opposto : qualsiasi computer o smartphone oggi traduce al volo un testo, gia' scritto. E' proprio il riconoscimento vocale il problema, di cui parla l'articolo. Difatti usiamo ancora la tastiera!
E lo traduce in modo pessimo. Questo perchè non "capisce" il testo, anche se se lo trova scritto.

La dettatura vocale invece, con un buon software, fa un ottimo lavoro. Provalo se non ci credi. C'erano anche dei video dimostrativi, e il bello è che funzionava così davvero, come mostrato nei video.

E sto parlando di un software di quasi 10 anni fa, oggi è sicuramente migliorato, anche perchè le risorse computazionali sono molto superiori.
Un amico che lavora in Nuance mi ha spiegato che software di questo tipo sono un compromesso tra resa e "taglio" di funzionalità per rimanere entro i limiti delle macchine su cui devono girare.
Per questo oggi la l'analisi vocale nelle funzionalità di dettature degli smartphone è essenzialmente fatta remoto (anche se in alcuni casi è delegata a DPS appositi, mi pare che il primo Moto X sia stato il precursore di questa possibilità).

Nel Dragon che ho visto io occorreva leggere una paginetta per fare l' "addestramento". Roba di pochi minuti, e ti dirò che non lavorava male neppure senza il training. In questo modo si adattava al singolo utente, quindi la diversità nel modo di parlare veniva comunque ben gestita.

Fidati, siamo molto più lontani da una buona traduzione che da una buona comprensione del testo (sintattica) sotto dettatura vocale.

JeanPi
20-10-2016, 17:38
In inglese sicuramente, ma in Ita quando? MMMMMMMMM

coccos84
20-10-2016, 20:49
In italiano Cortana mi permette di avviare diversi programmi e fare diverse ricerche senza usare la tastiera. Anche l'invio di messaggi a voce funziona molto bene.

Il vero problema che trovo è che di solito non puoi metterti a parlare al computer o al cellulare...

davide3112
20-10-2016, 22:14
E continueremo a scrivere con la tastiera... ve lo immaginate un ufficio di 10 persone che dettano?
O vi siete mai chiesti perchè la messagistica vocale (o anche SIRI) siano utilizzatti a livelli ben al di sotto di quelli stimati (o sperati)?
Perchè di solito non ci piace far sapere a chi ci sta intorno qeullo che abbiamo da dire a chi pare a noi... o sbaglio?

cataflic
21-10-2016, 07:41
E continueremo a scrivere con la tastiera... ve lo immaginate un ufficio di 10 persone che dettano?
O vi siete mai chiesti perchè la messagistica vocale (o anche SIRI) siano utilizzatti a livelli ben al di sotto di quelli stimati (o sperati)?
Perchè di solito non ci piace far sapere a chi ci sta intorno qeullo che abbiamo da dire a chi pare a noi... o sbaglio?

E infatti....l'uso è limitato a situazioni dove non si può usare le mani.

lkjhgf
21-10-2016, 12:14
devo scrivere dei lunghi testi in word e vorrei usare Cortana.E' ora possibile,l'ultima mi dicevano che non era disponibile per l'ita

lkjhgf
21-10-2016, 12:16
la mia sopra era una domanda.Ho dimenticato il punto interrogativo

giovanni69
26-10-2016, 10:45
....

La dettatura vocale invece, con un buon software, fa un ottimo lavoro. Provalo se non ci credi. ....cut....
Un amico che lavora in Nuance mi ha spiegato che software di questo tipo sono un compromesso tra resa e "taglio" di funzionalità per rimanere entro i limiti delle macchine su cui devono girare. .....

Nel Dragon che ho visto io occorreva leggere una paginetta per fare l' "addestramento". Roba di pochi minuti, e ti dirò che non lavorava male neppure senza il training. In questo modo si adattava al singolo utente, quindi la diversità nel modo di parlare veniva comunque ben gestita. ....cut...

E' possibile dare in pasto a Nuance Dragon un file video con audio (ovviamente previo training) per ottenerne dei captions, cioè la trascrizione della traduzione realizzatad disposta in basso al video come se fossero dei sottotitoli? :rolleyes: Oppure cosa suggerite?

calabar
26-10-2016, 20:10
Che io ricordi, era possibile. Ma forse dipendeva dalla versione del programma.
Si trattava comunque di un prodotto vecchio, ora le cose potrebbero essere cambiate.

giovanni69
26-10-2016, 23:25
ok scrivo a Nuance se il tuo amico non è reperibile per un consulto sul tema preciso ;)
grazie.

recoil
27-10-2016, 07:58
E lo traduce in modo pessimo. Questo perchè non "capisce" il testo, anche se se lo trova scritto.

La dettatura vocale invece, con un buon software, fa un ottimo lavoro. Provalo se non ci credi. C'erano anche dei video dimostrativi, e il bello è che funzionava così davvero, come mostrato nei video.

E sto parlando di un software di quasi 10 anni fa, oggi è sicuramente migliorato, anche perchè le risorse computazionali sono molto superiori.
Un amico che lavora in Nuance mi ha spiegato che software di questo tipo sono un compromesso tra resa e "taglio" di funzionalità per rimanere entro i limiti delle macchine su cui devono girare.
Per questo oggi la l'analisi vocale nelle funzionalità di dettature degli smartphone è essenzialmente fatta remoto (anche se in alcuni casi è delegata a DPS appositi, mi pare che il primo Moto X sia stato il precursore di questa possibilità).

Nel Dragon che ho visto io occorreva leggere una paginetta per fare l' "addestramento". Roba di pochi minuti, e ti dirò che non lavorava male neppure senza il training. In questo modo si adattava al singolo utente, quindi la diversità nel modo di parlare veniva comunque ben gestita.

Fidati, siamo molto più lontani da una buona traduzione che da una buona comprensione del testo (sintattica) sotto dettatura vocale.

l'esempio ce l'ho quotidianamente con Siri
le parole le becca quasi sempre perfettamente tranne quando sono nel traffico o nel rumore di una stanza, ma se ho le cuffie e porto il microfono vicino alla bocca risolvo
poi non è detto che capisca il significato di quelle parole e ogni tanto se ne esce con la ricerca internet dei vocaboli che ho pronunciato

la traduzione, voce a parte, non è perfetta anche quando fai copia e incolla di un testo quindi capire la fonetica è solo una delle variabili in gioco