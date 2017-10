Si tratta di una lettura particolarmente complessa quella pubblicata da Apple all'interno del suo Machine Learning Journal (che potete trovare qui, in lingua inglese). Nella pagina la compagnia spiega quello che avviene durante l'esecuzione di uno dei comandi più semplici fra quelli disponibili su iPhone e Apple Watch, Hey Siri, insieme a tutte le complesse valutazioni che il software deve compiere per poter capire se il comando è da considerare valido e se appartiene all'utente originale.

Apple spiega che il microfono dei due dispositivi "trasforma la voce in un flusso di onde sonore istantanee, ad una velocità di 16000 campioni al secondo" prima che il sistema di rilevazione sia capace di dedurre la volontà di richiamare l'assistente vocale. Ogni campione ha una durata di circa 0,01 secondi e il modello acustico basato sulle reti neurali (Deep Neural Network, DNN) ne analizza 20 contemporaneamente per una durata di ogni singolo set di circa 0,2 secondi.

Con i campioni vengono svolti una valutazione probabilistica e un "processo di integrazione temporale" per ottenere un punteggio, e stabilire la coerenza dei campioni con il comando "Hey, Siri". Naturalmente Apple non richiede ai suoi sistemi di avere una certezza del 100% per richiamare l'assistente virtuale con l'uso della voce, in modo da garantire l'uso della funzionalità anche in ambienti in cui sono presenti anche altri suoni d'ambiente o altre voci sullo sfondo.

"Abbiamo integrato un po' di flessibilità in modo da rendere più facile l'attivazione di Siri in condizioni difficili, senza tuttavia aumentare il numero di false attivazioni", si legge nel documento. Ci sono due diverse soglie per stabilire l'attivazione dell'assistente virtuale, quella normale e quella bassa: se si supera quest'ultima ma non la prima il sistema potrebbe mancare un buon comando "Hey, Siri", ed è in queste circostanze che viene attivata una modalità più sensibile per alcuni secondi.

Questo succede del tutto automaticamente, in modo che se l'utente pronuncia nuovamente le due parole, anche senza aumentare il volume o essere più preciso, il sistema riesce a rilevare il tentativo di attivazione comportandosi adeguatamente. Questo consente, secondo Apple, di "migliorare significativamente l'usabilità del sistema senza aumentare il tasso di falsi positivi, visto che la sensibilità del riconoscimento viene aumentata solo per un breve periodo di tempo".

Nel documento vengono riportate anche altre informazioni già note: Hey Siri, ad esempio, si basa sul co-processore presente nei SoC degli ultimi modelli di iPhone in modo da funzionare senza richiedere alcuna interazione fisica e al tempo stesso senza pesare troppo in termini energetici sulla carica della batteria. Su Apple Watch invece il rilevamento della voce si attiva solo se viene percepito il movimento del polso verso l'alto, che attiva anche il display del dispositivo.

In questo modo il sistema può allocare solo una minima porzione (5%) della potenza concessa dal SoC di Apple Watch, dedicandola esclusivamente al riconoscimento della voce, e solo per una piccola porzione di tempo rispetto all'intero arco della giornata. Chi volesse approfondire l'argomento può farlo a questo indirizzo, sul sito Apple Machine Learning Journal.