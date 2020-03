Gli algoritmi sono ormai parte della nostra vita quotidiana e abbiamo delegato loro molti dei passaggi decisionali che possiamo trovarci a dover compiere. Principalmente lo facciamo per comodità e convenienza (su questioni "di poco conto" una macchina è più veloce ed efficiente, soprattutto se la decisione deve essere presa sulla base di un mero calcolo o confronto) ma anche perché crediamo che in determinati frangenti un algoritmo non può avere "pareri" o essere condizionato da convinzioni o preconcetti. Per usare un termine oggi particolarmente in voga, un algoritmo non può avere "bias".

Questo almeno in linea teorica: l'algoritmo certamente non può fare preferenze essendo un mero processo logico/matematico. Ma gli algoritmi, specie nell'ambito machine learning/AI, vengono letteralmente allenati con un set di dati: se questi dati sono in qualche modo affetti da bias, allora l'algoritmo tenderà a prendere decisioni pendenti.

I sistemi di riconoscimento vocale fanno discriminazioni?

Partendo da queste considerazioni un gruppo di ricercatori della Stanford University ha identificato un altro campo in cui si possono manifestare problemi simili: gli algoritmi di riconoscimento del parlato a cui oggi ci affidiamo per svariati compiti, dal trascrivere automaticamente un discorso al governare lo smartphone con i comandi vocali. I ricercatori hanno individuato una sorta di "bias razziale", riscontrando una maggior difficoltà a comprendere gli schemi comunicativi vocali degli afroamericani.

I ricercatori hanno deciso di mettere alla prova i sistemi di Amazon, Apple, Google, IBM e Mcrosoft con grandi raccolte di parole pronunciate. Due di queste raccolte sono state incentrate su singoli gruppi: una comunità di afroamericani della Carolina del Nord e una comunità di bianchi della parte nord della California. Gli altri campioni invece sono di altre comunità di Rochester, Sacramento e Washington D.C. Tutti i campioni sono stati somministrati a tutti e cinque i sistemi e i risultati sono stati confrontati a quelli di traduttori umani.

Tutti i sistemi hanno mostrato in generale un comportamento abbastanza buono con un punteggio word error rate inferiore a 0,5. Questo punteggio si basa sul riscontro di parole aggiunte, mancanti o interpretate in maniera non corretta. Osservando più a fondo i risultati i ricercatori hanno tuttavia scoperto che in media la pronuncia degli afroamericani è stata elaborata con un word error rate più elevato rispetto a quella dei bianchi, mediamente il doppio. Una dinamica mediamente più incisiva tra gli afroamericani di sesso maschile. I tassi d'errore registrati per uomini e donne bianchi sono stati rispettivamente di 0,21 e 0,17 laddove per uomini e donne afroamericani si è registrato un tasso d'errore di 0,41 e 0,30.

Gli algoritmi non hanno pregiudizi

Per capire quanto possano essere significative queste differenze gli autori hanno fissato arbitrariamente un word error rate conservativo di 0,5 e hanno quindi verificato quante volte singoli blocchi di testo raggiungono questo limite individuando che il 20% delle frasi pronunciate da afroamericani lo supera, mentre per i bianchi ciò si verifica in meno del 2% dei casi. Questi risultati potrebbero essere influenzati da un problema geografico: dal punto di vista americano si ritiene che i californiani non abbiano un particolare accento e i campioni provenienti da quegli stati hanno registrato tassi d'errore molto bassi. Tuttava il numero di campioni e la varietà a disposizione dei ricercatori non sono sufficientemente ampi da poter approfondire questo aspetto.

Si è poi proseguito ad analizzare l'uso del linguaggio: dal momento che i ricercatori non hanno ovviamente potuto aver accesso agli algoritmi usati dai sistemi che hanno analizzato, trattandosi di tecnologie proprietarie, si è deciso di recuperare alcuni pacchetti open-source che compiono funzioni simili a quelle dei sistemi commerciali. Lo scopo è stato quello di misurare la comprensione del linguaggio da parte del software espresso da un valore chiamato "perplexity" che indica l'accuratezza con cui un sistema è in grado di dedurre quali siano le parole successive mentre una frase viene pronunciata. In controtendenza a quanto ci si poteva aspettare, questo test ha dimostrato che i sistemi sono risultati più abili nel gestire e riconoscere il linguaggio degli afroamericani. Approfondendo questo aspetto i ricercatori si sono resi conto di due fattori in contrapposizione: nonostante il costrutto frasale degli afroamericani sia più complicato (spesso eliminando alcuni vocaboli, per esempio la copula), essi fanno uso di un vocabolario complessivamente più piccolo rendendo più facile provare a predire le parole successive in una frase.

A questo punto ai ricercatori non è rimasto altro che verificare quanto i sistemi commerciali siano adusi alle voci afroamericane. Per esplorare questo aspetto sono state cercate le trascrizioni in cui afroamericani e bianchi hanno usato le stesse frasi. Quando sono state somministrate ai sistemi di riconoscimento vocale, il word error rate è risultato maggiore per gli afroamericani rispetto ai bianchi: ecco trovato il motivo delle differenze nei risultati del test iniziale. Ciò significa che generalmente i sistemi di riconoscimento vocale sono stati allenati su un sottoinsieme delle diversità e accenti presenti negli USA. Non si tratta quindi di vero e proprio bias razziale ma è dimostrazione di come un insieme di dati parziali, condizionati o pendenti possa determinare in maniera significativa il comportamento finale di un algoritmo: l'inclusività deve essere una priorità anche nel campo dell'intelligenza artificiale. Il rischio, altrimenti, è quello di automatizzare dei pregiudizi, anche in maniera inconsapevole o imprevista.