pensiero

Alcuni ricercatori del Massachusetts Institute of Technology centro di eccellenza a livello mondiale per gli studi sull’intelligenza artificiale, hanno inventato una nuova interfaccia per computer che non richiede l’utilizzo delle mani e della voce.

Il dispositivo si basa su un processo chiamato subvocalizzazione, o discorso silenzioso - ossia quello che accade quando pronunciamo parole nella nostra mente.

L'idea che le verbalizzazioni interne abbiano correlazioni fisiche è in circolazione dal XIX secolo e fu seriamente investigata negli anni '50. 

Uno degli obiettivi del movimento di lettura rapida degli anni '60 era eliminare la verbalizzazione interna, o "subvocalizzazione", come è noto.Ma la subvocalizzazione come interfaccia per computer è in gran parte inesplorata.

 Il primo passo dei ricercatori è stato determinare quali posizioni sul viso sono le fonti dei segnali neuromuscolari più affidabili. Così hanno condotto esperimenti in cui gli stessi soggetti sono stati invitati a subvocalizzare la stessa serie di parole quattro volte, con una serie di 16 elettrodi in diverse posizioni facciali ogni volta.

I ricercatori hanno scritto il codice per analizzare i dati risultanti e hanno scoperto che i segnali provenienti da sette posizioni di elettrodi specifici erano coerentemente in grado di distinguere le parole subvocalizzate. 

Nel documento della conferenza, i ricercatori riportano un prototipo di un'interfaccia silenziosa indossabile che avvolge la parte posteriore del collo come una cuffia telefonica e ha appendici curve simili a tentacoli che toccano il viso in sette punti su entrambi i lati della bocca e lungo le mascelle.

Ma negli attuali esperimenti, i ricercatori stanno ottenendo risultati comparabili usando solo quattro elettrodi lungo una mascella, il che dovrebbe portare a un dispositivo indossabile meno invadente.

Dopo aver selezionato le posizioni degli elettrodi, i ricercatori hanno iniziato a raccogliere dati su alcuni compiti computazionali con vocabolario limitato - circa 20 parole ciascuno. 

Uno era aritmetico, in cui l'utente avrebbe sub-localizzato grandi problemi di addizione o moltiplicazione; un altro era l'applicazione di scacchi, in cui l'utente avrebbe segnalato le mosse usando il sistema standard di numerazione degli scacchi.

Quindi, per ogni applicazione, hanno usato una rete neurale per trovare correlazioni tra particolari segnali neuromuscolari e parole particolari. Come la maggior parte delle reti neurali, quella utilizzata dai ricercatori è disposta in strati di nodi di elaborazione semplici, ciascuno dei quali è collegato a diversi nodi negli strati sopra e sotto.

 I dati vengono inseriti nel livello inferiore, i cui nodi lo elaborano e li passano al livello successivo, i cui nodi lo elaborano e li passano al livello successivo, e così via. L'output delle rese dello strato finale è il risultato di qualche compito di classificazione.

La configurazione di base del sistema dei ricercatori include una rete neurale addestrata per identificare le parole subvocalizzate dai segnali neuromuscolari, ma può essere personalizzata per un particolare utente attraverso un processo che riqualifica solo gli ultimi due livelli.

Utilizzando il prototipo indossabile dell’interfaccia, i ricercatori hanno condotto uno studio di usabilità in cui 10 soggetti hanno trascorso circa 15 minuti ciascuno personalizzando l'applicazione aritmetica alla propria neurofisiologia, quindi hanno impiegato altri 90 minuti ad utilizzarlo per eseguire calcoli. In questo studio, il sistema aveva una precisione di trascrizione media di circa il 92 percento.

 

intelligenza

Ma, afferma Kapur, le prestazioni del sistema dovrebbero migliorare con più dati di addestramento, che potrebbero essere raccolti durante il suo utilizzo normale. Sebbene non abbia precisato i numeri, stima che il sistema addestrato meglio che usa per le dimostrazioni abbia un tasso di precisione più alto di quello riportato nello studio relativo alle possibilità di utilizzo in differenti contesti.

Nel lavoro in corso, i ricercatori stanno raccogliendo una grande quantità di dati su conversazioni più elaborate, nella speranza di creare applicazioni con vocabolari molto più ampi.

Il dispositivo per ora è un prototipo e richiede ancora la calibrazione per ogni singolo utente. Questo perché i segnali neuromuscolari di ogni soggetto saranno leggermente diversi, quindi il sistema dovrebbe imparare "l'accento" di ciascun utente.

Per il prototipo AlterEgo, il team di ricerca ha creato compiti con vocabolari limitati di circa 20 parole ciascuno.

Uno era un compito aritmetico, in cui l'utente avrebbe sub-localizzato grandi problemi di addizione o moltiplicazione.

In un altro compito il prototipo gioca a scacchi, l'utente impartisce comandi subvocali usando il sistema standard di numerazione degli scacchi.

Per ogni applicazione, hanno quindi applicato una rete neurale per mappare particolari segnali neuromuscolari a parole particolari.

Una volta programmate le configurazioni di base dei segnali di parola in AlterEgo, è possibile conservare tali informazioni in modo che la riqualificazione per i nuovi utenti sia un processo molto più semplice.

Per studiare le possibilità di utilizzare il dispositivo, i ricercatori hanno impiegato 10 utenti dedicando 15 minuti alla calibrazione del compito aritmetico per la propria neurofisiologia, quindi 90 minuti per utilizzarlo per svolgere le attività.

Il suo tasso di conversione era accurato al 92% il che, secondo Kapur, probabilmente migliorerebbe con l'uso regolare.

Il team sta attualmente raccogliendo dati su conversazioni più complesse per cercare di espandere le capacità di AlterEgo.

"Siamo nel mezzo della raccolta dei dati, e i risultati sembrano buoni", ha detto Kapur. "Penso che un giorno raggiungeremo una conversazione completa."

Se lo faranno, le implicazioni saranno enormi - specialmente se riusciranno a realizzare comunicazioni da uomo a uomo.

Ciò sarebbe utile in ambienti rumorosi o in ambienti in cui è richiesto il silenzio, ma potrebbe anche consentire ai non udenti di comunicare, supponendo che abbiano ancora utilizzato i muscoli nella mascella e nella faccia.

Il team ha presentato il proprio documento agli Atti della Conferenza  che si è tenuta in Giappone dal 7 all'11 marzo 2018.

Può essere consultato visitando questa pagina

https://dam-prod.media.mit.edu/x/2018/03/23/p43-kapur_BRjFwE6.pdf

Non si tratta dell'unico dispositivo di questo genere ad essere in fase di sviluppo, ma è di sicuro meno 'invasivo' per la praticità di utilizzo e l'estetica del design rispetto a quelli medicali.

 Il dr. James M. Gilbert dell'Università di Hull è al lavoro su un'apparecchiatura pensata per i malati di cancro che hanno perso la laringe, ma il suo funzionamento ruota sul piazzamento di magneti impiantati sulle labbra e sulla lingua: molto difficilmente uscirà dal contesto di impiego ospedaliero.

 Sempre nell'ambito dei dispositivi medici, difficile non pensare all'Acat, l'interfaccia predittiva sviluppata da Intel che permetteva a Stephen Hawking di formulare delle frasi, poi pronunciate dal sintetizzatore vocale, con una tastiera software in grado di percepire tramite il sensore a infrarossi posizionato sugli occhiali i movimenti delle guance del luminare recentemente scomparso.

La questione diventa più delicata con Facebook da una parte e Elon Musk 
con la sua Neuralink dall'altra. Entrambe le aziende stanno cercando di costruire interfacce computer – cervello capaci di trasformare i pensieri in testo intercettando i segnali cerebrali e non quelli nervosi.
E a quel punto le problematiche relative alla privacy
 potrebbero assumere dei connotati anche più inquietanti delle doverose riflessioni e mea culpa scaturite dopo lo scandalo Cambridge Analytica.

https://www.youtube.com/watch?v=RuUSc53Xpeg

 

http://news.mit.edu/2017/explained-neural-networks-deep-learning-0414