Occhi e Orecchi intelligenti per l'automobile del futuro.

Un sistema capace di rilevare l’arrivo dei mezzi di soccorso può rendere la guida più sicura anche quando l’autista è distratto.

Leonardo Gabrielli, Adriano Mancini, Francesco Violi, Francesco Caporaletti

Molto spesso mentre si è alla guida, specie in mezzo al traffico, la distrazione può portare ad accorgersi molto tardi della presenza di un mezzo di soccorso in arrivo, come un’ambulanza o una unità dei vigili del fuoco. Le auto moderne hanno un ottimo isolamento acustico dall’esterno e dei potenti impianti per l’ascolto della musica, che però rischiano di ridurre la nostra attenzione a questo tipo di mezzi, ritardando il momento in cui possiamo fare largo ai mezzi di soccorso e rischiando potenziali incidenti.

Per questo motivo, uno degli obiettivi del progetto “smart multimedia MOnitoring systems for advanced HMI technologies in living environments”, soprannominato MOHMI, è la prototipazione di un sistema autonomo per supportare l’autista alla guida in queste situazioni.
Il sistema si basa su tecniche di “Machine Listening”, ovvero tecniche di Intellligenza Artificiale in grado di catturare tramite apposite “orecchie” un evento sonoro particolare, come l’arrivo di un mezzo di soccorso a sirena spiegata. Oltre alle orecchie artificiali, il sistema ha anche un suo “occhio” in grado di controllare, all’insorgere del suono di sirena, se l’autista si è accorto o meno della situazione di emergenza e se così non fosse, l’auto avvisa l’autista con un segnale dedicato che deve fare attenzione all’arrivo del mezzo di soccorso.

Tutto questo va in un’ottica di maggiore sicurezza ma anche nella direzione, ancora futuristica, di un’auto a guida autonoma sempre più attenta.

Per raggiungere questo obiettivo, i ricercatori hanno messo a punto un’auto con tanti microfoni, a fare da orecchie, e l’hanno condotta nel traffico, alla ricerca di suoni di sirene. L’automobile è stata strumentata quasi come fosse un’auto da spionaggio, come quella di James Bond, andando a nascondere persino dei microfoni dietro la targa. In realtà questi microfoni, che vediamo in Fig. 1, non servono a spiare nessuno, ma sono protetti dalle intemperie e dalle forti correnti d’aria che alle velocità normali di un’automobile rischierebbero di far catturare ai microfoni solamente sibili e fruscii. Il posizionamento permette di catturare i suoni in arrivo dal retro dell’auto, che è una delle direzioni a cui siamo meno attenti.

I microfoni posizionati dietro la targa.
Figura.1 I microfoni posizionati dietro la targa.

 

In questa prima fase sono stati registrati e raccolti suoni utili, come quelli delle sirene, e tanti rumori di traffico. Questi non saranno certo piacevoli da ascoltare, ma gli algoritmi di Intelligenza Artificiale utilizzati ne hanno bisogno, per imparare a discriminare cos’è buono (la sirena) e cosa no. Infatti, nella miriade di rumori che per strada ascoltiamo tutti i giorni ci sono suoni di tutti i tipi, che un’Intelligenza Artificiale alle prime armi non sa distinguere come invece facciamo noi. Alcuni suoni, come quelli di clacson o altri tipi di allarme, potrebbero sembrare simili a quelli della sirena a prima vista, come nell’immagine che vediamo sotto.

Figura.2 Due spettrogrammi a prima vista simili: a sinistra quello di una strada trafficata con un suono di clacson e a destra quello di una strada trafficata dove appare il suono dell’ambulanza. Come si può vedere, sia il clacson che la sirena sono connotati da righe orizzontali, ma i sistemi di riconoscimento devono imparare a distinguere tra i due.

Figura.2 Due spettrogrammi a prima vista simili: a sinistra quello di una strada trafficata con un suono di clacson e a destra quello di una strada trafficata dove appare il suono dell’ambulanza. Come si può vedere, sia il clacson che la sirena sono connotati da righe orizzontali, ma i sistemi di riconoscimento devono imparare a distinguere tra i due.
Figura.2 Due spettrogrammi a prima vista simili: il primo quello di una strada trafficata con un suono di clacson e il secondo quello di una strada trafficata dove appare il suono dell’ambulanza. Come si può vedere, sia il clacson che la sirena sono connotati da righe orizzontali, ma i sistemi di riconoscimento devono imparare a distinguere tra i due.

 

Quello che vediamo nell’immagine è una cosiddetta rappresentazione tempo-frequenza, ovvero una trasformazione di quello che è un segnale monodimensionale (ad esempio un suono registrato da un microfono), in un segnale bidimensionale, in cui alle ascisse compare il tempo e alle ordinate la frequenza del segnale. Questo è uno dei tipi di segnali che vengono spesso forniti ai sistemi di Intelligenza Artificiale per istruirli e fargli apprendere a classificare un suono di interesse (in questo caso la sirena) rispetto ad un suono nella norma (rumore di fondo, passaggio di automobili, etc.).

La raccolta di suoni è anche necessaria per stabilire la direzione di provenienza del veicolo. Infatti, attraverso una serie di microfoni posizionati intorno all’auto è possibile stabilire la direzione di arrivo del veicolo e aiutare l’autista a capire subito in che direzione guardare per osservare il passaggio del mezzo di soccorso. Allo stato attuale i ricercatori stanno mettendo a punto delle tecniche che, sfruttando le informazioni provenienti da più microfoni siano in grado di indicare rapidamente all’autista qual’è la direzione di arrivo. L’obiettivo è far sì che classificazione e stima della direzione d’arrivo siano più precise possibile, ovvero che la loro probabilità di successo sia del 99% o superiore anche in condizioni difficili, ad esempio con rumore elevato.

Un altro lavoro importante che i ricercatori hanno svolto fin qui è quello di analisi del comportamento dell’autista all’arrivo del mezzo di soccorso. Per questo hanno fatto uso della camera semianecoica presso l’Università Politecnica delle Marche per i loro esperimenti. Una camera semianecoica è un ambiente chiuso dove il suono viene estremamente smorzato, rimuovendo l’effetto delle pareti e permettendo di simulare altri ambienti. La camera in dotazione all’università è molto grande ed è stata progettata per ospitare un’automobile. Per questo è stato possibile far entrare l’auto e generare il suono di una sirena in arrivo, monitorando le reazioni di parecchi soggetti tramite una telecamera.
 

La camera semianecoica dell’UNIVPM con dentro l’automobile usata negli esperimenti.
Figura.3 La camera semianecoica dell’UNIVPM con dentro l’automobile usata negli esperimenti.

 

Le reazioni dei soggetti sono molto limitate, in genere l’occhio si sposta verso lo specchietto retrovisore, senza altri movimenti evidenti. Tuttavia, attraverso apposite telecamere è possibile osservare lo spostamento dell’iride e quindi analizzare la direzione dello sguardo. Questo sistema permetterà all’Intelligenza Artificiale di capire se l’autista è al corrente dell’arrivo del mezzo di soccorso.

In particolare, si stanno sperimentando anche dei sensori fortemente innovativi. Tali sensori prendono il nome di camere ad eventi anche conosciute come Dynamic Vision System (DVS). Questa tecnologia garantisce un elevato range dinamico, aspetto di fondamentale importanza negli scenari automotive dove le scene sono spesso dominate da zone con diverse condizioni di luminosità (es. sole basso all’orizzonte, ingresso/uscita da una galleria). Mediante tali camere è possibile rilevare ad esempio situazioni come l’apertura e chiusura degli occhi/bocca con una elevata affidabilità anche in condizioni critiche dovute a variazioni repentine della luminosità della scena. Il sistema che si sta sviluppando consente di valutare l’apertura/chiusura degli occhi, il movimento della testa ed anche l’apertura/chiusura della bocca. Ciò viene effettuato mediante delle reti neurali addestrate per tale scopo; il processamento dei dati provenienti dal sistema di visione avviene in tempo reale grazie ad acceleratori hardware dedicati.

Figura.4 visualizzazione degli eventi relativi al movimento di un volto mediante camera ad eventi; estrazione viso, occhi, bocca; esempi di immagini usate per addestrare la rete neurale per il riconoscimento dell’apertura / chiusura degli occhi.
Figura.4 Visualizzazione degli eventi relativi al movimento di un volto mediante camera ad eventi; estrazione viso, occhi, bocca; esempi di immagini usate per addestrare la rete neurale per il riconoscimento dell’apertura / chiusura degli occhi.

 

Unitamente alla camera ed eventi si stanno sperimentando dei sistemi di visione di tipo stereo utilizzando due videocamere per calcolare la profondità e consentire ai dispositivi di vedere, comprendere, interagire e apprendere dal loro ambiente. Attraverso una serie di algoritmi è possibile processare il flusso dati per stimare la direzione dello sguardo del guidatore. Ciò è necessario per valutare il grado di attenzione del guidatore a seguito di evento inaspettato come l’avvicinarsi di un mezzo di soccorso. Si vuole infatti valutare se il guidatore verifica negli specchietti retrovisori l’arrivo del veicolo di emergenza ed in caso il sistema può avvisare il conducente attraverso un messaggio acustico al fine di attuare le dovute precauzione per agevolare il passaggio.

Figura. 5 Stima della direzione dello sguardo mediante sistema di visione basato su stereo-camera.
Figura.5 Stima della direzione dello sguardo mediante sistema di visione basato su stereo-camera.

 

Al momento i ricercatori stanno studiando l’insieme di tutti questi algoritmi e sistemi complessi per poterli integrare in un prototipo che ha lo scopo di validare il lavoro. Dovranno essere messi alla prova gli algoritmi e ottimizzati per fornire il massimo livello di sicurezza. Poi sarà necessario un importante lavoro di integrazione di hardware e software per poter funzionare all’interno di una automobile, che sarà utilizzata durante tutto il progetto.