“Quando sono intenti a esaminare un uomo, gli occhi dell'animale sono vigili e diffidenti. Quel medesimo animale può benissimo guardare nello stesso modo un'altra specie. Ma nessun'altra specie, a eccezione dell'uomo, riconoscerà come familiare lo sguardo dell'animale. Gli altri animali sono tenuti a distanza da quello sguardo. L'uomo diventa consapevole di se stesso nel ricambiarlo”.
J.Berger, Perché guardiamo gli animali? 1
L'intelligenza artificiale ha un rapporto strettissimo con gli animali; video e immagini di gatti sono stati elementi fondamentali per il training dell'IA, ossia per insegnare alle macchine a vedere e dunque riconoscere questi animali domestici. Riconoscere per poter distinguere e poi, di conseguenza, produrre nuove immagini. In particolare, spopolano sul web foto di animali domestici, gatti perlopiù, generate da algoritmi. È interessante notare come queste immagini, a differenza di quelle che ritraggono volti umani siano permeate di errori che consistono in una mancata corrispondenza con il modello originale; gatti con sei zampe, quattro occhi, senza bocca, insomma, anatomie impossibili che ci spingono a interrogarci su cosa sia andato storto nel training dell'IA per renderla così vulnerabile di fronte alla creazione della semplice immagine di un gattino.
Se si pensa all'allenamento dell'Intelligenza Artificiale è facile ipotizzare cosa sia andato storto.
Queste immagini sono spesso generate da quella che chiamiamo GAN, ossia Generative Adversarial Network, Rete Generativa Avversaria. Capire come funziona una rete generativa avversaria ci aiuterà a comprendere quali possano essere le criticità insite nel processo di creazione di queste specifiche immagini.
Il tutto ha inizio con un addestramento – training - della rete neurale, che avviene grazie ad una serie di input, ossia immagini che ritraggono uno specifico soggetto, ad esempio un gatto. Vi è poi un Generatore, che introduce immagini casuali – fake images – che vengono esaminate dal Discriminatore. Quest'ultimo, grazie all'addestramento, è in grado di distinguere le immagini “sbagliate” che rimanda indietro al Generatore, assegnandogli un valore che di fatto corrisponde all'errore, ossia alla distanza dal modello di riferimento. In tal modo il Generatore impara quali sono i parametri riconosciuti dal Discriminatore e sarà successivamente in grado di eludere il test al quale vengono sottoposte le immagini.
A questo punto è utile esaminare le immagini di partenza, quelle che servono ad addestrare la rete neurale. Le immagini di animali hanno una caratteristica ricorrente: sono accompagnate da forme che si riferiscono chiaramente alla presenza di esseri umani, tappeti, oggetti legati alla vita domestica degli animali da compagnia. Per farla breve sono, come abbiamo detto, poco standardizzate, per cui l'insieme di immagini iniziali può essere fuorviante per la rete neurale. Quest'ultima, come spiegano gli stessi fondatori di DeepDream2 in un post del 2015 su Google AI Blog3, ha difficoltà a distinguere un determinato soggetto da un altro quando le immagini di riferimento sono perlopiù caratterizzate dalla compresenza di entrambi gli elementi.
In un articolo di Adrienne Lafrance pubblicato su The Atlantic nel 2015, vengono riportate altre dichiarazioni interessanti dei creatori di Deep Dream:
“This network was trained mostly on images of animals, so naturally it tends to interpret shapes as animals. But because the data is stored at such a high abstraction, the results are an interesting remix of these learned features”.4
È affascinante notare come le immagini di animali da compagnia - così popolari sul web tanto da essere protagonisti di video con milioni di visualizzazioni, hashtag e ricerche, in pratica vere e proprie star del mondo virtuale - diventino in mano all'intelligenza artificiale visioni allucinate di una mente distorta o personaggi inquietanti di un incubo, piuttosto che immagini da sogno.
Nel ricercare le ragioni di questa somiglianza Adrienne Lafrance nel già citato articolo riporta dichiarazioni di diversi ricercatori che sottolineano l'effettiva pregnanza di simili analogie che, se non altro, sono la traccia di un collegamento tra il funzionamento della rete neurale artificiale e quello della corteccia visiva.
“By replicating the architecture of the brain in computer form, then, scientists may better understand the human way of seeing the world—both as it is, and as it appears to be”. 5
All'interno del suo libro Nuova Era Oscura, James Bridle, parlando della nascita di DeepDream, scrive:
“L'ingegnere di DeepDream, Alexander Mordvintsev, concepì il primo ciclo del programma alle due del mattino, dopo essersi risvegliato da un incubo. La prima immagine che sottopose al sistema fu quella di un gattino seduto sul troncone di un albero, e il prodotto dell'elaborazione fu un vero e proprio mostro: un ibrido gatto/cane con varie paia di occhi e nasi umidicci al posto delle zampe. Nel 2012 Google aveva rilasciato una prima rete di classificazione priva di istruzioni, impegnata su 10 milioni di video presi casualmente da YouTube: la prima cosa che questa aveva imparato a riconoscere, senza alcun sollecito esterno, era stato proprio il muso di un gatto – l'animale protettore di internet. La rete di Mordvinstsev sognò insomma quello che conosceva meglio, ovvero altri gatti e altri cani. Le prove successive produssero paesaggi infernali à la Bosch popolati da architetture infinite, con archi, pagode, ponti e torri in progressioni frattali senza fine, a seconda dei neuroni attivati. L'unico elemento ricorrente nelle creazioni di DeepDream è l'immagine dell'occhio: occhi di cani, di gatti, di esseri umani; l'onnipresente occhio vigile della rete”.6
Come sottolinea in seguito Bridle nel suo libro, il procedimento messo in atto da DeepDream è analogo a quello con il quale riconosciamo delle forme di volti, animali o altro, all'interno delle nuvole; partendo da un insieme caotico, da una forma naturale di astrazione, la corteccia visiva va a caccia della forma, dell'ordine, di un qualcosa di riconoscibile. Allo stesso modo la rete neurale è in grado di analizzare l'input che gli viene fornito, ricercando delle forme memorizzate e replicandole all'interno dell'immagine iniziale.
Queste immagini generate da algoritmi colpiscono anche per un altro aspetto: sono totalmente avulse dal concetto di tempo. Si tratta in effetti di frazioni minuscole di una realtà altra, ricordi fasulli di un non-essere. Questa atemporalità non riguarda solo il passato, frammento temporale legato all'immagine fotografica, ma anche e soprattutto il futuro: queste immagini ritraggono esseri che non mutano, che esistono solo all'interno di quel rettangolo digitale. Il loro passato è il mondo infinito di immagini, il training che ha portato alla loro realizzazione. Il loro futuro è la rigenerazione di nuove immagini, sempre diverse, sempre più reali.
1 John Berger, Perché guardiamo gli animali?, in Sul guardare, Il saggiatore, Milano, 2017, p.13;
2 Deep Dream è un programma di Google progettato al fine di riconoscere (e dunque classificare) volti e altre forme all'interno di scenari eterogenei ed è utilizzata per il riconoscimento di volti, animali e altri soggetti all'interno di Google Photos.
3 Per l'articolo completo: Alexander Mordvintsev, Software Engineer, Christopher Olah, Software Engineering Intern and Mike Tyka, Software Engineer, Inceptionism: going deeper into neural networks 17 giugno 2015, Google AI Blog, https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html;
4 “Questa rete è stata allenata prevalentemente con immagini di animali, quindi tende naturalmente a interpretare le forme come animali. Ma dato che i dati sono memorizzati in modo così astratto i risultati sono un interessante remix di queste caratteristiche apprese” Adrienne Lafrance ,When Robots Hallucinate. What do Google's trippy neural network-generated images tell us about the human mind?, The Atlantic, 3 settembre 2015, theatlantic.com;
5 “Replicando la struttura del cervello in forma computerizzata, poi, gli scienziati potrebbero comprendere meglio il modo in cui gli esseri umani vedono il mondo - sia come esso è realmente, sia come sembra essere”. ibidem ;
6 James Bridle, Nuova Era Oscura, Nero edition, Collana Not, Roma 2019 (titolo originale: New Dark Age. Technology and the End of the Future, 2018)
Bibliografia:
John Berger, Sul guardare, Il saggiatore, 2017
James Bridle, Nuova Era Oscura, Nero Editions, Collana Not, Roma 2019 (titolo originale: New Dark Age. Technology and the End of the Future, 2018)
Sitografia:
https://www.wired.com/2012/06/google-x-neural-network/
https://www.wired.com/2015/12/inside-deep-dreams-how-google-made-its-computers-go-crazy/
https://www.theatlantic.com/technology/archive/2015/09/robots-hallucinate-dream/403498/
https://www.wired.co.uk/article/google-deep-dream
https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html