Dal concetto di pixel ai sensori ottici per le fotocamere digitali: la visione artificiale deve molto alla ricerca spaziale. Ora che le telecamere possono essere incorporate in ogni dispositivo, che effetti hanno sui nostri movimenti e la nostra società? Puoi scoprilo alla mostra When they see us, dal 17 al 28 settembre 2024 a Bologna, a cura dell’organizzazione culturale Sineglossa, a cui è affidata la direzione editoriale di Mangrovia: ecco i dettagli
Dietro la lente, un sensore spaziale: le più comuni videocamere utilizzano il sensore CMOS a pixel attivi, sviluppato nei primi anni Novanta al Jet Propulsion Laboratory della Nasa1.
Servivano fotocamere più piccole da installare sulle navicelle per i viaggi extraorbitali: il team di Eric Fossum risolse il problema configurando le componenti del nuovo sensore ottico in un solo singolo chip, che conteneva anche amplificatori per potenziare il segnale elettrico in uscita. Meno spazio materiale, meno consumi energetici, più efficacia nell’elaborazione dell’immagine. Da allora, le foto e videocamere digitali sono diventate sempre più piccole, e sono state incorporate nei cellulari, nei computer, negli occhiali smart, sulle automobili e installate agli incroci delle strade e nei luoghi pubblici.
Tanti piccoli occhi, da cui guardiamo e siamo guardati. Più diminuiscono le dimensioni dei dispositivi, più aumenta lo spazio della sorveglianza?
La differenza tra visione umana e visione artificiale
Il fondo dei nostri bulbi oculari è ricoperto da una sottilissima membrana, la retina, su cui sono posizionate le cellule che recepiscono la luce (fotorecettori) e convertono le onde luminose in segnali elettrici, che attraverso il nervo ottico arrivano al cervello. È solo all’interno del cervello che l’immagine viene elaborata, “composta” in 3D, in un processo psichico e multisensoriale, analogico e digitale, in cui la luce diventa informazione e significato. I computer possono riprodurre questo processo? Per rispondere a questa domanda è nata nel secolo scorso la computer vision, il campo di studi interdisciplinare che si occupa di visione artificiale.
Annuncio sponsorizzato
Sponsorizza con noi
Siamo ancora lontani dalla visione “high level”: un sistema informatico non riesce (ancora?) a ricostruire e analizzare l’intero contesto in 3D in cui si inserisce un’immagine. Molti progressi sono stati fatti invece sulla “early vision”, cioè sull’acquisizione, la pre-elaborazione e la codifica delle informazioni visive senza interpretazione del contesto. Nei sistemi di visione artificiale, il sensore ottico riproduce la funzione dei fotorecettori biologici: cattura la luce, la converte in elettricità e invia il segnale al calcolatore elettronico-cervello.
Ogni immagine digitale, come nel puntinismo pittorico, viene scomposta in puntini, i pixel, chiamati così dall’ingegnere Frederic Billingsley del Jet Propulsion Laboratory per descrivere le porzioni di immagine che arrivavano dalle scansioni delle sonde spaziali2. Sia che siano disposti su una griglia, sia che descrivano figure geometriche attraverso equazioni matematiche, i pixel dell’immagine arrivano al computer come un insieme di numeri. Come quindi il calcolatore elettronico riesce a comporre l’immagine e trovarvi dentro l’oggetto che cerca?
Attraverso specifici algoritmi che gli indicano “cosa cercare”: algoritmi precedentemente allenati attraverso tecniche di apprendimento automatico (machine learning) sempre più raffinate (deep learning), che vanno sotto l’ampio cappello dell’Intelligenza Artificiale. Sia che impari attraverso dei modelli supervisionati, quindi associando alla stessa etichetta determinate caratteristiche già classificate, o che impari “da sé”, trovando le somiglianze tra dati non classificati, il sistema di visione artificiale estrarrà dall’immagine gli elementi o le porzioni di interesse, le confronterà con quanto appreso ed eseguirà il compito per cui è stato programmato. Riconoscere la nostra faccia, ad esempio. O dirci quello che sta guardando.
Quando le macchine ci guardano
«Il Surveillance Speaker è attivo dal 2018: l’altoparlante descrive ciò che una telecamera rotante sta osservando. Sei anni fa, la tecnologia non consentiva di vedere molti dettagli, come il tipo di vestiti indossati dalle persone, e c’era ancora differenza tra la voce artificiale e quella naturale. Oggi non più. È un’opera che aggiorno ogni settimana, c’è sempre qualcosa di nuovo nelle tecnologie che sto utilizzando». Dries Depoorter è l’artista belga che con The Follower ha mostrato al mondo come sia possibile incrociare le foto geolocalizzate e pubblicate su Instagram con i dati aperti delle videocamere di sorveglianza degli spazi pubblici per ricostruire i movimenti di un individuo. «Quando ho frequentato la Media Arts a Gand ho scoperto che si può accedere ai dati e le immagini delle telecamere aperte, cioè collegate a Internet con una password standard o senza password” racconta “Questa scoperta ha dato il via a molti dei miei progetti sulla sorveglianza».
Dries Depoorter è un artista belga che crea installazioni interattive, applicazioni e giochi su privacy, intelligenza artificiale, sorveglianza e social media. Ha esposto al Barbican, al MUTEK Festival, ad Art Basel, a Bozar, al Para Site di Hong Kong, a Mozilla – The Glass Room di San Francisco, all’HEK di Basilea, a WIRED, all’IDFA Doclab, al Mundaneum, al FOMU, ad Ars Electronica, all’Athens Digital Art Festival, all’Art Soutterain, al festival STRP, all’Heidelberger Kunstverein. È stato nel 2023 tra le 25 persone premiate da Mozilla per il contributo a un Internet e a un mondo migliori.
Scopri di piùThe Surveillance Speaker è una delle tre opere di Depoorter allestite per la mostra When they see us – Quando le macchine ci guardano, dal 17 al 28 settembre 2024 in Biblioteca Salaborsa a Bologna. È il primo evento di The Next Real, la rassegna su arte, IA e società a cura dell’associazione culturale Sineglossa. “Non sono stato molto in Italia, quindi non vedo l’ora di arrivare” racconta Depoorter. In mostra anche Border Birds (2022-2024) e Jaywalking (2015-2024): se la prima, realizzata con la sorella Bieke, cattura le immagini di uccelli che attraversano i confini tra Messico e Stati Uniti, Marocco e Spagna, Grecia e Turchia, Francia e Inghilterra, la seconda chiama in causa direttamente chi sta guardando i video in tempo reale. Infatti, Jaywalking è composta da una serie di schermi che riportano in live streaming le immagini delle webcam di sorveglianza installate agli incroci stradali di diversi Paesi: chi attraversa fuori dalle strisce può essere segnalato alla stazione di polizia più vicina al luogo del pedone. Basta premere un pulsante e attivare, in sequenza, prima lo screenshot e poi la mail alla polizia. Tutto in automatico. Quante volte è stato schiacciato il pulsante? «L’ho monitorato dopo qualche anno» spiega Depoorter. «Ci sono delle variazioni tra Paesi e rispetto agli allestimenti delle mostre, ma, specialmente negli ultimi tempi, il pulsante è stato premuto la maggior parte delle volte».
Come mai? La possibile spiegazione è rimandata a chi osserverà e interagirà alla mostra: «Cerco di mantenere il mio lavoro più semplice possibile» chiosa l’artista «Non voglio dare spiegazioni aggiuntive». La mostra, che prevede l’installazione del progetto di data visualization The Glass Room Misinformation Edition a cura della ong Tactical Tech, è promossa dalle associazioni no profit The Good Lobby e Hermes Center for Digital Rights in collaborazione con info.nodes, tutte impegnate nella promozione dei diritti digitali.
Davide del Monte è fondatore e presidente dell’associazione info.nodes e direttore esecutivo dell’Hermes Center. Attivista e ricercatore, è specializzato nella progettazione e nell’applicazione di politiche anticorruzione e di trasparenza, nonché in campagne e advocacy. È stato direttore esecutivo di Transparency International Italia e presidente della Commissione indipendente del Comune di Milano per i whistleblower.
Scopri Hermes Center Scopri Info.nodes«Fino a 15 anni fa, quando sollevavamo il tema del riconoscimento di massa negli spazi pubblici ci veniva risposto che si trattava di questioni legate a regimi autoritari, come la Cina, e non avrebbero potuto riguardare l’Europa» ricorda Davide Del Monte, Executive Director dell’Hermes Center e fondatore di info.nodes. «In realtà, lo sviluppo di politiche securitarie sta portando a una normalizzazione della militarizzazione dei luoghi pubblici che passa anche dall’utilizzo di queste tecnologie. E i migranti ai confini sono spesso utilizzati come cavie per sperimentarne il funzionamento».
Il regolamento europeo per l’intelligenza artificiale, l’AI Act, prevede il divieto di utilizzo di riconoscimento biometrico negli spazi pubblici ma con diverse eccezioni legate a fattispecie criminali. «La prevenzione di alcuni reati, come lo spaccio di stupefacenti, può aprire la porta alle videocamere di riconoscimento facciale in qualsiasi parco» spiega Del Monte. «Questa mostra è una delle diverse attività che rivolgiamo alla cittadinanza, insieme alla formazione per giornalisti e per ong che si occupano di migrazione e all’advocacy istituzionale». E tu come reagisci, quando ti senti osservato/a?
- Per saperne di più sul sensore CMOS, si veda Fossum E. R. (1993), Active pixel sensors: are CCDs dinosaurs?, in SPIE Proceedings Vol. 1900: Charge-Coupled Devices and Solid State Optical Sensors III, vol. 1900, International Society for Optics and Photonics, 12 luglio 1993, pp. 2–14 ↩︎
- Per approfondire, si veda Billingsley F.C. (1967), Processing Ranger and Mariner Photography, in Computerized Imaging Techniques, Proceedings of SPIE, Vol. 0010, International Society for Optics and Photonics, Jan. 1967 (Aug. 1965, San Francisco), pp. XV-1–19. ↩︎