Tutti abbiamo familiarità con quei piccoli test che ci chiedono di selezionare le immagini contenenti un semaforo, oppure di digitare le lettere distorte che compaiono sullo schermo. Sono i test CAPTCHA, progettati per distinguere gli esseri umani dai programmi automatici. L’idea di fondo è semplice: la vista, con tutta la sua complessità, resta una caratteristica distintiva della nostra specie. O almeno, lo era.
Nel frattempo, nel Parco Nazionale d’Abruzzo, una rete di telecamere monitora giorno e notte gli spostamenti dell’orso bruno marsicano. Un software chiamato WADAS analizza le immagini in tempo reale e riconosce quando un orso si avvicina a una strada trafficata, attivando segnali luminosi per avvisare gli automobilisti. Nel Parco di San Rossore, in Toscana, un sistema analogo traccia i movimenti di cinghiali, daini e lupi attraverso la pineta, classificando automaticamente ogni animale ripreso dalle telecamere. In Svizzera, la Fondazione KORA usa algoritmi per identificare le singole linci dal loro mantello maculato, monitorando gli spostamenti di ogni individuo sul territorio alpino. Promesse di una tecnologia che potrebbe rivoluzionare la conservazione della fauna selvatica, permettendo di raccogliere in pochi secondi dati che prima richiedevano settimane di analisi manuale delle immagini catturate dalle trappole fotografiche.
Ma il vero problema potrebbe non essere se questi sistemi funzionano, bensì come li stiamo utilizzando. C’è il rischio concreto che la facilità con cui l’algoritmo produce risposte ci porti a delegare interamente la conoscenza faunistica alla macchina, perdendo quella competenza critica che solo l’esperienza sul campo può dare. Prendiamo un caso concreto: un lupo e uno sciacallo dorato ripresi di notte da una fototrappola, magari parzialmente nascosti dalla vegetazione, in movimento, con la pelliccia bagnata dalla pioggia. Sono animali che un occhio non esperto può confondere facilmente, eppure hanno implicazioni completamente diverse per la gestione faunistica. Un esperto saprebbe valutare il contesto, notare dettagli comportamentali, mettere in discussione un’identificazione dubbia. Ma se ci affidiamo ciecamente all’etichetta che il software appone sull’immagine, se nessuno verifica più manualmente le classificazioni perché “tanto lo fa l’intelligenza artificiale”, allora gli errori sistematici rischiano di consolidarsi nei database, nelle pubblicazioni scientifiche, e infine nelle decisioni gestionali. A differenza degli arresti sbagliati che prima o poi vengono scoperti, un errore nell’identificazione della fauna può passare inosservato per anni, diventando verità accettata.
Eppure, mentre questi sistemi di visione artificiale promettono meraviglie nel monitoraggio della biodiversità, la stessa tecnologia sta rivelando fragilità inquietanti quando applicata agli esseri umani. Quando Nijeer Parks venne arrestato nel New Jersey, nel suo appartamento stava tranquillamente guardando la televisione. Gli agenti lo prelevarono sulla base di un’identificazione fatta da un algoritmo di riconoscimento facciale che aveva confrontato le immagini di una rapina con il database della polizia. Il problema? L’algoritmo aveva sbagliato tutto. Parks era completamente innocente, eppure ha dovuto passare undici giorni in carcere prima che qualcuno verificasse manualmente l’errore. Non è un caso isolato: negli ultimi anni, almeno quattro persone negli Stati Uniti sono state arrestate ingiustamente a causa di errori simili. E c’è un denominatore comune inquietante: erano tutte di colore.
Questo contrasto ci racconta qualcosa di profondo su dove siamo arrivati con la cosiddetta visione artificiale. Da un lato, i progressi sono stati spettacolari. I sistemi che permettono ai software di interpretare le immagini hanno fatto passi da gigante, fino a superare in alcuni compiti le capacità umane. Dall’altro, rivelano fragilità preoccupanti e perpetuano discriminazioni che pensavamo di poter lasciare al passato. La tecnologia, insomma, non è neutrale come vorremmo credere.
Il problema nasce dal modo in cui queste macchine imparano a vedere. Un computer non guarda un’immagine come facciamo noi. Per lui non esistono volti, alberi o automobili, ma solo una matrice di numeri che rappresentano i pixel. Per insegnargli a riconoscere un oggetto, bisogna mostrargli migliaia di esempi etichettati, finché non impara a individuare schemi ricorrenti. Ma se gli esempi sono sbilanciati, anche l’apprendimento lo sarà. Joy Buolamwini, ricercatrice del MIT, ha fatto un esperimento semplice quanto rivelatrice: ha testato i software di riconoscimento facciale di IBM, Microsoft e di un’azienda cinese chiamata Face++. I risultati erano impressionanti per gli uomini bianchi, con un’accuratezza del novantanove per cento. Ma quando il sistema doveva identificare donne con la pelle scura, la precisione crollava al trentaquattro per cento. Più di due terzi di errori. Non è difficile immaginare le conseguenze in un contesto giudiziario o di sorveglianza.
Il motivo è semplice e allo stesso tempo insidioso: i dataset usati per addestrare questi algoritmi sono composti principalmente da fotografie di uomini caucasici. Non per malafede, ma per inerzia. Le foto stock, gli archivi disponibili, le immagini facilmente reperibili su internet riflettono i pregiudizi e gli squilibri della società. E l’intelligenza artificiale li assorbe come una spugna, trasformandoli in codice che poi prende decisioni su persone reali. Nel 2019, il National Institute of Standards and Technology americano ha pubblicato un rapporto massiccio che confermava questi bias su larga scala, testando decine di sistemi diversi con milioni di immagini. Il problema, concludeva lo studio, è sistemico.
Ma non è solo una questione di discriminazione razziale o di genere. C’è anche un problema più tecnico, che riguarda il modo stesso in cui questi sistemi apprendono. Un gruppo di ricercatori del MIT ha scoperto che i dataset standard usati per addestrare gli algoritmi sono troppo facili, troppo puliti. Contengono immagini ben illuminate, con oggetti inquadrati centralmente, senza occlusioni o distorsioni. Quando il sistema viene poi messo alla prova nel mondo reale, con condizioni di luce difficili, angolazioni strane, oggetti parzialmente nascosti, le prestazioni crollano. È come addestrare un pilota sempre e solo con il bel tempo e poi mandarlo a volare nella nebbia.
Prendiamo un caso ancora più bizzarro, che rivela quanto siano fragili le basi su cui poggia questa tecnologia. I ricercatori dell’Università del North Carolina hanno chiesto a GPT-3, uno dei modelli linguistici più sofisticati al mondo, di riconoscere il colore di una pecora. La risposta? L’algoritmo ha usato “bianca” e “nera” con la stessa frequenza. Non perché vedesse davvero le immagini, ma perché sul web le parole “pecora” e “nera” compaiono insieme tanto spesso quanto “pecora” e “bianca”. Il sistema non stava guardando, stava indovinando basandosi su correlazioni linguistiche. È come chiedere a qualcuno che non è mai uscito di casa di descrivere il mare perché ha letto molti libri sul mare.
Eppure, nonostante questi limiti, la visione artificiale sta già trasformando interi settori industriali. Nelle fabbriche automobilistiche, telecamere ad altissima risoluzione ispezionano ogni centimetro quadrato della carrozzeria per individuare graffi, ammaccature o imperfezioni nella verniciatura. Dove l’occhio umano potrebbe distrarsi dopo ore di lavoro ripetitivo, la macchina mantiene lo stesso livello di attenzione per tutto il turno. Nei magazzini completamente automatizzati, sistemi di visione guidano robot che selezionano e spostano merci con precisione millimetrica. Nell’industria alimentare, algoritmi controllano la qualità della pasta mentre scorre sui nastri trasportatori, verificano l’integrità delle confezioni, individuano corpi estranei che potrebbero contaminare i prodotti.
In Italia, aziende specializzate sviluppano sistemi di visione artificiale per applicazioni sorprendentemente specifiche: dal controllo dei confetti nelle linee di produzione dolciaria, alla verifica della corretta chiusura delle alette degli assorbenti igienici, fino al monitoraggio delle fibre durante la produzione di tessuti pregiati per giacche sartoriali. Sono applicazioni che richiedono precisione assoluta e velocità impossibili per un operatore umano. Un sistema di visione industriale può analizzare un componente in meno di un secondo, comunicare immediatamente l’esito del controllo e, se necessario, attivare lo scarto automatico del pezzo difettoso.
La chiave di volta è stata l’arrivo delle reti neurali profonde, strutture matematiche che imitano vagamente il funzionamento dei neuroni nel cervello. Non si limitano più a individuare bordi e forme semplici, ma costruiscono rappresentazioni gerarchiche dell’immagine: dai pixel ai contorni, dalle forme ai pattern complessi, fino a riconoscere interi oggetti e scene. I trasformatori visivi, l’ultima evoluzione di queste architetture, scompongono le immagini in piccole porzioni e le analizzano in parallelo, creando connessioni tra regioni distanti che potrebbero essere correlate. È un po’ come quando guardiamo una fotografia e il nostro cervello collega istantaneamente il colore del cielo con le ombre sugli edifici per capire che ora del giorno è.
Alcuni ricercatori stanno provando a costruire sistemi che ragionano sugli oggetti come entità separate, invece di limitarsi a riconoscere pattern di pixel. L’idea è semplice: un tavolo rimane un tavolo sia che sia fotografato da sopra, di lato, parzialmente coperto da altri oggetti o sotto una luce strana. Jeffrey Bowers dell’Università di Bristol e Guillermo Puebla dell’Universidad de Tarapacá in Cile hanno testato questi modelli orientati agli oggetti chiedendo loro di abbinare forme irregolari. I risultati sono stati incoraggianti: là dove i sistemi tradizionali riuscivano a malapena nel sessantacinque per cento dei casi, i nuovi modelli arrivavano all’ottantasei per cento. Non male, anche se ancora lontano dalle capacità umane.
Questi progressi aprono prospettive affascinanti. Già oggi esistono robot agricoli volanti che raccolgono frutta nei frutteti, riconoscendo con precisione quali mele o pesche sono mature e manovrando tra i rami senza danneggiare i frutti. Sistemi di visione artificiale possono guardare un video e rispondere a domande complesse su quello che è successo, inferendo abilità, intenzioni, relazioni causali. Nell’ambito medico, algoritmi analizzano radiografie e scansioni tomografiche per individuare tumori o altre anomalie, spesso con tassi di accuratezza paragonabili a quelli di medici esperti.
Ma la strada è ancora lunga e piena di insidie. Esiste quello che gli esperti chiamano il problema della “scatola nera”: quando un algoritmo commette un errore, è praticamente impossibile capire perché. Ha elaborato miliardi di operazioni matematiche per arrivare a quella conclusione, e nessun essere umano può ripercorrere tutto il processo. È come avere un dipendente brillantissimo ma completamente incapace di spiegare il proprio ragionamento. In contesti dove le decisioni hanno conseguenze importanti sulla vita delle persone, questo è un problema serio.
E poi c’è la questione etica che va oltre gli errori tecnici. Il riconoscimento facciale, anche quando funziona perfettamente, solleva interrogativi sulla sorveglianza di massa e sulla privacy. Alcuni paesi lo usano già per tracciare i movimenti dei cittadini negli spazi pubblici, identificare manifestanti, costruire profili comportamentali dettagliati. In Europa il dibattito è acceso: il GDPR pone già limiti stringenti, e c’è chi propone di vietare del tutto l’uso di queste tecnologie in certi contesti. Il Parlamento Europeo ha recentemente ampliato l’elenco delle applicazioni vietate, includendo il riconoscimento delle emozioni nelle forze dell’ordine e a scuola, e l’identificazione biometrica in tempo reale in luoghi pubblici.
Il paradosso è che quanto più questi sistemi migliorano, tanto più i loro errori diventano pericolosi. Perché tendiamo a fidarci di una tecnologia che funziona il novantanove per cento delle volte, dimenticando che quel restante uno per cento può colpire in modo sistematico sempre le stesse categorie di persone. E perché l’efficienza che guadagniamo nel controllo qualità industriale o nella diagnostica medica può facilmente trasformarsi in strumento di controllo sociale se applicata senza cautele al riconoscimento delle persone.
I ricercatori lo sanno bene. Bowers, quello dell’Università di Bristol, ama ripetere una frase che sintetizza bene il punto: il sistema visivo umano può fare cose strane, certo, può essere ingannato da illusioni ottiche o distrarsi. Ma un gatto non verrà mai scambiato per del guacamole. È un dettaglio piccolo, quasi ironico, eppure racchiude la distanza che ancora ci separa dal replicare davvero la visione umana. Perché vedere non è solo riconoscere pattern, ma comprendere il mondo in tutta la sua complessità, con il buon senso che deriva dall’esperienza di avere un corpo e muoversi nello spazio fisico.
Per ora, le macchine imparano scorciatoie. Individuano correlazioni statistiche nei dati, ma non capiscono davvero cosa stanno guardando. E finché sarà così, avremo bisogno di vigilare attentamente su come usiamo questa tecnologia, su chi ha accesso ai dati, su quali decisioni deleghiamo agli algoritmi. Perché il rischio non è che i computer diventino intelligenti come noi. Il rischio è che noi ci dimentichiamo che non lo sono.
(Autore: Paola Peresin)
(Foto: archivio Qdpnews.it)
(Articolo di proprietà di Dplay Srl)
#Qdpnews.it riproduzione riservata








