Sostenibilità e intelligenza artificiale: perché delegare è un errore

Mi ritrovo, mio malgrado, in una riunione dove si discute di delegare all’intelligenza artificiale processi decisionali complessi. Sostenibilità, tra gli altri. È un argomento considerato “al passo coi tempi”, e capisco immediatamente che non si tratta di usare l’AI come supporto; l’obiettivo è affidarle la formulazione di strategie, l’individuazione di priorità, la proposta di soluzioni. L’entusiasmo è palpabile, le aspettative alte. Eppure, mentre ascolto, emerge con chiarezza un problema; non c’è vera consapevolezza di come funzionano questi sistemi. Non parlo del dettaglio tecnico, che resta lecitamente appannaggio degli specialisti, ma dell’architettura fondamentale; ciò che possono e non possono fare per loro stessa natura.

Questo non è un problema di competenze individuali, ma di scarsità diffusa di conoscenza su strumenti che vengono presentati, e percepiti, come oracoli capaci di elaborare giudizi, quando in realtà sono costruiti per produrre simulazioni linguistiche di processi decisionali, non processi decisionali veri. La distinzione non è sottile, è radicale. Ed è gravissimo decidere di affidare responsabilità strategiche a uno strumento di cui non si comprende il funzionamento essenziale. Forse non solo per colpa di chi decide, ma per un problema culturale sistemico: la velocità con cui questi sistemi sono diventati pervasivi ha di gran lunga superato la diffusione di una comprensione critica della loro natura.

In questi stessi giorni, a Copenaghen, si sta svolgendo EurIPS, la versione europea di NeurIPS, la principale conferenza annuale su machine learning, intelligenza artificiale e neuroscienze computazionali, fondata nel 1987. EurIPS è un appuntamento ufficialmente riconosciuto da NeurIPS, dove viene presentato un sottoinsieme accuratamente selezionato dei paper più rilevanti, attraverso talk orali, spotlight e poster. Qui si discute di AI in modo serio, con rigore scientifico, lontano dall’hype mediatico. Ed è proprio da questo contesto che arriva una ricerca che illumina, con dati alla mano, il cuore del problema.

Una ricerca presentata proprio in occasione di NeurIPS 2025, dal titolo “Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)“, documenta con precisione chirurgica cosa accade quando si chiede a questi sistemi di affrontare domande aperte, quelle che non hanno una risposta univoca ma richiedono creatività, capacità di sintesi, pensiero originale. Lo studio, condotto da un team dell’University of Washington e di altre istituzioni di ricerca, ha analizzato sistematicamente oltre 70 modelli linguistici di ultima generazione, sottoponendoli a migliaia di domande estratte da conversazioni reali. Il risultato non è sorprendente per chi conosce l’architettura di questi sistemi, ma dovrebbe esserlo per chi intende affidargli decisioni strategiche: questi sistemi non generano vera diversità di pensiero, ma convergono in modo quasi ossessivo sugli stessi concetti, sulle stesse metafore, sulle stesse formulazioni.

Gli autori hanno sottoposto oltre 70 modelli linguistici diversi, dai più potenti sistemi proprietari come GPT-4 e Claude, ai modelli open source come Llama e Qwen, a migliaia di domande aperte estratte da conversazioni reali. Quando viene chiesto di “scrivere una metafora sul tempo”, per esempio, la stragrande maggioranza delle risposte si raggruppa intorno a due sole immagini: “il tempo è un fiume” oppure “il tempo è un tessitore”. Non importa quale modello venga interrogato, non importa quante volte si ripeta la domanda variando i parametri di generazione: le risposte convergono sempre sugli stessi pattern, con variazioni minime nella formulazione ma sostanzialmente identiche nel contenuto.

Questo fenomeno, che i ricercatori hanno battezzato “Artificial Hivemind”, l’alveare artificiale, si manifesta in due dimensioni. Da un lato c’è la ripetitività intra-modello: lo stesso sistema, interrogato più volte sulla stessa domanda, produce risposte molto simili tra loro, anche quando viene istruito espressamente a essere creativo e diversificato. I ricercatori hanno scoperto che anche usando parametri di campionamento aggressivi, progettati proprio per aumentare la varietà, in circa l’80% dei casi le risposte mantengono una similarità semantica superiore al valore 0,8 su una scala dove 1 indica identità completa. Dall’altro c’è l’omogeneità inter-modello: modelli sviluppati da aziende diverse, addestrati su dati diversi, con architetture diverse, producono risposte straordinariamente sovrapponibili, fino a condividere intere frasi verbatim. La similarità media tra risposte di modelli completamente diversi oscilla tra il 71% e l’82%, con alcuni casi in cui due sistemi generano risposte letteralmente identiche.

La causa profonda di questa convergenza sta nella natura stessa di questi sistemi, ed è qui che si annida il malinteso più pericoloso. I modelli linguistici non sono entità pensanti che elaborano conoscenza originale né compiono processi decisionali: sono sofisticati sistemi statistici che riconoscono e riproducono pattern presenti nei dati su cui sono stati addestrati. Quando affrontano una domanda aperta, non “ragionano” su possibili risposte, non valutano alternative secondo criteri autonomi, non scelgono tra opzioni ponderando conseguenze. Estraggono dalla loro memoria statistica le formulazioni più frequentemente associate a quel tipo di richiesta e le assemblano in forme linguisticamente plausibili. Se nei testi di addestramento la metafora “il tempo è un fiume” compare migliaia di volte in contesti simili, quello diventa il pattern dominante che il modello riprodurrà, con variazioni superficiali ma senza vera originalità.

La distinzione è fondamentale: questi sistemi sono progettati per simulare il linguaggio di chi compie processi decisionali, non per compiere essi stessi tali processi. Possono generare un testo che suona come una strategia ponderata per la sostenibilità, ma non stanno elaborando strategie: stanno ricombinando statisticamente frammenti di strategie già esistenti nei loro dati di training. La differenza, quando si tratta di affidargli responsabilità reali, è abissale.

I ricercatori hanno documentato questo fenomeno in modo impressionante. Analizzando le risposte attraverso embedding semantici (rappresentazioni numeriche del significato dei testi) e riducendole a due dimensioni con analisi delle componenti principali, hanno visualizzato come migliaia di risposte prodotte da decine di modelli diversi si raggruppino in cluster strettissimi, come sciami di api che convergono sugli stessi punti. Per la domanda sul tempo, due soli cluster raccolgono la quasi totalità delle risposte. Per altre domande apparentemente aperte, come “nomina un significato della vita”, le risposte si addensano nuovamente in pochi gruppi concettuali dominanti, escludendo di fatto l’enorme varietà di prospettive filosofiche, culturali, esistenziali che gli esseri umani hanno elaborato nel corso dei millenni.

Questo ha conseguenze profonde quando si parla di affidarsi all’AI per questioni complesse come la sostenibilità. Un problema articolato come la transizione ecologica richiede capacità di sintesi tra prospettive diverse, di immaginazione di scenari nuovi, di mediazione tra interessi contrastanti, di valutazione etica delle conseguenze. Richiede, in altre parole, proprio quelle forme di pensiero divergente, di creatività autentica, di giudizio valoriale che i modelli linguistici dimostrano di non possedere. Quello che possono fare è produrre una sofisticata simulazione di una risposta, assemblando frammenti di soluzioni già proposte altrove, riformulandole in modo plausibile, ma senza alcuna capacità di andare oltre il già noto.

C’è poi un aspetto ancora più preoccupante. Lo studio documenta che le risposte dei modelli linguistici tendono a riflettere prospettive culturali dominanti, spesso occidentali e anglofone, marginalizzando approcci alternativi. I ricercatori hanno identificato come nei dataset di addestramento, raccolti prevalentemente da fonti in lingua inglese, certe metafore, certi modi di concettualizzare i problemi, certe soluzioni tecniche vengano riprodotte con frequenza enormemente maggiore rispetto ad altre. Quando si tratta di sostenibilità, questo significa il rischio concreto di perpetuare modelli di pensiero e soluzioni tecnocentriche che potrebbero escludere saperi locali, pratiche tradizionali, visioni non egemoniche della relazione tra esseri umani e ambiente. L’AI non amplifica la diversità: la comprime, la omogeneizza, la riduce a ciò che è statisticamente più frequente nei suoi dati di training.

La ricerca ha anche testato se i sistemi di valutazione automatica, quei “giudici artificiali” che dovrebbero riconoscere la qualità delle risposte, riescono almeno a distinguere tra soluzioni genuinamente diverse e di valore comparabile. Per questo hanno raccolto oltre 31.000 valutazioni umane, con 25 annotatori indipendenti per ogni risposta, creando il primo dataset che documenta come persone diverse valutano in modo genuinamente pluralistico le risposte a domande aperte. Il risultato è rivelatore: gli esseri umani mostrano preferenze idiosincratiche, disaccordi costruttivi, capacità di apprezzare risposte diverse come ugualmente valide. I sistemi automatici no. Sia i reward model usati per addestrare l’AI, sia i “giudici” basati su modelli linguistici, mostrano correlazioni significativamente più basse con le valutazioni umane proprio quando le risposte sono di qualità comparabile ma esprimono approcci diversi. In pratica, l’intero ecosistema dell’AI generativa è calibrato per riprodurre il consenso esistente, non per esplorare alternative.

Delegare la sostenibilità all’intelligenza artificiale significa quindi, nella migliore delle ipotesi, ottenere una rielaborazione sofisticata di ciò che già sappiamo, presentata con l’autorevolezza dell’oggettività computazionale ma priva di autentica capacità innovativa. Nella peggiore, significa cementificare ulteriormente approcci dominanti, escludere voci minoritarie, e creare l’illusione pericolosa che esistano soluzioni tecniche ottimali a problemi che sono intrinsecamente politici, etici, culturali. I ricercatori mettono in guardia dal rischio di “omogenizzazione del pensiero umano” che può derivare dall’esposizione ripetuta a output uniformi: se sempre più persone si affidano a questi sistemi per idee, per ispirazione, per elaborare strategie, il risultato potrebbe essere una progressiva riduzione della diversità cognitiva e culturale nella popolazione umana stessa.

Questo non significa che l’AI sia inutile. Può essere uno strumento potente per fornire ingredienti ai processi decisionali: analizzare dati, identificare correlazioni, simulare scenari, ottimizzare aspetti specifici. Ma questi restano appunto ingredienti, non decisioni. È fondamentale riconoscere che l’AI può arricchire il processo decisionale umano, non sostituirlo. Il confronto tra prospettive diverse, la deliberazione collettiva, la mediazione tra interessi contrastanti, la responsabilità politica delle scelte, rimangono irriducibilmente umani. La sostenibilità non è un problema da risolvere con un algoritmo: è una direzione da scegliere insieme, con tutte le contraddizioni, i conflitti, le mediazioni che questo comporta.

E qui torna il punto di partenza: chi decide di affidare processi decisionali a questi sistemi ha il dovere di comprenderne l’architettura fondamentale. Non serve essere esperti di machine learning, ma è indispensabile sapere che si sta usando uno strumento costruito per simulare linguisticamente decisioni, non per prenderle. Che riproduce pattern statistici del passato, non elabora visioni del futuro. Che omogenizza invece di diversificare. Senza questa consapevolezza, la delega diventa abdicazione. E le conseguenze, quando si tratta di sostenibilità e futuro del pianeta, non possiamo permetterci di scoprirle troppo tardi.

(Autore: Paola Peresin)
(Foto: archivio Qdpnews.it)
(Articolo di proprietà di Dplay Srl)
#Qdpnews.it riproduzione riservata

Related Posts