Anteprima di un futuro distopico o sistema esperto al servizio dell’umanità? L’intelligenza artificiale ci accompagna da più tempo di quanto puoi immaginarti, ma negli ultimi anni ha trovato finalmente terreno fertile per mostrare le sue potenzialità e i suoi rischi.
Potrà sembrarti un argomento lontano dalla questione ambientale, ma in realtà ne è protagonista silente. Il futuro delle nostre reti elettriche, della mobilità sostenibile, della gestione energetica, del ciclo dei rifiuti e di tanti altri servizi essenziali - che attendono da tempo un salto di qualità di valenza generazionale - con l’AI potrebbe realizzarsi in tempi brevi e con risultati efficaci, ma non senza rischi.
In questa prima tappa, ti spiego le basi per comprenderne meglio il funzionamento e le ragioni della sua rapida ascesa. L’argomento è molto complesso, ma allo stesso tempo incredibilmente affascinante per le applicazioni già in uso e quelle in cui promette di poterci aiutare.
Cos’è l’Intelligenza Artificiale (AI)
L’insieme delle operazioni che un computer svolge per imitare il funzionamento del cervello umano è classificabile come AI.
Tra testi universitari e pubblicazioni di ogni genere, sono tante le categorie utilizzate per classificare questa tecnologia. Tra le più comuni:
Ruled-based AI: governata da un set limitato di regole (una sveglia, un forno a micro-onde, un videogioco)
Context-based AI: capace di fornire risultati contestuali, per esempio suggerire di usare l’ombrello mentre ti ricordano un appuntamento, o la visione di un film che potresti apprezzare (Siri, Alexa, gli algoritmi dei social network, della pubblicità online e delle piattaforme di streaming)
Narrrow domain AI: altamente esperta in una singola task (riconoscere patologie dalle immagini mediche, tradurre i linguaggi, far muovere un robot)
Cognitive AI: capace di fare valutazioni complesse e prendere decisioni in tempo reale in funzione di una vasta base di conoscenze (auto a guida autonoma, LLM1)
Forse ricordi gli avanzamenti conseguiti con Deep Blue di IBM nel 1997, o Alpha Go di Google nel 2015, che fecero conoscere l’AI al grande pubblico.
Deep Blue valutava i possibili scenari in funzione di un set limitato di regole - quelle degli scacchi - e la sua forza era nella sua capacità di calcolo parallelo. Analizzava fino a 200 milioni di mosse al secondo, anticipando da 6 a 8 mosse dell’avversario, in alcuni casi fino a 20.
Per i tempi, fu una dimostrazione di forza da parte di IBM per mostrare il suo hardware multiprocessore - quando gran parte dei computer sul mercato lavoravano con un solo processore - ma il suo modello computazionale non era molto distante dall’algoritmo di un videogioco da casa.
Il calcolo parallelo era agli albori: gran parte delle sue potenzialità si sono rivelate man mano che la potenza di calcolo è andata aumentando. Da allora, la tecnologia dei microprocessori ha raddoppiato il numero di transistor a parità di superficie ogni due anni: è la legge di Moore, fondatore di Intel, che ne ha previsto l’andamento esponenziale con estrema precisione nel 1965.
Convergenze parallele
La vera svolta è avvenuta con l’introduzione delle GPGPU (General Purpose Graphic Processing Unit). Accanto alla tradizionale CPU (Central Processing Unit) - il processore centrale di ogni computer - il cui funzionamento è principalmente sequenziale, i computer hanno iniziato a far battere un secondo cuore.
Le GPGPU - spesso fatte ricadere nel più ampio bacino delle GPU - sono progettate per processare enormi quantità di dati in parallelo, essendo nate inizialmente per visualizzare immagini su un monitor: i milioni di pixel di ogni singolo fotogramma devono essere processati simultaneamente.
La loro particolarità è la capacità di effettuare determinate tipologie di calcolo - per es.: gli algoritmi ricorsivi - con velocità migliaia di volte superiori a una CPU.
Risolvono rapidamente problemi come il calcolo tensoriale a elementi finiti; oppure le regressioni statistiche non lineari, fondamentali per la compressione dei dati e gli algoritmi predittivi per sistemi complessi come il clima, la borsa azionaria, i processi biochimici o la fluidodinamica.
Dalla loro introduzione, la loro potenza di calcolo è raddoppiata ogni sei mesi. Ciò ha permesso l’applicazione di modelli computazionali prima solo teorizzati o estremamente semplificati per poter lavorare su una CPU.
Bye bye, Mr. Moore.
Nasce il Machine Learning (ML)
I principi del ML sono allo studio dalla metà del secolo scorso, ma solo nei primi anni del 2000 le sue applicazioni hanno iniziato a entrare nelle nostre vite. In circa due decenni, hanno catalizzato l’attenzione di ricercatori, aziende e industria, facendoli convergere in un unico contenitore dalle potenzialità sorprendenti.
Il ML è una sottocategoria dell’AI che permette di eseguire operazioni complesse senza la necessità di elaborare un algoritmo dedicato, imparando dai dati e perfezionandosi con l’esperienza.
Una delle sue strutture computazionali più rappresentative sono le reti neurali artificiali: modelli matematici che riproducono la struttura cerebrale in cui ogni operatore rappresenta un neurone.
La rete più semplice è un modello sequenziale (feed forward). La struttura base è relativamente semplice: lo strato di ingresso (neuroni verdi) invia dati a neuroni nascosti (neuroni blu), che processano l’informazione e la inviano allo strato di uscita (neuroni gialli).
Ogni neurone dello strato nascosto elabora il dato in maniera diversa e la sua informazione viene valutata secondo un valore che determina il “peso” del singolo neurone nella costruzione del risultato finale. Al variare dei dati in ingresso, i singoli neuroni verranno più o meno “stimolati” e la somma dei diversi valori genererà la risposta in uscita.
Diverse geometrie e combinazioni di reti dimostrano attitudini a risolvere specifici tipologie di problemi. La retropropagazione dell’errore, per esempio, tipica delle reti ricorrenti, migliora sostanzialmente la velocità di apprendimento.
Scelta la geometria/tipologia della rete, si procede a una fase di addestramento (training), in cui vengono inseriti prima valori di riferimento per verificare di ottenere le risposte attese; quindi, si procede a far elaborare grandi quantità di dati, divisi in tre tipologie:
pre-classificati (supervised learning): le immagini con indicazione dei soggetti (cani, gatti, ecc.), i like ai video che guardi;
non classificati (unsupervised learning): una raccolta di testi per gli LLM come ChatGPT o di dati climatici come pressione, temperatura, velocità del vento;
mix di entrambi (reinforced learning), come gli input di un’auto a guida autonoma o il comportamento dei giocatori in un videogioco.
Fasi di test successive ne determinano l’inaccuratezza generale (o “costo”) e aiutano a rimodellare la rete per ottenere la precisione auspicata, prima di metterla al lavoro.
Dov’è tutta questa intelligenza?
La qualità principale del ML è quella di riuscire, in tempi brevi, a interpretare grandi quantità di dati identificando dinamiche e modelli che possono sfuggire al cervello umano o richiedere anni di lavoro.
Presto ti parlerò della branca più affascinante del ML, il Deep Learning, che rappresenta il punto di arrivo degli argomenti di questa Pillola, ma allo stesso tempo il primo passo in un mondo popolato da sistemi con abilità cognitive avanzate, i cui limiti ci sono ancora sconosciuti.
Se hai avuto la pazienza di arrivare fin qui e vuoi saperne di più, in attesa della mia prossima pillola sull’argomento, puoi leggerti questo libro gratuito, e sperimentare questa rete neurale.
Large Language Model, tipologia di AI specializzata in Natural Language Processing (NLP), ovvero l’elaborazione del linguaggio naturale.