L’economia dei dati ha bisogno di Ai responsabile, dataset corretti e fonti autorevoli

Sapevamo che i dati erano il petrolio. Quante volte lo abbiamo letto? Lo sono ancora oggi ma sembra che tutto sia cambiato. Non si parla quasi più di Big data, non sembra più essere di moda. L’intelligenza artificiale nella sua declinazione più pop – l’Ai generativa – ha occupato tutti gli spazi dedicati all’innovazione. In realtà nessuno ha sostituito nessuno. L’economia dei dati non è sparita per lasciare il posto a quella delle parole o delle domande. C’è stata semplicemente una inversione dei fattori. La seconda discende dalla prima. I Big data sono alla basa del boom dell’intelligenza artificiale.

Proviamo a fare un passo indietro. Il primo sistema di intelligenza artificiale (Ai) era un topo robotico che poteva trovare la via d’uscita da un labirinto, costruito da Claude Shannon nel 1950. Poi subito dopo le prime reti neurali e più nulla per almeno vent’anni. Poi la convergenza tra la miniaturizzazione dei chip che ha portato a un aumento esponenziale della potenza di calcolo e l’introduzione delle tecnologie di rete hanno portato a un cambio di velocità della ricerca nell’Ai. La possibilità di allenare gli algoritmi su una grande mole di dati è stata il fattore che ha fatto la differenza. Tanto che oggi la domanda che ci poniamo più frequentemente quando interroghiamo un chatbot come ChatGpt è: chi te lo ha detto?

Già, chi te lo ha detto? Quanto sono autorevoli e corrette le informazioni da cui ha imparato i modelli di linguaggio di grandi dimensioni (Llm)? Un team di data scientist del Mit che hanno esaminato dieci dataset tra i più utilizzati per i test degli algoritmi di apprendimento automatico (machine learning) hanno scoperto che circa il 3,4% dei dati era impreciso o etichettato in modo errato, il che, hanno concluso, potrebbe causare problemi ai sistemi di intelligenza artificiale che utilizzano questi set di dati. Ce ne siamo accorti anche noi quando usiamo questi sistemi. Soprattutto all’inizio erano preda di quelle che tecnicamente sono definite allucinazioni. In altre parole in toni molto assertivi rispondevano in modo sbagliato.

Oggi dobbiamo interrogarci come e in quanto tempo riusciremo a correggere questi sistemi. Come si può migliorare la qualità dei dataset. Per i primi sei decenni, il calcolo dell’addestramento è aumentato in linea con la legge di Moore, raddoppiando all’incirca ogni 20 mesi. Dal 2010 circa questa crescita esponenziale è ulteriormente accelerata, fino a un tempo di raddoppio di circa 6 mesi. L’economia dei dati oggi più che mai ha bisogno di dati corretti e verificati.

Fonte: Il Sole 24 Ore