La distillazione è il metodo che apre le porte a una nuova generazione di modelli AI

La distillazione è il metodo che apre le porte a una nuova generazione di modelli AI

Ibm ha fatto un modello distillato di Watson specializzato per la diagnosi del cancro al seno, addestrato su 2.3 milioni di immagini mammografiche. Raggiunge il 98.7% di accuracy (contro il 96.4% del teacher) con 18 volte in meno parametri, specializzandosi nel riconoscimento di micro-calcificazioni. Il modello Malted AI derivato da GPT-4, analizza contratti legali con il 99.1% di precisione nell’individuare clausole rischiose, superando il teacher del 2.3% grazie a un addestramento focalizzato su 450mila documenti giuridici.

Altri modelli nasceranno anche grazie alle trovate di Deepseek, data la crescente attenzione che Microsoft, OpenAI e Meta dichiarano di avere

Svantaggi

“La distillazione presenta un interessante compromesso; se rendi i modelli più piccoli, inevitabilmente ne riduci la capacità”, spiega Ahmed Awadallah di Microsoft Research, che ha affermato che un modello distillato può essere progettato per essere molto efficace nel riassumere le e-mail, ad esempio, “ma in realtà non sarebbe efficace in nient’altro”. OpenAI sostiene che saranno comunque necessari modelli linguistici di grandi dimensioni per attività ad alta intelligenza e ad alto rischio in cui le aziende sono disposte a pagare di più per un elevato livello di accuratezza e affidabilità. E che saranno necessari anche modelli di grandi dimensioni per scoprire nuove capacità che possono poi essere distillate in modelli più piccoli.

Di base poi, nonostante il successo di Deepseek, gli esperti non sono ancora convinti che sia stata risolta la ricerca di un mix perfetto per i dati di training (manuali, automatici, distillati). Questo processo introduce complessità paradossali: da un lato, il teacher può produrre pseudo-dati di qualità superiore a quelli umani per compiti specifici; dall’altro, rischia di perpetuare bias o errori sistematici presenti nel modello originale.

C’è poi un tema di copyright da considerare. Secondo OpenAI, DeepSeek ha distillato i modelli di OpenAI per addestrare il modello ed è un’attività contraria ai suoi termini di servizio. OpenAI ha aggiunto che non intende però denunciare il concorrente; al tempo stesso ci starà più attenta: ora ha team che monitorano l’utilizzo del suo modello e può rimuovere l’accesso agli utenti che sospetta stiano generando grandi quantità di dati per esportare e addestrare un concorrente. L’ha fatto appunto con gli account usati da DeepSeek. Resta un’attività difficile da bloccare del tutto. Ormai i buoi della distillazione sono scappati. La via è aperta per una frontiera più variegata per la creazione di tanti e diversi modelli AI.

Fonte: Il Sole 24 Ore