Arriva Claude 3.5: il guanto di sfida alla concorrenza delle Ai generative

Solo quattro mesi fa Anthropic, la start up acquisita da Amazon e capitanata dai fondatori Dario e Daniela Amodei, lanciava Claude 3. Già all’epoca la versione più evoluta, Opus, secondo gli sviluppatori, dimostrava «Livelli quasi umani di comprensione e fluidità in compiti complessi, superando i colleghi nella maggior parte dei benchmark di valutazione usati per valutare i sistemi di intelligenza artificiale». Oggi Anthropic – valutata per il 2024 per oltre 850 milioni di dollari di fatturato – alza il livello con la nuova release 3.5 di Sonnet, annunciata pochi giorni fa. Si tratta del nuovo modello linguistico di grandi dimensioni o LLM (Large Language Model), che, stando a quanto dichiarato dalla startup di San Francisco, supera in alcuni test fatti internamente i risultati ottenuti da modelli di aziende competitors, oltre che i risultati ottenuti dal suo modello di fascia alta, ovvero Claude 3 Opus.

Come funziona Claude 3.5 Sonnet e cosa sa fare: i test superati

Secondo i test Claude 3.5 Sonnet sembra aver superato GPT-4o, Gemini 1.5 Pro e Meta’s Llama 3 400B in sette benchmark complessivi su nove e quattro benchmark visivi su cinque. Questo, sempre secondo l’azienda, mostrerebbe un significativo miglioramento nella scrittura e nella traduzione del codice, nella gestione di flussi di lavoro multifase, nell’interpretazione di diagrammi e grafici e nella trascrizione del testo dalle immagini. Pare anche che Claude sia anche più bravo a cogliere le sfumature, l’umorismo e anche istruzioni complesse, ed è piuttosto agile nella scrittura di contenuti di alta qualità, usando un tono che Anthropic ha definito «naturale e relazionabile».

Nel mettere alla prova il suo nuovo LLM, Anthropic ha dichiarato di aver sottoposto il modello a un test secondo cui avrebbe dovuto correggere bug o aggiungere funzionalità a una base di codice open source. Claude 3.5 Sonnet è riuscito a risolvere il 64% dei problemi, contro il 38% di successo totalizzato da Claude 3 Opus.

«Claude 3.5 Sonnet è il nostro modello di visione più potente finora, superando Claude 3 Opus sui parametri di riferimento della visione standard. Questi miglioramenti rivoluzionari sono più evidenti per le attività che richiedono il ragionamento visivo, come l’interpretazione di diagrammi e grafici. Claude 3.5 Sonnet può anche trascrivere accuratamente il testo da immagini imperfette, una funzionalità fondamentale per la vendita al dettaglio, la logistica e i servizi finanziari, dove l’intelligenza artificiale può raccogliere più informazioni da un’immagine, un grafico o un’illustrazione che dal solo testo », ha dichiarato Anthropic in fase di lancio, chiarendo che, dal momento che Claude 3.5 Sonnet agisce a una velocità doppia rispetto a Claude 3 Opus, è perfetto per essere impiegato in attività complesse come l’assistenza clienti.

Contestualmente all’annuncio di Claude 3.5 Sonnet, Anthropic ha presentato anche Artifacts (disponibile su Claude.ai), ovvero una nuova funzione che va a espandere il modo in cui gli utenti possono interagire con il modello. In pratica, quando si interroga quest’ultimo chiedendo ad esempio di generare contenuti quali documenti di testo, mail, progetti di siti Web, frammenti di codice, etc., gli output vengono mostrati in una finestra dedicata accanto alla chat con il modello. In questo modo, l’utente può interagire con uno spazio di lavoro dinamico che permette di modificarlo direttamente nell’app. Secondo Anthropic «Se Claude ti scrive un’e-mail, puoi modificare l’e-mail nell’app Claude invece di doverla copiare in un editor di testo. È una funzionalità piccola, ma intelligente. Una funzionalità di anteprima che segna l’evoluzione di Claude da un’intelligenza artificiale conversazionale a un ambiente di lavoro collaborativo».

Fonte: Il Sole 24 Ore