Anthropic svela Claude 3.7 Sonnet, la nuova AI con capacità di ragionamento ibrido

Anthropic svela Claude 3.7 Sonnet, la nuova AI con capacità di ragionamento ibrido

Continua frenetica la sfida all’Ai più performante e questa volta è Anthropic a calare l’asso sul banco di gioco. Presentata nei giorni scorsi, si chiama Claude 3.7 Sonnet, il modello di intelligenza artificiale più avanzato e “primo modello di ragionamento ibrido sul mercato”, già disponibile per tutti i piani di abbonamento, compreso quelli free. Secondo gli sviluppatori quest’ultimo modello della famiglia Claude rappresenta un significativo passo avanti nelle capacità di comprensione e ragionamento delle AI conversazionali, distinguendosi per un approccio che privilegia non solo la potenza di elaborazione, ma anche la profondità di analisi e la qualità dell’interazione umano-macchina.

Questo modello ibrido rappresenta lo sforzo di Anthropic di voler semplificare l’esperienza utente dei suoi prodotti AI con un solo modello che fa tutto il lavoro, contrariamente a modelli separati. Secondo la startup, Claude 3.7 Sonnet è stato sviluppato con “una filosofia diversa da quella degli altri modelli di ragionamento presenti sul mercato”. Rifacendosi agli esseri umani, che usano un unico cervello sia per le risposte rapide che per la riflessione profonda, le capacità di ragionamento del modello sono state integrate con tutto il resto e non separate. Crediamo che il ragionamento debba essere una capacità integrata dei modelli conversazionali, piuttosto che un modello completamente separato”, si legge sul sito di Anthropic, riferendosi in particolare al modello di ragionamento avanzato di OpenAi o1.

Il nuovo modello sotto la lente di ingrandimento

Il nuovo modello può interagire in due modi: si può scegliere che il modello risponda normalmente o che pensi più a lungo prima di rispondere.“In modalità standard, Claude 3.7 Sonnet rappresenta una versione aggiornata di Claude 3.5 Sonnet. Per quanto riguarda la modalità del ”ragionamento esteso”, riservata agli utenti Pro e non fruibile dalla versione gratuita di Claude, consente al sistema di “pensare più a lungo” prima di formulare risposte, mimando in qualche modo il processo cognitivo umano. Una funzionalità che si rivela particolarmente preziosa nell’affrontare questioni complesse, che richiedono analisi multilaterali e considerazioni interconnesse, dall’economia alla scienza, dalla filosofia alla programmazione avanzata. “In genere scopriamo che il prompt per il modello funziona in modo simile in entrambe le modalità”, fa sapere Anthropic.

Anthropic ha dichiarato che nello sviluppo del nuovo modello di ragionamento, abbiano ottimizzato un po’ meno i problemi in matematica e informatica, spostando l’attenzione più su attività che riflettono problemi nel mondo reale, con un occhio di riguardo alle aziende che utilizzano i LLM. In un test per misurare le attività di codifica nel mondo reale, SWE-Bench, Claude 3.7 Sonnet ha ottenuto un’accuratezza del 62,3%, rispetto al modello o3-mini di OpenAI che ha ottenuto il 49,3%. In un altro test per misurare la capacità di un modello AI di interagire con utenti simulati e API esterne in un ambiente di vendita al dettaglio, TAU-Bench, Claude 3.7 Sonnet ha ottenuto l’81,2%, rispetto al modello o1 di OpenAI che ha ottenuto il 73,5%.

Anche sul fronte del coding, il modello dimostra una comprensione più profonda dei linguaggi di programmazione e una maggiore precisione nella generazione di soluzioni software, caratteristiche che lo rendono uno strumento prezioso per gli sviluppatori in cerca di assistenza per debugging, ottimizzazione del codice o implementazione di nuove funzionalità.

Fonte: Il Sole 24 Ore