Come funziona e come è fatto Qwen2.5-Max il rivale di DeepSeek?

10 Febbraio 2025

Cominciamo con il dire che non è una novità. Il modello Qwen 2.5 ha raggiunto 94 milioni di download, di cui la metà nell’ultimo mese. In pratica, è il modello open-source più popolare al mondo, superando Llama 3.1 di Meta. Nei giorni scorsi dopo la “bomba” di Deepseek Alibaba ha rilasciato Qwen 2.5-Max che si presenta come la versione più aggiornata e potente. Stando agli indicatori di prestazione pubblicati dal colosso cinese sarebbe superiore a DeepSeek V3 ma anche a Gpt-o4 e Claude 3.5 Sonnet. Ma la notizia è Qwen 2.5 Max uscito pochi giorni dopo DeepSeek 2.

Cosa è Qwen 2.5 Max?

Non è un modello open source a differenza degli altri Qwen. E’ il più potente, supporta 29 lingue, tra cui italiano, inglese, cinese, spagnolo, francese, giapponese, coreano, arabo e altre. Come DeepSeek R1 ha una finestra di elaborazione che arriva a fino a 128K token in una singola conversazione, mentre è in grado di generare fino a 8K token (1.000 parole sono circa 750 token, per dare un’idea). E’ multimodale, può quindi elaborare immagini e audio. E dovrebbe fare anche video.

Quanto costa?

Qwen 2.5 Max costa 1,6 dollari per milione di token di input e 6,4 dollari per milione di token di output. Per confronto, il prezzo API di DeepSeek-R1 costa 0,55 dollari per milione di token di input e 2,19 dollari per milione di token di output.

Le prestazioni di Qwen 2.5 Max

«Qwen2.5-Max – scrivono sul loro sito – supera DeepSeek V3 in benchmark quali Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond. Quando confrontiamo i modelli base, non siamo in grado di accedere ai modelli proprietari come GPT-4o e Claude-3.5-Sonnet. Pertanto, valutiamo Qwen2.5-Max rispetto a DeepSeek V3, un modello MoE open-weight leader, Llama-3.1-405B, il modello denso open-weight più grande, e Qwen2.5-72B, che è anche tra i migliori modelli densi open-weight».

Come è fatto tecnicamente

Qwen2.5-Max, un modello MoE (Mixture-of-Expert (MoE) su larga scala che è stato pre-addestrato su oltre 20 trilioni di token e ulteriormente post-addestrato con metodologie curate Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF). Andiamo con ordine MoE è un’architettura di modelli che punta a suddividere il problema in sotto-compiti più semplici, assegnando ogni compito a un “esperto” specializzato. Immagina di dover affrontare un problema complesso, ad esempio diagnosticare una malattia rara. Invece di consultare un unico medico generico, ti affideresti a diversi specialisti, ognuno esperto in una particolare area (cardiologo, neurologo, ecc.). Un MoE funziona in modo simile. Ufficialmente non lo sappiamo ma pare che anche Gpt sia MoE.

Come è stato addestrato?

Qwen 2.5 Max è stato pre-addestrato su oltre 20 trilioni di token (ovvero 20 mila miliardi), contro i 14,8 mila di miliardi di DeepSeek-R1. Sappiamo solo questo. Nessun indizio sui contenti. Quanto al come entrano in campo diverse tecniche. Qwen 2.5 Max ha usato sia Supervised Fine-Tuning (SFT) e che Reinforcement Learning from Human Feedback (RLHF). Sono due tecniche utilizzate per addestrare modelli linguistici di grandi dimensioni (LLM).

Per approfondire.

DeepSeek il nemico numero uno di ChatGpt ai raggi X. La nostra prova e il confronto con o1 #Ascanio

La Cina ha più brevetti degli Stati Uniti. Chi guida la corsa all’intelligenza artificiale?

La Cina, gli Stati Uniti e la nuova mappa dell’ordine mondiale disegnata con il silicio

La strategia cinese nell’intelligenza artificiale fa paura agli Usa. Il caso di Qwen 2.5

Le altre puntate di Dataviz And Tools

Claude è davvero il modello di AI più empatico sul mercato?

Come funziona Operator di OpenAi?

ChatGpt Task è una to-do-list per le tue attività quotidiane

Come funziona Canvas la nuova interfaccia per ChatGpt? #DatavizAndTools

Ecco come funziona o1, il modello di OpenAi che “pensa” prima di rispondere

Disponibile ChatGpt per Windows. Ecco cosa cambia #DatavizAndTools