Sina's open model VibeThinker-3B aims to show reasoning compresses well but factual knowledge doesn't
Un modello di piccole dimensioni che compete con i grandi
Un modello linguistico cinese con solo 3 miliardi di parametri, VibeThinker-3B, a volte supera i modelli cento volte più grandi in compiti matematici e di programmazione. I ricercatori che lo hanno sviluppato hanno formulato un'ipotesi su come le capacità dell'IA sono strutturate.
Sina, la società madre di Weibo, ha rilasciato un modello linguistico che con corretti metodi di post-addestramento riesce a competere con i principali modelli in compiti di difficile matematica e programmazione. Secondo un rapporto tecnico, VibeThinker-3B è perfetto sui benchmark concorrenziali come AIME26, paragonandosi a modelli come DeepSeek V3.2 e Kimi K2.5, nonostante questi ultimi abbiano tra i 200 e i 333 volte più parametri.
Uno sperimentazione sull'utilizzo minimo di risorse
Sina presenta il modello come un esperimento per capire quali siano realmente le risorse di calcolo necessarie per raggiungere prestazioni top. Il modello precedente, VibeThinker-1.5B, fu lanciato a novembre del 2025. La versione più recente va oltre, chiedendosi se un modello minuscolo possa davvero ottenere risultati paragonabili ai giganti del mercato, piuttosto che essere semplicemente buono per la sua dimensione.
Su matematica e codifica va bene, ma su conoscenza generale no
I risultati mostrano due storie diverse. Nei compiti strutturati con soluzioni chiare e verificabili, come i problemi matematici delle olimpiadi o i test di programmazione, VibeThinker-3B è all'altezza di modelli come GLM-5 o Gemini 3 Pro. In LiveCodeBench supera ogni altro modello al di sotto dei 20 miliardi di parametri.
La storia si complica però per quanto riguarda la conoscenza enciclopedica. Su benchmark come GPQA-Diamond, VibeThinker-3B si colloca ben lontano dagli avversari. Il modello comunque si avvicina a DeepSeek V3.2, GLM-5 e Kimi K2.5 su IMO-AnswerBench nonostante abbia centinaia di volte meno parametri.
Test di competizione e dati chiari
Per escludere la contaminazione dei dati, il laboratorio ha partecipato ai contest di LeetCode tra la fine di aprile e la fine di maggio 2026, periodo successivo alla fase di addestramento. VibeThinker-3B ha risolto correttamente 123 su 128 problemi al primo tentativo. Questo risultato lo colloca davanti a modelli potenti come GPT-5.2, Qwen3-Max, Kimi K2.5 e Claude Opus 4.6. Rimane però alle spalle di modelli più avanzati come il GPT-5.3-Codex.
Il post-addestramento si dimostra essenziale
VibeThinker-3B si basa sull'architettura Qwen2.5-Coder-3B di Alibaba. La vera differenza è data dal post-addestramento, un insieme di tecniche che vanno dopo l'addestramento generale su grandi dataset. Secondo il rapporto, questa fase permette al modello di avvicinarsi ai concorrenti top.
Il post-addestramento avviene a fasi. Prima, il modello apprende una vasta gamma di compiti mediante l'addestramento supervisionato, che copre matematica, programmazione e conversazione generale. Poi, il modello viene personalizzato per risolvere problemi complessi a più step.
Un modello che apprende, si perfeziona e segue istruzioni
Segue l'applicazione di un apprendimento per rinforzo, sequenziale su matematica, programmazione e STEM. Il distillato autodidatta unisce le abilità acquisite in una singola struttura. Alla fine, il modello viene finemente addestrato per aderire meglio alle istruzioni.
Sono stati messi in evidenza passaggi specifici di addestramento supervisionato a due fasi, apprendimento per rinforzo strutturato su matematica, codifica e STEM, e una fase finale di istruzione per aderire alle richieste. Il risultato di tale processo permette il salto di prestazioni.
La struttura dei modelli e il loro limite di capacità
I ricercatori hanno introdotto una teoria detta "Parametric Compression-Coverage Hypothesis". Diverse capacità dell'intelligenza artificiale hanno strutturazioni diverse e richiedono diversi numeri di parametri.
Il ragionamento logico, ad esempio in compiti di matematica, si basa su pochi schemi ricorrenti: ricerca, verifica, correzione di errori, combinazione di risposte intermedie. Questa competenza può essere compressa in un nucleo compatto. Al contrario, la conoscenza generale richiede una copertura estesa, che necessita di una grande quantità di parametri.
Il futuro indipendente dei modelli piccoli
Secondo i ricercatori, i modelli di piccole dimensioni non sono solo versioni economiche, ma seguono una logica di ricerca parallela alle strategie di scalabilità tradizionali. I task con struttura chiara e verificabilità di risultati possono essere eseguiti con pochi parametri.
Disponibilità e accessibilità
VibeThinker-3B è disponibile gratuitamente su Hugging Face e GitHub, facilitando il suo utilizzo in contesti open source.
Un fenomeno in crescita: modelli piccoli che seguono i grandi
I modelli piccoli che riscattano le loro dimensioni limitate sui compiti specifici stanno diventando comuni. Ad esempio, il modello Qwen3.6-27B di Alibaba ha superato il precedente modello, molto più grande, in benchmark di programmazione.
Falcon H1R 7B di Abu Dhabi, ha raggiunto il livello della concorrenza di modelli due a sette volte più grandi.
L’idea che i modelli piccoli incontrino limiti nella logica di problemi complessi è però in discussione grazie a questi risultati. I modelli come VibeThinker-3B dimostrano che la capacità di addestramento è fondamentale, ma non necessariamente dipende dal numero di parametri.
Una riflessione sullinga struttura dell'intelligenza artificiale
Questo modello presenta una prospettiva interessante per i ricercatori che desiderano capire come l’IA può funzionare all'interno di limiti ben definiti, proponendo nuove strade per lo sviluppo e l'implementazione di modelli di intelligenza artificiale.