Home Fondamenti Token Modelli AI Deep Learning Tecniche RAG MCP Orchestrazione Prompt Engineering Usare l'AI ChipsBot News

Gemma 4: I modelli aperti più potenti, byte dopo byte

Google DeepMind Blog 13 maggio 2026

Il panorama dell'intelligenza artificiale continua la sua rapida evoluzione, e oggi, 2 aprile 2026, segna un momento significativo con l'introduzione di Gemma 4 da parte di Google DeepMind. Questi modelli aperti rappresentano un balzo in avanti, presentandosi come i più intelligenti e capaci finora rilasciati dalla divisione, specificamente ideati per il ragionamento avanzato e i complessi flussi di lavoro agentici. Con un livello di intelligenza per parametro senza precedenti, Gemma 4 promette di ridefinire ciò che è possibile ottenere con risorse computazionali ottimizzate.

Questo lancio si fonda su un incredibile slancio della comunità, che ha visto i modelli Gemma di prima generazione essere scaricati oltre 400 milioni di volte, dando vita a un vibrante "Gemmaverse" con più di 100.000 varianti. Clement Farabet, vicepresidente della ricerca di Google DeepMind, e Olivier Lacombe, direttore della gestione prodotti di Google DeepMind, sottolineano come Gemma 4 sia la risposta diretta alle esigenze degli innovatori, spingendo i confini dell'IA grazie a capacità rivoluzionarie rese ampiamente accessibili sotto una licenza Apache 2.0.

Costruiti sulla stessa ricerca e tecnologia di livello mondiale di Gemini 3, i modelli Gemma 4 si distinguono per la loro capacità di essere eseguiti sul proprio hardware, completando la famiglia Gemini proprietaria e fornendo agli sviluppatori la combinazione più potente di strumenti aperti e proprietari del settore. Questa strategia mira a democratizzare l'accesso alle capacità AI di frontiera, consentendo a un pubblico più ampio di sperimentare e costruire soluzioni innovative.

Le capacità leader del settore e l'IA mobile-first

Gemma 4 viene rilasciato in quattro dimensioni versatili, ciascuna progettata per soddisfare esigenze specifiche di performance e utilizzo. Queste includono:

  • Effective 2B (E2B)
  • Effective 4B (E4B)
  • 26B Mixture of Experts (MoE)
  • 31B Dense

L'intera famiglia di modelli va oltre la semplice chat, dimostrando la capacità di gestire logiche complesse e flussi di lavoro agentici sofisticati. I modelli più grandi della famiglia Gemma 4 offrono prestazioni all'avanguardia per le loro dimensioni, con il modello da 31B che si posiziona attualmente al terzo posto tra i modelli aperti più performanti al mondo sulla classifica standard del settore, la Arena AI text leaderboard, mentre il modello da 26B si assicura il sesto posto. Sorprendentemente, Gemma 4 supera modelli 20 volte più grandi in termini di dimensioni, un traguardo notevole che evidenzia l'efficienza della sua architettura.

Per gli sviluppatori, questo nuovo livello di intelligenza per parametro si traduce nella possibilità di raggiungere capacità di frontiera con un significativo ridotto sovraccarico hardware. Ciò significa minori costi e maggiore accessibilità per l'implementazione di soluzioni AI avanzate. Ai margini della rete, i modelli E2B ed E4B ridefiniscono l'utilità on-device, privilegiando le capacità multimodali, l'elaborazione a bassa latenza e l'integrazione fluida nell'ecosistema rispetto al conteggio dei parametri grezzi. Questo li rende ideali per applicazioni mobili e IoT dove le risorse sono limitate.

Potente, accessibile, aperto

Per alimentare la prossima generazione di ricerca pionieristica e prodotti innovativi, i modelli Gemma 4 sono stati dimensionati specificamente per essere eseguiti e ottimizzati in modo efficiente su un'ampia gamma di hardware. Questo spazia da miliardi di dispositivi Android in tutto il mondo a GPU per laptop, fino a workstation per sviluppatori e acceleratori. Questa flessibilità garantisce che le capacità di Gemma 4 possano essere sfruttate in diversi contesti, dal personale all'enterprise.

Utilizzando questi modelli altamente ottimizzati, gli sviluppatori possono effettuare il fine-tuning di Gemma 4 per ottenere prestazioni all'avanguardia sui loro compiti specifici. Questo approccio ha già dimostrato un incredibile successo in vari progetti. Ad esempio, INSAIT ha creato un modello linguistico pionieristico bulgaro-first, BgGPT, basato su Gemma. Inoltre, Google ha collaborato con la Yale University su Cell2Sentence-Scale per scoprire nuove vie per la terapia del cancro, dimostrando la versatilità e l'impatto potenziale di questi modelli.

Cosa rende Gemma 4 la famiglia di modelli aperti più capace

Ecco le caratteristiche distintive che elevano Gemma 4 a un nuovo standard di capacità:

  • Ragionamento avanzato: Capace di pianificazione multi-step e logica profonda, Gemma 4 dimostra miglioramenti significativi nei benchmark di matematica e nella capacità di seguire istruzioni complesse.
  • Flussi di lavoro agentici: Il supporto nativo per la chiamata di funzioni, l'output JSON strutturato e le istruzioni di sistema native consente la costruzione di agenti autonomi in grado di interagire con diversi strumenti e API ed eseguire flussi di lavoro in modo affidabile.
  • Generazione di codice: Gemma 4 supporta la generazione di codice offline di alta qualità, trasformando la propria workstation in un assistente di codice AI locale.
  • Visione e audio: Tutti i modelli elaborano nativamente video e immagini, supportando risoluzioni variabili ed eccellendo in compiti visivi come il riconoscimento ottico dei caratteri (OCR) e la comprensione di grafici. Inoltre, i modelli E2B ed E4B presentano un input audio nativo per il riconoscimento e la comprensione del parlato.
  • Contesto più lungo: Elaborano contenuti di lunga forma senza interruzioni. I modelli edge dispongono di una finestra di contesto di 128K, mentre i modelli più grandi offrono fino a 256K, consentendo di passare interi repository o lunghi documenti in un singolo prompt.
  • Oltre 140 lingue: Addestrato nativamente su più di 140 lingue, Gemma 4 aiuta gli sviluppatori a costruire applicazioni inclusive e ad alte prestazioni per un pubblico globale.

Modelli versatili per hardware diversi

I pesi dei modelli Gemma 4 sono rilasciati in dimensioni adatte a hardware e casi d'uso specifici, garantendo un ragionamento di classe "frontier" ovunque sia necessario:

Modelli 26B e 31B: Intelligenza di frontiera, offline sui computer personali

Questi modelli sono ottimizzati per fornire a ricercatori e sviluppatori un ragionamento all'avanguardia su hardware accessibile. I pesi bfloat16 non quantizzati si adattano efficientemente a una singola GPU NVIDIA H100 da 80GB. Per configurazioni locali, le versioni quantizzate possono essere eseguite nativamente su GPU consumer per alimentare IDE, assistenti di codifica e flussi di lavoro agentici. Il modello 26B Mixture of Experts (MoE) si concentra sulla latenza, attivando solo 3,8 miliardi dei suoi parametri totali durante l'inferenza per fornire un numero eccezionalmente elevato di token al secondo. Al contrario, il 31B Dense massimizza la qualità grezza e fornisce una base potente per il fine-tuning. Questi modelli sono stati valutati rispetto a una vasta collezione di diversi dataset e metriche per coprire vari aspetti della generazione di testo, con benchmark aggiuntivi disponibili nella scheda del modello.

Modelli E2B e E4B: Un nuovo livello di intelligenza per dispositivi mobili e IoT

Progettati da zero per la massima efficienza di calcolo e memoria, questi modelli attivano un ingombro di parametri effettivi di 2 miliardi e 4 miliardi durante l'inferenza per preservare la RAM e la durata della batteria. In stretta collaborazione con il team Google Pixel e leader dell'hardware mobile come Qualcomm Technologies e MediaTek, questi modelli multimodali funzionano completamente offline con una latenza quasi zero su dispositivi edge come telefoni, Raspberry Pi e NVIDIA Jetson Orin Nano. Gli sviluppatori Android possono ora prototipare flussi agentici nella AICore Developer Preview per la compatibilità futura con Gemini Nano 4.

Una licenza open-source

Il feedback della comunità è stato ascoltato attentamente. Costruire il futuro dell'IA richiede un approccio collaborativo, e Google crede nel dare potere all'ecosistema degli sviluppatori senza barriere restrittive. Per questo motivo, Gemma 4 è rilasciato sotto una licenza Apache 2.0, commercialmente permissiva. Questa licenza open-source fornisce una base per la completa flessibilità degli sviluppatori e la sovranità digitale, garantendo il controllo totale sui propri dati, infrastrutture e modelli. Consente di costruire liberamente e implementare in modo sicuro in qualsiasi ambiente, sia on-premises che nel cloud.

Costruito su una base di fiducia e sicurezza

Questi modelli sono sottoposti agli stessi rigorosi protocolli di sicurezza infrastrutturale dei modelli proprietari di Google. Scegliendo Gemma 4, le imprese e le organizzazioni sovrane ottengono una base affidabile e trasparente che offre capacità all'avanguardia, soddisfacendo al contempo i più alti standard di sicurezza e affidabilità. L'impegno per la sicurezza è una priorità, garantendo che l'innovazione non comprometta l'integrità dei dati e dei sistemi.

Un ecosistema di scelte

Google ha creato un ecosistema ricco e flessibile per facilitare l'adozione e l'integrazione di Gemma 4:

  • Inizia a sperimentare in pochi secondi: Ottieni accesso istantaneo a Gemma 4 e inizia a costruire subito. Esplora Gemma 4 in Google AI Studio (31B e 26B MoE) o in Google AI Edge Gallery (E4B ed E2B). Per lo sviluppo Android, usalo per potenziare la modalità agente in Android Studio e inizia a costruire app per la produzione su Android con l'API ML Kit GenAI Prompt.
  • Usa i tuoi strumenti preferiti: Con il supporto dal primo giorno per una vasta gamma di strumenti, inclusi Hugging Face (Transformers, TRL, Transformers.js, Candle), LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM e NeMo, LM Studio, Unsloth, SGLang, Cactus, Baseten, Docker, MaxText, Tunix, Keras, hai la flessibilità di scegliere i migliori strumenti per il tuo progetto.
  • Scarica i modelli: Ottieni i pesi dei modelli da Hugging Face, Kaggle o Ollama.
  • Personalizza Gemma 4 in base alle tue esigenze specifiche: Addestra e adatta il modello utilizzando la tua piattaforma preferita, come Google Colab, Vertex AI o persino la tua GPU da gaming.
  • Scala in produzione su Google Cloud: Mentre l'inferenza locale on-device è ideale per l'uso offline, Google Cloud rimuove tutti i limiti di calcolo. Implementa come preferisci tramite Vertex AI e altre soluzioni Google Cloud, garantendo scalabilità e prestazioni senza precedenti per le tue applicazioni più esigenti.
Leggi l'articolo originale →
← Torna alle news