Google Introduce Gemini Omni: Modelli Multimodali per Video, Immagini e Testo

TechCrunch AI 20 maggio 2026

Quando Google ha lanciato Gemini tre anni fa, l’obiettivo era costruire un modello linguistico multimodale – un’unica rete neurale addestrata su testo, immagini, audio e video capace di produrre contenuti in ogni formato. Oggi, al suo Google I/O 2026, la compagnia ha fatto un passo concreto verso il traguardo con Gemini Omni, una famiglia di nuovi modelli multimodali che il CEO Sundar Pichai descrive come in grado di “creare qualsiasi cosa da qualsiasi input”.

Il primo passo di Omni: la produzione di video

Omni inizierà con i video. Gli utenti potranno combinare immagini, audio, video e testo per generare contenuti, e invece di semplicemente incollare quegli input insieme, Omni ragiona su di essi per produrre un output coerente. I risultati sono video di alta qualità che riflettono una comprensione di fisica, cultura, storia e scienza.

Un esempio fornito da Koray Kavukcuoglu, direttore tecnico di DeepMind, riguarda il comando semplice “un video esplicativo in stile plastico su piegamenti delle proteine”. Omni è riuscito a creare immediatamente un video con animazione stop-motion e voice over: “Le proteine iniziano come catene di aminoacidi. Si piegano in modelli come l’elica alfa e le sezioni piane chiamate fogli beta, formando la perfetta struttura tridimensionale.”

Le differenze rispetto ai modelli precedenti

Sebbene Google già avesse un modello dedicato ai video come Veo, che consente di trasformare testo e immagini in filmati e persino personalizzare e dirigere avatar, questo lancio di Omni è definito da Nicole Brichtova, direttrice del prodotto di DeepMind, come un “progresso verso l’integrazione dell’intelligenza di Gemini con le capacità di rendering dei nostri modelli di media”. È più di un semplice aggiornamento di Veo.

Nuova visione per Omni: estendere l’addestramento a tutti i formati

La visione a lungo termine per Omni prevede funzioni complesse, come l’abilità di generare immagini da audio o audio da video. Sundar Pichai, durante la sua presentazione, ha chiarito: “Quando abbiamo annunciato Gemini, era il nostro primo modello AI nato multimodale. Sapevamo che addestrarlo a un insieme di testo, codice, audio, immagini e video avrebbe dato a Gemini una comprensione più profonda del mondo.”

Ora, con i cosiddetti “modelli del mondo”, l’AI sta andando da predire il testo a simulare la realtà, e Gemini Omni è il prossimo passo in questa direzione.

Prevenzione deepfake e watermarking

Per affrontare le problematiche legate ai deepfake, Google ha introdotto una procedura di onboarding dedicata per i video con avatar digitali. Secondo Brichtova, gli utenti dovranno registrare video di sé e scandire numeri a voce alta. Questo processo garantisce un controllo su chi sta generando l’immagine e come.

Ogni video ottenuto attraverso Omni sarà marcato con il SynthID di Google, un watermark digitale che permette agli utenti di verificare se un video è stato prodotto tramite un prodotto Gemini.

Gli usi consumer di Omni Flash

Il primo modello della famiglia è Gemini Omni Flash, che oggi è disponibile sull’app Gemini, YouTube Shorts e sull’AI creative studio Flow. Per ora, genera circa 10 secondi di video, una scelta strategica non legata ai limiti del modello ma voluta per offrire accesso a più utenti. L’estensione a video più lunghi è prevista in futuro.

Esempi concreti forniti da Brichtova e Gabe Barth-Maron, ricercatore di DeepMind, includono la creazione video di se stessi mentre si vince un premio, si va sulla luna o si toglie un passante da uno scenario. Barth-Maron ha incluso una definizione semplice: “Sono come meme personalizzati.”.

“Abbiamo di certo concentrato i nostri sforzi per rendere facile da usare per i consumatori,” ha osservato Brichtova. “Molti modelli video non hanno ancora guadagnato terreno sui consumatori.”

Limiti del modello

Non è tutto oro quel che luccica. Brichtova e Barth-Maron hanno sottolineato che l’editing necessiterà di prompt molto specifici, altrimenti Omni potrebbe sovrascrivere o alterare non volutamente elementi importanti. Questo è un problema che gli utenti di Nano Banana hanno già riscontrato.

Le potenzialità a livello professionale

Sebbene il focus iniziale di Google sia su Omni Flash per gli utenti comuni, l’impacto professionale è evidente: in questo ambito, Google intende rendere disponibile Omni tramite API nelle prossime settimane. L’outil di generazione di avatar, già sperimentabile con YouTube Shorts, è destinato ad essere adottato da creatori di contenuti, mentre una pipeline multimodale potrebbe rivoluzionare il settore dell’advertising e delle produzioni cinematografiche.

Confronto con Luma AI

Start up come Luma AI stanno percorrendo un sentiero simile, con strumenti capaci di generare intere campagne pubblicitarie a partire da brevi sintesi e immagini, grazie al loro modello “unificato”. “Siamo abbastanza orgogliosi delle nostre capacità di rendering testuale,” ha detto Brichtova. “Sarà utile per attività come la pubblicità – se hai bisogno di mostrare un prodotto ovunque, o anche soltanto un messaggio, devi esser preciso.”

She si aspetta che registi e altri creativi inizieranno ad utilizzare Omni nei loro progetti di lunga durata.

Prospettive future: Omni Pro

Un modello di livello superiore, Omni Pro, potrebbe rivelarsi utile per applicazioni più complesse, con un miglioramento generale in molte delle funzioni di Omni. La data di lancio del modello Pro non è stata definita, ma Brichtova ha sottolineato: “Lo rilasceremo quando riteniamo di aver raggiunto un punto di salto significativo rispetto a Flash.”

Leggi l'articolo originale →

← Torna alle news