Microsoft Research con Lens dimostra come allenare modelli di immagini in modo più efficiente

The Decoder (DE) 8 giugno 2026

Microsoft Research ha dimostrato che è possibile raggiungere risultati paragonabili a modelli molto più grandi utilizzando una frazione della potenza di calcolo. Con il modello Lens, Microsoft Research mostra una via per ottenere risultati simili ma con un costo di training significativamente ridotto.

Un modello più piccolo con un forte impatto

Lens, introdotto nella relazione tecnica, richiede circa un quinto della potenza di calcolo necessaria per il pre-training di modelli simili come Z-Image. In diversi benchmark, Lens supera modelli che sono molto più grandi; ad esempio, Hunyuan-Image-3.0 ha circa 80 miliardi di parametri, mentre Lens ne ha solo 3,8 miliardi.

Risultati eccellenti con tempi di inferenza ridotti

Both Lens and Lens-Turbo achieverà punteggi elevati con un breve tempo di inferenza e una piccola dimensione del modello, pur richiedendo ai modelli più grandi un tempo di calcolo maggiore. Questi modelli riescono a generare immagini di alta qualità, ad esempio nel riconoscimento di texture della pelle e contrasti di colori di un Rana verde.

Descrizioni ricche al posto di semplici etichette testuali

I ricercatori attribuiscono il miglioramento dell'efficienza a un modello più compatto, un maggiore contenuto informativo ad ogni passo di training e un addestramento che richiede pochi passaggi per ottenere risultati di alta qualità. Al centro di tutto c'è il dataset Lens-800M composto da 800 milioni di coppie immagine-testo. Le descrizioni delle immagini sono state generate con GPT-4.1 e hanno un numero medio di 100 parole, molto più lunghe delle descrizioni standard su internet. Secondo Microsoft, l'addestramento con descrittori testuali lunghe produce risultati nettamente migliori rispetto all'uso di testi brevi o misti.

Il dataset è costituito da descrizioni dettagliate delle immagini, che offrono molte informazioni utili per il training rispetto alle descrizioni di internet, spesso non specifiche o addirittura errate, che possono ridurre la qualità dei segnali di apprendimento.

Adattamento a risoluzioni e proporzioni diverse

I ricercatori hanno utilizzato batch di training con risoluzioni e proporzioni diverse, da ritratto a paesaggio. Nonostante il modello sia stato addestrato su un insieme fisso di dimensioni, riesce, secondo i ricercatori, a generalizzare bene su formati e risoluzioni sconosciuti fino a immagini di circa 2 megapixel. Ciò evita la necessità di costosi addestramenti con dati ad alta risoluzione.

Decisioni di architettura con effetto moltiplicatore

Per l'architettura del modello, il team ha testato diverse varianti di Variational Autoencoders (VAE) utilizzati per la traduzione tra pixel e uno spazio compattato delle immagini. Invece di affidarsi a metriche di ricostruzione tradizionali, Microsoft ha testato direttamente i candidati durante il training testo-immagine. L’implementazione migliore ha riguardato il semantico VAE da FLUX.2, che ha accelerato la convergenza.

Il modello utilizza GPT-OSS come Text-Encoder, un modello linguistico open-source di OpenAI. Secondo le analisi di ablation, Encoder linguistici più potenti offrono due vantaggi principali: il modello impara più velocemente e può gestire input in lingue per cui non è stato addestrato. Lens è stato addestrato esclusivamente su coppie immagine-testo in inglese, ma accetta comandi in cinese, francese, giapponese o spagnolo senza bisogno di dati multilingue durante l'addestramento. Encoder linguistici più forti migliorano anche la fedeltà del prompt.

Esecuzione di Reinforcement Learning

Dopo il pre-training, il modello entra in una fase di Reinforcement Learning su un insieme personalizzato di prompt chiamato Lens-RL-8K. I prompt coprono 10 categorie, tra cui essere umani, animali, scene, cibo, mondi immaginari e design UI. GPT-4.1 fornisce criteri di valutazione specifici per ogni prompt, e un modello più piccolo, GPT-4.1-mini, agisce come modello di ricompensa. L’insieme diversificato di prompt è considerato più importante della loro quantità complessiva.

Un Reasoner per interpretare gli input degli utenti

Per gestire gli input vage degli utenti, Microsoft ha aggiunto un modulo chiamato Reasoner che trasforma i prompt in comandi dettagliati. Il modulo standard utilizza GPT-5.5, alternativamente può utilizzare il GPT-OSS già utilizzato come Text-Encoder, occupando lo stesso spazio di memoria senza utilizzo aggiuntivo.

Microsoft ha inoltre sviluppato una tecnica per migliorare iterativamente il prompt-system del Reasoner senza ulteriore training, che ha dimostrato efficacia anche quando applicata a modelli molto più grandi come Qwen-Image.

Lens-Turbo: immagini in meno di un secondo

Per un’inferenza più veloce, Microsoft ha sviluppato una versione distillata chiamata Lens-Turbo, che genera un’immagine in appena quattro passaggi. Mentre il modello standard richiede circa tre secondi su una GPU H100 per generare un’immagine di megapixel, Lens-Turbo impiega meno di un secondo.

In benchmark test su fedeltà al prompt, rendering di testo e complessità della scena, Lens supera FLUX.2-Klein e Z-Image, e in alcuni casi perfino Qwen-Image che ha cinque volte più parametri. I ricercatori ammettono però deboli risultati nel rendering di testi in lingue come il francese o il giapponese, un problema che si spiega con il set di dati limitato.

Rilascio open-source

Lo Studio Microsoft ha rilasciato il codice e i modelli di Lens in licenza MIT. I pesi dei modelli sono disponibili su Hugging Face, mentre il codice per l’inferenza è reperibile nel repository GitHub. Microsoft sottolinea che Lens è pensato esclusivamente per lo studio e non è approvato per un utilizzo in ambiente produttivo. Essendo i dati di training in parte derivati da fonti web, è possibile che il modello generi contenuti distorti o problematici, pertanto gli utenti devono implementare misure di sicurezza complementari.

Altri sviluppi interni di Microsoft

Recentemente, il team MAI guidato da Mustafa Suleyman ha lanciato modelli di immagini per prodotti commerciali. I modelli MAI-Image-2 e MAI-Image-2.5 hanno raggiunto la terza posizione nell’arena.ai, ad un livello simile a Nano Banana 2 di Google, ma a differenza del modello OpenAI ChatGPT Images 2.0.

Contenuti KI curati da esperti

Con l’abbonamento a THE-DECODER, puoi leggere informazioni su intelligenza artificiale senza sponsor. Partecipa alla nostra comunità: commenta nel sistema di commento, ricevi la newsletter settimanale sull’IA, 6 volte l’anno la newsletter "KI Radar" che presenta approfondimenti sull’evoluzione del settore, ricevi lo sconto fino al 25% su eventi online sull’IA, e hai accesso a tutto l'archivio dei dati degli ult

Leggi l'articolo originale →

← Torna alle news