Home Fondamenti Storia dell'AI Reti Neurali Backpropagation Architetture Token Modelli AI Case Studies Tecniche RAG RAG Avanzato GraphRAG MCP Orchestrazione LangChain LangGraph Prompt Engineering Usare l'AI ChipsBot News

NVIDIA lancia Nemotron 3 Nano Omni, un modello unificato per visione, audio e linguaggio per agenti AI fino a 9 volte più efficienti

NVIDIA Blog 14 maggio 2026

NVIDIA ha presentato oggi Nemotron 3 Nano Omni, un potente nuovo modello multimodale open source che unifica in una sola architettura le capacità di visione, audio e linguaggio. Questa innovazione riduce notevolmente il tempo di elaborazione e migliora la comprensione contestuale, consentendo agli agenti AI di produrre risposte più rapide e precise quando si ha a che fare con video, audio, immagini e testo.

I sistemi di agenti artificiali oggi utilizzano spesso modelli separati per visione, parola parlata e linguaggio scritto, perdendo tempo e contesto nel passare dati da un modello all’altro. NVIDIA Nemotron 3 Nano Omni elimina questa frammentazione, permettendo agli sviluppatori di creare agenti AI più efficienti e precisi, con un controllo totale sui dati e la flessibilità necessaria per adattare il modello a diversi ambienti di distribuzione.

Un modello multimodale con eccellenti capacità di precisione e basso costo

Nemotron 3 Nano Omni è un modello multimodale in testa alle classifiche per la sua precisione e la sua capacità di elaborazione. Ha ottenuto risultati eccellenti su sei leader board, in particolare per l’intelligenza documentale complessa, la comprensione video e audio.

Le aziende che hanno già adottato Nemotron 3 Nano Omni includono Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir, Pyler, e molte altre stanno valutando il modello. Gautier Cloix, CEO di H Company, afferma che Nemotron 3 Nano Omni sta rivoluzionando modo in cui i suoi agenti interpretano e interagiscono con gli ambienti digitali in tempo reale.

Velocità e integrazione per agenti multimodali

Gli agenti AI per il supporto ai clienti oggi spesso debbono gestire registrazioni a schermo, audio caricato e log dei dati, oppure agenti finanziari devono interpretare PDF, fogli di calcolo, grafici e note vocali. Fino a ora, il più delle volte queste funzioni venivano svolte con modelli separati per visione, parola parlata e linguaggio. Questo approccio aumenta la latenza, frammenta il contesto e introduce costi ed errori.

Con la sua architettura di tipo 30B-A3B "hybrid mixture-of-experts", Nemotron 3 Nano Omni unifica gli encoder per visione e audio, eliminando la necessità di modelli separati per la percezione. Questo rende gli agenti AI fino a 9 volte più rapidi rispetto ad altri modelli open multimodali con la stessa interattività. Gli agenti possono operare più velocemente, ridurre i costi e scalarsi efficacemente, mantenendo la qualità e la rispostività.

Il modello è progettato per integrarsi con altri modelli propri in nuvola oppure con altri modelli della famiglia NVIDIA Nemotron, come Nemotron 3 Super per operazioni ad alta frequenza o Nemotron 3 Ultra per attività complesse. Il modello fornisce un percorso agile ai sottosistemi dei flussi di lavoro, tra cui il controllo degli ambienti grafici, l’intelligenza documentale e la capacità di gestire ragionamenti video e audio.

Applicazioni specifiche

La capacità del modello Nemotron 3 Nano Omni lo rende ideale per molteplici usi. Ecco alcune applicazioni specifiche:

    • Agenti utilizzati per il controllo di interfacce grafiche: il modello elabora con alta fedeltà schermate di 1920x1080 pixel. Gli agenti possono interpretare e comprendere le interfacce grafiche in tempo reale.
    • Intelligenza documentale: interpreta documenti, grafici, tabelle, screenshot e contenuti video misti per agevolare il ragionamento in contesti aziendali critici.
    • Comprende video e audio: unisce il contesto audio-video in un'unica analisi continua, essenziale per agenti di assistenza clienti, analisi di ricerca o monitoraggi.

Open e flessibile, adatto a ogni ambiente

Il modello è rilasciato con pesi aperti, dataset e tecniche di training, permettendo alle aziende di personalizzarlo, analizzarlo e distribuirlo senza restrizioni. Gli sviluppatori possono utilizzare strumenti come NVIDIA NeMo per adattarlo a casi specifici o otimizzarlo per domini verticali.

I modelli Nemotron sono disponibili per adattarsi a ogni tipo di ambiente — da dispositivi locali, come la serie NVIDIA Jetson, ai NVIDIA DGX Spark e DGX Station, fino a ambienti centrali e di cloud computing. I fornitori potranno distribuirli in base a normative, sovranità nazionale o esigenze locali riguardanti i dati.

Nemotron 3 Nano Omni è attualmente disponibile tramite:

    • Hugging Face;
    • OpenRouter;
    • il portale build.nvidia.com;
    • una vasta rete di partner NVIDIA;
    • piattaforme di esecuzione e servizi di cloud.

Per saperne di più

L’utilizzo di Nemotron 3 Nano Omni richiede uno sforzo sostenuto e una formazione specifica. NVIDIA ha preparato linee guida, tutorial tecnici e casi d’uso completi per gli sviluppatori. Si raccomanda di seguire gli aggiornamenti sulla crescita dell’intelligenza artificiale agente e su AI basata su NVIDIA Nemotron iscrivendosi a:

    • I canali NVIDIA AI su LinkedIn, Instagram, X e Facebook;
    • Il blog tecnico NVIDIA;
    • I tutorial video in streaming e su richiesta;
    • I gruppi di lavoro e comunità open source.

La famiglia Nemotron 3, che include modelli come Nano, Super e Ultra, è già diventata popolare con oltre 50 milioni di download nell'ultimo anno. L’estrazione della sua versione Omni espande queste capacità in aree di applicazioni multimodali e agenti AI.

Leggi l'articolo originale →
← Torna alle news