NVIDIA lancia Nemotron 3 Nano Omni, un modello unificato per visione, audio e linguaggio per agenti AI fino a 9 volte più efficienti
NVIDIA ha presentato oggi Nemotron 3 Nano Omni, un potente nuovo modello multimodale open source che unifica in una sola architettura le capacità di visione, audio e linguaggio. Questa innovazione riduce notevolmente il tempo di elaborazione e migliora la comprensione contestuale, consentendo agli agenti AI di produrre risposte più rapide e precise quando si ha a che fare con video, audio, immagini e testo.
I sistemi di agenti artificiali oggi utilizzano spesso modelli separati per visione, parola parlata e linguaggio scritto, perdendo tempo e contesto nel passare dati da un modello all’altro. NVIDIA Nemotron 3 Nano Omni elimina questa frammentazione, permettendo agli sviluppatori di creare agenti AI più efficienti e precisi, con un controllo totale sui dati e la flessibilità necessaria per adattare il modello a diversi ambienti di distribuzione.
Un modello multimodale con eccellenti capacità di precisione e basso costo
Nemotron 3 Nano Omni è un modello multimodale in testa alle classifiche per la sua precisione e la sua capacità di elaborazione. Ha ottenuto risultati eccellenti su sei leader board, in particolare per l’intelligenza documentale complessa, la comprensione video e audio.
Le aziende che hanno già adottato Nemotron 3 Nano Omni includono Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir, Pyler, e molte altre stanno valutando il modello. Gautier Cloix, CEO di H Company, afferma che Nemotron 3 Nano Omni sta rivoluzionando modo in cui i suoi agenti interpretano e interagiscono con gli ambienti digitali in tempo reale.
Velocità e integrazione per agenti multimodali
Gli agenti AI per il supporto ai clienti oggi spesso debbono gestire registrazioni a schermo, audio caricato e log dei dati, oppure agenti finanziari devono interpretare PDF, fogli di calcolo, grafici e note vocali. Fino a ora, il più delle volte queste funzioni venivano svolte con modelli separati per visione, parola parlata e linguaggio. Questo approccio aumenta la latenza, frammenta il contesto e introduce costi ed errori.
Con la sua architettura di tipo 30B-A3B "hybrid mixture-of-experts", Nemotron 3 Nano Omni unifica gli encoder per visione e audio, eliminando la necessità di modelli separati per la percezione. Questo rende gli agenti AI fino a 9 volte più rapidi rispetto ad altri modelli open multimodali con la stessa interattività. Gli agenti possono operare più velocemente, ridurre i costi e scalarsi efficacemente, mantenendo la qualità e la rispostività.
Il modello è progettato per integrarsi con altri modelli propri in nuvola oppure con altri modelli della famiglia NVIDIA Nemotron, come Nemotron 3 Super per operazioni ad alta frequenza o Nemotron 3 Ultra per attività complesse. Il modello fornisce un percorso agile ai sottosistemi dei flussi di lavoro, tra cui il controllo degli ambienti grafici, l’intelligenza documentale e la capacità di gestire ragionamenti video e audio.
Applicazioni specifiche
La capacità del modello Nemotron 3 Nano Omni lo rende ideale per molteplici usi. Ecco alcune applicazioni specifiche:
- Agenti utilizzati per il controllo di interfacce grafiche: il modello elabora con alta fedeltà schermate di 1920x1080 pixel. Gli agenti possono interpretare e comprendere le interfacce grafiche in tempo reale.
- Intelligenza documentale: interpreta documenti, grafici, tabelle, screenshot e contenuti video misti per agevolare il ragionamento in contesti aziendali critici.
- Comprende video e audio: unisce il contesto audio-video in un'unica analisi continua, essenziale per agenti di assistenza clienti, analisi di ricerca o monitoraggi.
Open e flessibile, adatto a ogni ambiente
Il modello è rilasciato con pesi aperti, dataset e tecniche di training, permettendo alle aziende di personalizzarlo, analizzarlo e distribuirlo senza restrizioni. Gli sviluppatori possono utilizzare strumenti come NVIDIA NeMo per adattarlo a casi specifici o otimizzarlo per domini verticali.
I modelli Nemotron sono disponibili per adattarsi a ogni tipo di ambiente — da dispositivi locali, come la serie NVIDIA Jetson, ai NVIDIA DGX Spark e DGX Station, fino a ambienti centrali e di cloud computing. I fornitori potranno distribuirli in base a normative, sovranità nazionale o esigenze locali riguardanti i dati.
Nemotron 3 Nano Omni è attualmente disponibile tramite:
- Hugging Face;
- OpenRouter;
- il portale build.nvidia.com;
- una vasta rete di partner NVIDIA;
- piattaforme di esecuzione e servizi di cloud.
Per saperne di più
L’utilizzo di Nemotron 3 Nano Omni richiede uno sforzo sostenuto e una formazione specifica. NVIDIA ha preparato linee guida, tutorial tecnici e casi d’uso completi per gli sviluppatori. Si raccomanda di seguire gli aggiornamenti sulla crescita dell’intelligenza artificiale agente e su AI basata su NVIDIA Nemotron iscrivendosi a:
- I canali NVIDIA AI su LinkedIn, Instagram, X e Facebook;
- Il blog tecnico NVIDIA;
- I tutorial video in streaming e su richiesta;
- I gruppi di lavoro e comunità open source.
La famiglia Nemotron 3, che include modelli come Nano, Super e Ultra, è già diventata popolare con oltre 50 milioni di download nell'ultimo anno. L’estrazione della sua versione Omni espande queste capacità in aree di applicazioni multimodali e agenti AI.