Red Hat AI 3: maggiore agilità e nuove funzioni di inferenza per i flussi di lavoro AI
Red Hat, leader nel software open source, ha recentemente annunciato la disponibilità di Red Hat AI 3, una significativa evoluzione della sua piattaforma di intelligenza artificiale pensata per le esigenze delle imprese. Questa nuova versione integra le più recenti innovazioni di AI Inference Server, Enterprise Linux AI (RHEL AI) e OpenShift AI, ponendosi come soluzione chiave per affrontare le sfide dell'IA su larga scala.
L'obiettivo primario di Red Hat AI 3 è quello di portare maggiore semplicità ed efficienza nell'inferenza di IA ad alte prestazioni, facilitando il passaggio dei carichi di lavoro dall'ambiente di test (prove di concetto) alla produzione. La piattaforma è stata progettata per migliorare notevolmente la collaborazione tra i team che lavorano su applicazioni abilitate dall'IA, supportando un approccio più agile e integrato.
Semplicità e scalabilità per l'inferenza AI
Red Hat AI 3 offre la capacità di scalare e distribuire con maggiore agilità i carichi di lavoro di IA attraverso un'ampia gamma di ambienti, inclusi quelli ibridi e multi-vendor. Questa flessibilità è cruciale per le aziende che operano con infrastrutture diversificate. La piattaforma migliora anche la collaborazione tra i team su carichi di lavoro di IA di ultima generazione, come gli agenti autonomi, all'interno di una piattaforma comune e unificata.
Un aspetto fondamentale di Red Hat AI 3 è la sua versatilità: supporta qualsiasi modello su qualsiasi acceleratore hardware, coprendo un vasto spettro di implementazioni, dai centri dati tradizionali al cloud pubblico e agli ambienti di IA sovrana. Questa ampiezza di supporto garantisce che le organizzazioni possano sfruttare al meglio le proprie risorse esistenti e future, senza vincoli legati alla specifica infrastruttura hardware.
La nuova versione della piattaforma si è evoluta per offrire un'inferenza scalabile ed economicamente vantaggiosa, basandosi su progetti open source chiave come vLLM e llm-d, nonché sulle comprovate capacità di ottimizzazione dei modelli di Red Hat. L'obiettivo è fornire un servizio di modelli linguistici di grandi dimensioni (LLM) con qualità di produzione, garantendo prestazioni elevate e affidabilità.
La rivoluzione di llm-d e Red Hat OpenShift AI 3.0
Red Hat OpenShift AI 3.0 introduce la disponibilità generale di llm-d, una componente fondamentale che abilita l'inferenza distribuita intelligente. Questa funzionalità sfrutta il valore dell'orchestrazione di Kubernetes e le prestazioni di vLLM, combinandoli con tecnologie open source all'avanguardia. Tra queste, troviamo la Kubernetes Gateway API Inference Extension, la libreria di trasferimento dati a bassa latenza NVIDIA Dynamo (NIXL) e la libreria di comunicazione DeepEP Mixture of Experts (MoE). L'integrazione di queste tecnologie consente a llm-d di offrire un'architettura robusta e altamente performante per l'inferenza di LLM.
Vantaggi operativi e di costo
Grazie a queste innovazioni, le organizzazioni possono ottenere benefici tangibili, tra cui:
- Riduzione dei costi: attraverso una programmazione dei modelli intelligente e ottimizzata per l'inferenza, con un servizio disaggregato, si possono contenere le spese operative.
- Miglioramento dei tempi di risposta: la programmazione ottimizzata e l'inferenza distribuita contribuiscono a una maggiore reattività delle applicazioni AI.
- Semplicità operativa e affidabilità: le "Rutas bien iluminadas" (percorsi ben illuminati) prescrittivi di Red Hat AI 3 snelliscono il processo di deployment di modelli su larga scala in Kubernetes, garantendo maggiore coerenza e stabilità.
- Flessibilità: il supporto multi-piattaforma per il deployment dell'inferenza LLM su diversi acceleratori hardware offre alle aziende la libertà di scegliere le soluzioni più adatte alle proprie esigenze e al proprio budget.
llm-d: un sistema distribuito e scalabile
llm-d, basato su vLLM, lo trasforma in un sistema di servizio distribuito, consistente e scalabile. È integrato in modo stretto con Kubernetes e progettato per garantire prestazioni prevedibili, un ROI misurabile e una pianificazione efficace dell'infrastruttura. Questi miglioramenti sono specificamente mirati a risolvere le sfide generate dalla gestione di carichi di lavoro LLM complessi e dal servizio di modelli massicci, come i modelli Mixture-of-Experts (MoE), che richiedono risorse significative e un'orchestrazione sofisticata.
Miglioramenti di produttività ed efficienza in Red Hat AI 3
Red Hat AI 3 introduce una serie di nuove funzioni sviluppate per migliorare la produttività e l'efficienza complessiva nello sviluppo e nell'implementazione dell'IA.
Modello come Servizio (MaaS) per un controllo centralizzato
Tra le principali novità spiccano le capacità di Modello come Servizio (MaaS), basate sull'inferenza distribuita. Queste permettono ai team IT di agire come veri e propri fornitori di MaaS interni, gestendo e servendo modelli comuni in modo centralizzato. Ciò offre un accesso on-demand a sviluppatori e applicazioni di IA, migliorando la gestione dei costi e supportando casi d'uso che non possono essere eseguiti su servizi pubblici di IA a causa di preoccupazioni relative alla privacy o ai dati sensibili.
L'Hub AI: gestione centralizzata degli asset AI
L'Hub AI è un componente chiave che consente agli ingegneri di piattaforma di esplorare, implementare e gestire asset fondamentali di IA. Offre un hub centrale con un catalogo curato di modelli, inclusi modelli di IA generativa validati e ottimizzati. Funge anche da registro per la gestione del ciclo di vita dei modelli e come ambiente di deployment per configurare e monitorare gli asset di IA in esecuzione su OpenShift AI. Questo centralizzazione semplifica la scoperta e l'utilizzo dei modelli, accelerando i progetti di IA.
Gen AI Studio: prototipazione e sperimentazione
Il Gen AI Studio fornisce agli ingegneri di IA un ambiente dedicato per interagire con i modelli e prototipare applicazioni di IA generativa. Include una funzione di endpoint per gli asset di IA, che permette di scoprire e consumare modelli disponibili e server MCP (Model Context Protocol), progettati per snellire l'interazione dei modelli con strumenti esterni. Il playground integrato offre un ambiente interattivo e indipendente dalle sessioni per sperimentare con i modelli, testare i prompt e regolare i parametri per casi d'uso specifici come il chat e la generazione aumentata da recupero (RAG).
Nuovi modelli validati e API unificate
Red Hat AI 3 non si limita solo all'infrastruttura, ma offre anche nuovi modelli validati e ottimizzati da Red Hat per semplificare ulteriormente lo sviluppo. Tra questi ci sono modelli popolari di codice aperto, come gpt-oss di OpenAI e DeepSeek-R1, così come altri modelli specializzati, come Whisper, per la conversione della voce in testo, e Voxtral Mini, per gli agenti abilitati dalla voce.
L'azienda ha inoltre aggiunto un livello API unificato basato su Llama Stack, che facilita lo sviluppo allineandosi con gli standard del settore, come i protocolli di interfaccia LLM compatibili con OpenAI. Ha anche adottato il Protocollo di Contesto del Modello (MCP), uno standard che snellisce il modo in cui i modelli di IA interagiscono con strumenti esterni, migliorando l'interoperabilità e l'efficienza.
Kit di strumenti per la personalizzazione dei modelli
Red Hat AI 3 incorpora un nuovo kit di strumenti per la personalizzazione dei modelli, modulare ed estensibile. Questo kit è sviluppato a partire dalla funzione esistente di InstructLab e offre librerie Python specializzate che forniscono agli sviluppatori maggiore flessibilità e controllo nel processo di adattamento e ottimizzazione dei modelli.
Il kit di strumenti è alimentato da progetti open source, come Docling, per il processo dei dati. Questo accelera l'ingestione di documenti non strutturati e la loro trasformazione in un formato leggibile dall'IA. Inoltre, include un framework flessibile per la generazione di dati sintetici e un hub di training per il fine-tuning degli LLM. Per quanto riguarda l'hub di valutazione, esso aiuta gli ingegneri di IA a monitorare e validare i risultati, consentendo loro di sfruttare i propri dati proprietari per migliorare la precisione e la rilevanza dei risultati di IA ottenuti. Questo approccio completo alla personalizzazione e all'ottimizzazione dei modelli è cruciale per le aziende che desiderano adattare l'IA alle loro esigenze specifiche e ai loro set di dati proprietari.
In sintesi, Red Hat AI 3 rappresenta un passo avanti significativo nell'offerta di soluzioni di IA enterprise, fornendo alle aziende gli strumenti necessari per implementare, gestire e scalare carichi di lavoro di intelligenza artificiale in modo più efficiente, sicuro ed economico, supportando l'innovazione in ambienti complessi e diversificati.