GLiGuard di Fastino Labs: Modello Open Source con 300 Milioni di Parametri per la Modulazione della Sicurezza

MarkTechPost 14 maggio 2026

Con l’aumento continuo dell’uso di modelli di grandi lingue (Large Language Models - LLM) nei dispositivi commerciali e con il crescente ruolo degli agenti IA nel navigare su Internet, scrivere ed eseguire codice e interagire con servizi esterni, la modulazione per la sicurezza sta diventando gradualmente uno degli aspetti più costosi in termini operativi nello stack.

I developer che hanno distribuito LLM in ambiente di produzione sanno bene il problema: è necessario valutare ogni input dell’utente prima che raggiunga il modello, e ogni risposta del modello prima che venga data all’utente. Ciò implica che il modello di controllo esegue un’operazione su ogni singola richiesta, in ogni turno di una conversazione. Il ritardo accumulato e il costo di queste operazioni, quindi, compaiono in cascata. La generazione attuale di modelli open-source di modulazione della sicurezza - come LlamaGuard4 (12B), WildGuard (7B), ShieldGemma (27B) e NemoGuard (8B) - sono tutti modelli a decoder e hanno miliardi di parametri, progettati per la flessibilità, non per la velocità.

Fastino Labs ha rilasciato GLiGuard, un modello open-source per il controllo della modulazione della sicurezza con 300 milioni di parametri concepito specificatamente per risolvere questo problema. GLiGuard valuta molteplici dimensioni della sicurezza in una singola passata, e attraverso nove benchmark di sicurezza, la sua precisione corrisponde o supera modelli che sono 23-90 volte più grandi, funzionando fino a 16 volte più velocemente.

Perché i decoder LLM potrebbero non essere gli strumenti giusti per la modulazione della sicurezza

Per comprendere davvero ciò che distingue GLiGuard, aiuta capire perché i modelli di controllo esistenti sono lenti. La maggior parte dei modelli principali di controllo è costruita su architetture di trasformatore basate solo su decoder, che generano i loro verdetti di sicurezza in modo autoregressivo, un token alla volta, esattamente come un modello linguistico esteso genera una risposta a un messaggio di chat.

Questo design aveva senso allorché i requisiti di sicurezza erano mutevoli. I modelli a decoder possono interpretare descrizioni di compiti linguistici naturali e adattarsi alle nuove politiche di sicurezza senza dover ritarare. Tuttavia, la generazione autoregressiva è inerentemente sequenziale, rendendola lenta e costosa in termini di elaborazione.

C’è un problema composto che si aggiunge a questo. La maggior parte dei modelli di controllo deve valutare gli input attraverso molteplici dimensioni di sicurezza: quale tipo di danno è presente, se l'input dell’utente sta tentando di superare la formazione di sicurezza, se la risposta del modello stessa è insicura e così via. Poiché i modelli a decoder generano l'output in modo sequenziale, queste valutazioni vengono prodotte una dopo l’altra, e il ritardo si accumula man mano che vengono valutati criteri aggiuntivi.

In altre parole, l’architettura che rende i modelli a decoder flessibili è anche l’architettura che li rende gli strumenti sbagliati per un problema fondamentalmente basato su classificazione.

Che cosa fa effettivamente GLiGuard

GLiGuard è un modello a encoder di piccole dimensioni che riconcettualizza la modulazione della sicurezza da un problema di generazione testuale a un problema di classificazione testuale. Gli encoder-processori analizzano l'intero input in modo simultaneo e forniscono un'etichetta di classificazione unica da un insieme di etichette fisse, mentre i modelli a decoder generano il loro output token dopo token, da sinistra verso destra.

L’idea architettonica chiave sta in come GLiGuard gestisce compiti multipli contemporaneamente. Invece di generare token, GLiGuard codifica sia il testo di input che le definizioni delle mansioni (etichette) insieme. Questi vengono quindi forniti al modello, che valuta ogni etichetta contemporaneamente in un singolo passaggio in avanti e restituisce l’etichetta con punteggio più alto per ogni compito. Poiché tutti i compiti e le rispettive etichette sono parte dell'input, valutare ulteriori dimensioni di sicurezza non incrementa in alcun modo il tempo; significa semplicemente aggiungere più etichette all'input.

GLiGuard esegue quattro compiti di moderazione contemporaneamente in un singolo passaggio:

Classificazione della sicurezza (sicuro / non sicuro) — Applicata sia agli input degli utenti prima della generazione che alle risposte del modello dopo la generazione.
Rilevazione delle strategie di jailbreak su 11 strategie specifiche, tra cui iniezione di prompt, bypass del roleplay, sovrascrittura delle istruzioni, e ingegneria sociale. Se rilevata una strategia di jailbreak, il prompt viene automaticamente segnalato come non sicuro.
Rilevamento di categorie di danno su 14 categorie — violenza, contenuti sessuali, discorsi odiosi, esposizione di dati personali, disinformazione, sicurezza infantile, violazione dei diritti d’autore, e altre. Un singolo input può attivare più categorie contemporaneamente.
Rilevamento dei rifiuti (compliance / rifiuto), gestito separatamente per misurare il sovrarifiuto (quando il modello rifiuta richieste sicure) e rilevare la falsa compliance (quando il modello sembra acconsentire ma non lo fa). Se viene rilevato un rifiuto, la risposta viene automaticamente contrassegnata come sicura.

Dati di addestramento e addestramento fine-tunning

GLiGuard è stato addestrato utilizzando un mix di dati addestrativi generati artificialmente e annotati da parte umana. Per la sicurezza degli input utente e la sicurezza delle risposte, il team ha adottato il dataset WildGuardTrain, che include 87.000 esempi annotati da parte umana. Per la rilevazione delle categorie dannose e delle strategie di jailbreak, le etichette per i campioni dannosi sono state generate utilizzando GPT-4.1.

Durante la prima fase di addestramento, il modello ha avuto difficoltà a distinguere tra categorie dannose simili come linguaggio tossico e violenza, quindi il team ha utilizzato Pioneer per generare dati sintetici supplementari con casi estremi focalizzati su queste distinzioni dettagliate.

Dal lato dell'architettura, GLiGuard è stato addestrato attraverso il fine-tuning del checkpoint GLiNER2-base-v1, utilizzando l'ottimizzatore AdamW, per un totale di 20 epoche. GLiNER2 è l'architettura propria di Fastino per la classificazione multi-tasca del testo, un ottimo punto di partenza per un modello progettato per valutare più insiemi di etichette in un unico passaggio.

Risultati benchmark: precisione e velocità

Il gruppo di ricerca ha valutato GLiGuard su nove benchmark

Leggi l'articolo originale →

← Torna alle news