Granite Embedding Multilingue R2: Embedding Aperti Multilingue sotto Licenza Apache 2.0

Hugging Face Blog 2 giugno 2026

I modelli di embedding multilingue devono affrontare una tensione persistente: la copertura linguistica estesa spesso comporta un aumento delle dimensioni del modello, mentre i modelli più piccoli tendono a sacrificare lingue. Se si lavora con testi in più lingue, ad esempio con il recupero aumentato per generazione (Retrieval-Augmented Generation), la ricerca incrociata di lingue o il recupero del codice sorgente in una squadra internazionale, si è inevitabilmente finiti a dover scegliere tra un modello veloce e uno sufficientemente performante.

Enterprise-Ready by Design

La release Granite Embedding Multilingual R2 presenta due modelli di embedding multilingue: un modello compatto da 97 milioni di parametri e uno completo da 311 milioni. Entrambi offrono un'ampia copertura linguistica (oltre 200 lingue) e una migliore qualità di recupero per 52 lingue, supportano contesti lunghi fino a 32.768 token (un aumento 64 volte rispetto alla versione precedente) e sono rilasciati sotto la licenza Apache 2.0.

Un Modello Sottile da 97M Multilingue con Buone Prestazioni

Il modello 97M, nome in codice granite-embedding-97m-multilingual-r2, è il modello più piccolo ma che offre le migliori prestazioni. Ha ottenuto un punteggio di 60.3 nel benchmark MTEB Multilingual Retrieval su 18 lingue. Nello stesso range di dimensione, il prossimo miglior modello (multilingual-e5-small) ha ottenuto 50.9, una differenza di +9.4 punti su un benchmark consolidato.

Quali Sono i Cambiamenti da R1?

Rispetto alla generazione precedente, R2 introduce una serie di miglioramenti. Il modello 97M ha ottenuto un aumento di punteggio di +12.2 nella MTEB Multilingual Retrieval rispetto al suo predecessore, grazie a una nuova architettura, miglioramento nei dati di addestramento e a una metodologia di potatura del modello. Il modello completo ha ottenuto un aumento di +13.0 punti.

Addestrare il Modello 311M

Il modello da 311 milioni di parametri è un encoder 22-livelli ModernBERT con un vocabolario multilingue di 262K token, addestrato con una pipeline multi-fase.

Usa dataset IBM curati (GneissWeb) e altri fonti pubbliche.

Include una potente selezione e filtro dei dati.

Si evita l'uso di dataset specifici come MS-MARCO o dataset con restrizioni non commerciali.

Come Sono Strutturati i Modelli?

La versione generale di R2 usa l'architettura ModernBERT. L'architettura ModernBERT richiama il design originale di BERT, ma incorpora tecniche avanzate delle ultime cinque anni di ricerca su transformer. L'implementazione ModernBERT permette:

lunghezza degli attenzioni alternati per ridurre il calcolo sui lunghe sequenze;

embeddings rotary position per gestire fino a 32K token;

supporto a Flash Attention 2.0 per velocizzare gli encoding su GPU moderne.

Vocabolari Multilingue

I nuovi modelli hanno adottato tokenizzatori esistenti con una copertura multilingue e di codice forte.

Il modello 311M utilizza il tokenizzer Gemma 3 (262K token);

Il modello 97M inizialmente usa il tokenizzatore GPT-OSS, ma lo pruna fino a un vocabolario di 180K token.

L'efficacia dei tokenizzatori è cruciale. Un tokenizzatore inefficiente può occupare fino alla metà del contesto per codificare un paragrafo, ad esempio in thailandese.

Modelli di Recupero e Code Retrieval

Entrambi i modelli sono addestrati su codice sorgente in Python, Go, Java, JavaScript, PHP, Ruby, SQL, C e C++. Ciò li rende idonei al recupero di codice cross-language.

Le Prestazioni sui Framework

I modelli sono compatibili con framework come sentence-transformers e transformers, compatibili con LangChain, LlamaIndex, Haystack e Milvus. Basta modificare una riga di codice per passare a modelli multilingue. Il supporto per 200+ lingue richiede solo una modifica di model name.

Velocità di Inference

La velocità di inference è critica per applicazioni aziendali. I test effettuati su un singolo NVIDIA H100 GPU con chunk da 512 token mostrano che il modello 97M gestisce più di 2500 documenti al secondo. Il modello 311M gestisce circa 1800 documenti al secondo.

Confronto Tra Modelli

I benchmark principali mostrano che entrambi i modelli superano ampiamente i concorrenti:

Il modello 97M ha un'efficienza 3 volte superiore a quella del modello 311M, mantenendo una qualità di recupero simile.

Il modello 311M offre il miglior equilibrio tra velocità e punteggio di recupero tra i modelli competitivi.

Conclusione: Qual è il Modello Giusto per Te?

La scelta tra il modello 97M e 311M dipende dalle esigenze dell'utente:

Per applicazioni che richiedono velocità e compatibilità, il modello da 97M è ideale;

Per applicazioni che necessitano di massima precisione e gestione di documenti lunghi, il modello da 311M è consigliato;

Entrambi sono distribuiti come modelli open source con ottimizzazione del codice e supporto per il calcolo su CPU.

I modelli Granite Embedding Multilingual R2 sono disponibili per test e utilizzo open source, e rappresentano un passo avanti significativo nella ricerca di embedding multilingue di alta qualità con una copertura linguistica estesa.

Leggi l'articolo originale →

← Torna alle news