Cohere lancia Command A+, un modello Sparse MoE da 218B per flussi di lavoro agenziali funzionanti su sole due GPU H100
Cohere ha annunciato il rilascio di Command A+, un modello di intelligenza artificiale progettato per gestire flussi di lavoro agenziali aziendali. Disponibile gratuitamente under la licenza Apache 2.0, Command A+ rappresenta una versione più evoluta e ottimizzata in termini di performance rispetto ai suoi predecessori. Sfrutta il paradigma del Mixture-of-Experts (MoE) per garantire un’alta efficienza computazionale e un minimo overhead, idealmente adatto per ambienti enterprise.
Architettura di Command A+
Command A+ è un trasformatore decoder-only basato su un modello Sparse Mixture-of-Experts (MoE) con un totale di 218B di parametri, di cui 25B attivi. Il modello è strutturato con 128 esperti, con 8 esperti attivi al momento del calcolo di ogni token. Questo metodo di architettura MoE permette di utilizzare solo una parte degli esperti per il calcolo di ogni token, mantenendo i parametri necessari al calcolo sempre attivi intorno al range di 25B.
I layer di attenzione in Command A+ utilizzano una combinazione di strati di attenzione a finestra scorrevole con Rotational Positional Embeddings e strati di attenzione globale senza embedding temporale. Questo rapporto si mantiene in un 3:1 tra attenzione locale e globale.
Il livello sparsificato MoE viene addestrato in modo completo, senza bypass, utilizzando un router per la selezione del token. Il router utilizza una normalizzazione sigmoide sui logits degli esperti con una selezione top-k per ogni token.
Modalità di Input e Output
Il modello gestisce i seguenti input: testo, immagini, e utilizzo di strumenti. Gli output supportati inclusero testo, ragionamenti, e utilizzo di strumenti, rendendo Command A+ adatto per contesti che richiedono un’elaborazione ragionata e interazione con strumenti esterni.
Requisiti Hardware e Quantizzazione
Command A+ è disponibile su tre varianti di quantizzazione, ciascuna ottimizzata per un minimo hardware necessario:
- BF16 (16-bit) richiede 4× B200 o 8× H100;
- FP8 (8-bit) richiede 2× B200 o 4× H100;
- W4A4 (4-bit) funziona su un unico B200 o 2× H100.
Tutte le varianti di quantizzazione mostrano una poca differenza in termini di qualità benchmark, rendendole quasi interscambiabili in diversi ambienti di deployment.
Metodologia di Quantizzazione W4A4
La quantizzazione NVFP4 W4A4 in Command A+ prevede l’utilizzo di pesi e attivazioni a 4 bit, con scaling a due livelli, applicabilmente agli esperti MoE. Il percorso di attenzione, inclusi proiezioni Q/K/V/O, cache KV e calcolo di attenzione, rimane in precisione completa. Per minimizzare eventuali gap qualitativi residuali, Cohere utilizza la tecnica Quantization-Aware Distillation (QAD) nel post-addestramento. Il modello studente quantizzato è addestrato per replicare l’output del modello “teacher” a precisione intera.
Confronto Prestazioni
Command A+ ha dimostrato miglioramenti notevoli in diversi benchmark per task agenziali. Nel τ²-Bench Telecom, il modello ha portato i punteggi da 37% a 85% rispetto al Command A Reasoning, e nel Terminal-Bench Hard, la capacità di coding agenziale ha salito i risultati da 3% a 25%.
Negli esperimenti interni della piattaforma North, il modello ha migliorato l’accuratezza di risposta alle domande enterprise del 20%. Anche l’analisi di fogli elettronici ha beneficiato, con un aumento del 32% in termini di qualità, mentre la capacità di utilizzo delle informazioni memorizzate da sessioni precedenti ha visto un incremento da 39% a 54%.
Copertura Multilingua
Un elemento distintivo di Command A+ è il sostanziale miglioramento nella copertura multilingua, raddoppiando il numero di lingue supportate da 23 a 48. Il modello mostra miglioramenti significativi nella traduzione macchina e nel ragionamento multilingue.
Performance Su Benchmark Multimodali
Command A+ è il primo modello di ragionamento multimodale di Cohere, raggiungendo punteggi del 63% su MMMU Pro e del 75.1% su MMMU. Sulla metrica MathVista ha migliorato da 73.5% a 80.6%, mentre su CharXiv il livello di ragionamento è cresciuto da 46.9% a 52.7%.
Aumento Velocità e Riduzione Latenza
Al livello di quantizzazione e concorrenza, Command A+ consegna un aumento fino a 63% nella velocità di generazione in Output Tokens per Second (TOPS) e una riduzione della Time To First Token (TTFT) fino al 17% rispetto al Command A Reasoning. La variante W4A4 aggiunge un ulteriore aumento del 47% su velocità e una riduzione della latenza di circa 13%.
Speculative Decoding
Un'ulteriore tecnica utilizzata in Command A+ è la speculative decoding, una strategia di predizione che ottimizza l'architettura MoE, permettendo un speedup fino a 1.6 volte per input testuali e multimodali.
Tokenizer
Command A+ utilizza il più recente tokenizer di Cohere. Questa implementazione genera un risultato ridotto in termini di token necessari per la stessa risposta. Si riferisce ad un miglioramento fino al 18% per testi giapponesi, 16% per coreani, e 20% per testi arabi, aumentando l’efficienza generale della tokenizzazione.
Inizio di Utilizzo
La disponibilità del modello su strumenti come vLLM e Transformers lo rende accessibile a un’ampia varietà di sviluppatori. Gli strumenti da utilizzare quando si invoca Command A+ passano attraverso i modelli Transformers, gestiti con schema JSON.
Quando la capacità di ragionamento del modello è abilitata, genera tracce di ragionamento fra i tag:
<|START_THINKING|><|END_THINKING|>
per mostrare il suo percorso logico interno.
Raccomandazioni di Configurazione
Per ottenere le migliori prestazioni con la variante W4A4, Cohere consiglia l’uso di vLLM ≥0.21.0 e cohere_melody >= 0.9.0. I parametri di campionamento suggeriti quando si utilizza la versione di ragionamento includono:
temperature=