Introduzione a ‘North Mini Code’: il modello 30B di Cohere per lo sviluppo software
Cohere ha rilasciato ‘North Mini Code’, il suo primo modello open-weight orientato agli sviluppatori. Con 30B di parametri e 3B parametri attivi per token, il modello è stato progettato per consentire ai team di eseguire modelli di alto livello senza richiedere cluster GPU estesi.
North Mini Code
North Mini Code ha 30B parametri totali, di cui 3B vengono attivati durante ogni elaborazione. Il modello è focalizzato su tre compiti principali: generazione del codice, ingegneria software agente e attività di terminali. È un modello di input-testo, output-testo, che non accetta immagini o video come input.
Caratteristiche
- Numero totale di parametri: 30B
- Parametri attivi per token: 3B
- Contesto: 256K token
- Lunghezza massima di output: 64K token
- Licenza: Apache 2.0
- Disponibile su: Hugging Face, Cohere API, Cohere Model Vault, OpenRouter
- Richieste hardware minime: 1× H100 @ FP8
L'architettura
North Mini Code utilizza un Transformer decoder-only con strati di MoE sparse. L'attenzione si alternava tra due tipi in un rapporto 3:1. L’attenzione con finestra scorrevole utilizza RoPE per le posizioni. Le attenzioni globali non utilizzano alcun embedding posizionale. Il blocco feed-forward contiene 128 esperti. Otto esperti vengono attivati per token. Ogni esperto è un FFN con attivazione SwiGLU.
Routa
L'attivazione del router è ottenuta tramite un modello singolo densi seguita da una selezione top-k. Il mix di strati sparse mantiene bassi i calcoli attivi, ampliando la capacità complessiva.
Formazione
Cohere ha utilizzato due fasi di formazione post-creazione: prima, la fine-tuning supervisionata a due stadi, seguita da apprendimento con rinforzo utilizzando premio verificabile. Queste fasi hanno concentrato sull'abilità di codifica agente.
Prestazioni
Cohere segnala un punteggio di 33.4 sull'Indice di Analisi Artificiale della Codifica. Il modello è stato testato su SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench v2, Terminal-Bench Hard, SciCode e LiveCodeBench v6.
La metodologia è molto specifica. SWE-Bench utilizza il SWE-agent testare v1.1.0. Terminal-Bench v2 utilizza un semplice ReAct tool con un solo strumento terminale. Terminal-Bench Hard utilizza il Terminus-2 test. Ogni benchmark ha utilizzato tre semi, quindi i risultati sono stati mediati. Campionamento ha utilizzato temperatura 1.0 e top_p 0.95.
Velocità
Nelle prove interne di Cohere, North Mini Code ha raggiunto un carico di uscita fino all'aumento di 2.8x. Questo risultato è stato ottenuto con la medesima concorrenza hardware. Il modello ha mostrato un vantaggio del 30% per la latenza del token intermedio. Il tempo per il primo token si è avvicinato. Devstral Small 2 conserva un piccolo vantaggio TTFT.
Applicativi con esempi
Cohere ha ideato North Mini Code per i workflow agenti. Tre modelli si distinguono:
- Orchestrazione di sottogenti: un agente principale delega sottogenti su compiti. Esempio: un agente scrive test unitario mentre un altro ripara codice malfunzionante.
- Mappatura delle architetture di sistema: il modello legge un repository e fa schizzo della sua struttura. Esempio: traccia chiamate servizi prima un riprogettamento ampio.
- Revisioni di codice: il modello esamina i cambiamenti per problemi. Esempio: segnala un riferimento null non protetto prima una fusione.
Iniziare
Il percorso più veloce è Hugging Face Transformers. Installa Transformers da fonte per questo modello. Raccomandato campionamento è la temperatura di 1.0 e top_p 0.95.
Esempio di utilizzo
Per servire North Mini Code, vLLM è adatto. È necessario vLLM main e la libreria melody di Cohere. L’analisi precisa delle risposte dipende da essa.
Avviare vLLM
Segui i seguenti comandi per installare e avviare il servizio vLLM:
In sintesi
Più di mille sviluppatori IT oggi hanno accesso ai modello avanzato, open-weight come North Mini Code. Il vantaggio di tali modelli è notevole per il mercato digitale, che necessita sempre maggiore di automazione e di strumenti di intelligenza artificiale avanzati, soprattutto nella sfera della programmazione e del test software. Il modello è progettato per funzionare efficientemente e scalabilmente, rendendolo un’opzione attraente per team di ingegneri e sviluppatori in cerca di strumenti di codifica agente.