Cohere condivide un agente di programmazione open-source che funziona su un solo H100

VentureBeat AI 9 giugno 2026

Cohere open-sources un agente di programmazione che funziona su un solo H100

Le squadre di ingegneria impegnate nel costruire pipeline di agenti per la programmazione dispongono ora di un'alternativa concreta open-source ai modelli gestiti, come Claude Fable 5, un'alternativa che funziona su un singolo H100. Il trade-off principale: North Mini Code generato da Cohere, lanciato martedì, produce tre volte più token di uscita rispetto ai modelli comparabili nei test indipendenti, un costo in termini di verbosità che si accumulano nei carichi di lavoro su larga scala.

Il nuovo modello open-source è un modello da 30 miliardi di parametri costituito da un mix di esperti (MoE) con 3 miliardi di parametri attivi per token, costruito per l'ingegneria del software basata sugli agenti, inclusa l'orchestrazione dei sottogruppi, la mappatura dell'architettura, i controlli del codice e il lavoro nel terminale. Il modello supporta una finestra di contesto di 256.000 token con una lunghezza massima di generazione di 64.000 token, ed è disponibile su Hugging Face sotto una licenza Apache 2.0.

Cosa può fare North Mini Code

North Mini Code è progettato per coprire l'intera pila di programmazione basata sugli agenti. Ecco cosa fa il modello ed in cosa si distingue.

Software engineering

Cohere ha costruito North Mini Code specificamente per l'ingegneria del software basata sugli agenti, non è stato adattato da una base generale. Disponibile con funzionalità integrate per l'utilizzo di strumenti e la capacità di pensiero interlacciato, Cohere afferma che questo migliora le prestazioni in task multi-step per gli agenti.

Cartografia dell'architettura e revisione del codice

North Mini Code può analizzare e mappare l'architettura del sistema, illustrare le dipendenze e effettuare controlli sul codice in grandi repository. Con una finestra di contesto di 256.000 token, può mantenere progetti multi-file considerevoli in un singolo passaggio di contesto.

Elaborazione di task basati sul terminale

Il modello è addestrato per l'uso in ambienti di terminale, gestendo le interazioni shell, gli script dei pacchetti e gli strumenti a riga di comando. Cohere lo ha collaudato su Terminal-Bench v2, che testa gli agenti in ambienti terminali reali piuttosto che nel codice generato in maniera sintetica.

Costruzione del modello

North Mini Code è un modello di tipo sparse mixture-of-experti con 128 esperti, di cui 8 vengono attivati per token. La richiesta di calcolo in fase di inferenza è più simile a un modello con 3 miliardi di parametri nonostante i 30 miliardi complessivi. Nick Frosst, co-fondatore di Cohere, ha dimostrato il modello in funzione su un Mac Studio attraverso MLX, utilizzando circa 20 gigabyte di RAM, la stessa macchina che usa per lo sviluppo locale.

Cohere ha addestrato il modello in due fasi di sintonizzazione supervisionata seguita da apprendimento per rinforzo con ricompense verificabili su oltre 70.000 task verificabili distribuiti tra circa 5.000 repository, deduplicati rispetto a SWE-Bench.

Piuttosto che ottimizzare un singolo scheletro di agente, Cohere ha addestrato il modello attraverso tre scaffold di agenti: SWE-Agent utilizza un CLI ricco di comandi specializzati; Mini-SWE-Agent utilizza un singolo strumento bash con output grezzo; OpenCode utilizza strumenti singolari con JSON strutturato.

Cohere riporta un incremento del 10% sui test di valutazione OpenCode grazie al metodo multi-harness, mantenendo le performance di SWE-Agent.

Integrazione nel mercato

North Mini Code entra in un mercato ora composto da Mistral Devstral Small 2, GitHub Copilot, Cursor e Claude Fable 5—ciascuno con trade-off diversi in termini di costi e distribuzione.

Confrontando direttamente Cohere a Mistral Devstral Small 2, il modello da 24 miliardi di parametri in forma densa, Cohere afferma di offrire un throughput di uscita 2,8 volte maggiore e un vantaggio di latenza inter-token del 30% in test interni eseguiti su configurazioni hardware identiche. Cohere anche rivendica, nel suo post tecnico su Hugging Face, che North Mini Code supera modelli open-source fino a quattro volte rispetto al numero di parametri sui propri benchmark, tra cui modelli da 120 miliardi di parametri.

Analisi artificiale

Artificial Analysis classifica North Mini Code al nono posto su 127 modelli a peso aperto in termini di velocità di output (210 token al secondo), con un tempo per il primo token di 0,25 secondi contro una mediana di 1,95 secondi. Si posiziona al 18° su 127 nel suo Indice di Intelligenza. Un avvertimento emergente dai dati è che il modello produce 75 milioni di token di output per completare l'Indice di Intelligenza, rispetto a una mediana di 25 milioni. In pipeline agentiche ad alta intensità, questa verbosità si accumula in termini di costo e latenza dell'inferenza.

"All'improvviso le persone iniziano a chiedersi: sto ottenendo abbastanza valore economico da quei token?" ha dichiarato Frosst nel video di lancio. "La distribuzione locale è un modo per abilitare le persone, rendendo l'IA davvero funzionale per loro."

Nel mercato attuale, GitHub Copilot, Cursor e Claude Code si basano su un modello di abbonamento o su un modello a consumo senza opzioni on-premise. Fable 5 di Anthropic, al momento il modello di programmazione più avanzato disponibile pubblicamente, costa 50 dollari per un milione di token di output. Secondo Frosst, il modello rappresenta l'opposto di Fable.

"è piccolo, economico, under licenza Apache 2.0, e distribuibile localmente. Questa è la direzione verso cui devono andare i modelli linguistici. Sotto forma di codice aperto, piccoli, trasparenti e sovrani, non grandi, costosi, proprietari e dominanti," ha scritto Frosst su X in un post.

Che impatto ha per le aziende

Per le squadre che costruiscono pipeline agentiche di programmazione, il lancio di North Mini Code chiarisce un insieme di decisioni che si stavano iniziando a delineare.

L'addestramento agente specifico diventa una base di confronto

La distinzione tra modelli sintonizzati specificamente per la programmazione e quelli addestrati specificamente per workflow agentici, con chiamate di strumenti verificati e robustezza multi-harness

Leggi l'articolo originale →

← Torna alle news