pxpipe: Ridurre i costi Token di Claude Code con il rendering delle immagini

The Decoder (DE) 4 luglio 2026

pxpipe è uno strumento open source che consente di ridurre i costi token di Claude Code trasformando input testuali di grandi dimensioni in immagini PNG compatte. Anthropic applica un numero fisso di token in base alla dimensione in pixel delle immagini e non ai contenuti testuali. Questo permette di rappresentare testi densi come codice o JSON con circa 3,1 caratteri per token immagine invece di 1 carattere per token testo.

Funzionamento di pxpipe

pxpipe funziona come un proxy locale che rende le istruzioni del sistema, la documentazione degli strumenti e i cronistorie di vecchi chat in immagini, lasciando invariati i messaggi correnti e le uscite del modello. L'immagine qui sotto mostra come il modello visualizza il testo reso. Circa 48.000 caratteri di istruzioni di sistema e documentazione degli strumenti vengono compressi in una singola pagina PNG densamente compilata, che costerebbe circa 25.000 token in testo ma solo 2.700 in immagini.

Nell'esempio della demo di Fable 5, i costi di sessione diminuiscono da $42,21 a soli $6,06 a causa del contenuto altamente comprimibile.

Risultati dei Test

Gli sviluppatori hanno notato che Opus 4.7 e 4.8 leggono male circa il 7% delle immagini renderizzate, mentre GPT 5.5 mostra risultati peggiori nel contesto delle immagini.

Per questo motivo, questi modelli non sono attivati per default, ma solo come opzioni aggiuntive.

Tuttavia, Fable 5 ottiene un'esattezza del 100% nei test di calcolo con nuovi numeri casuali che non può ricordare.

Scarsezza e Velocità

Il processo ha alcuni svantaggi: è considerato perduto, e le stringhe esatte come hash possono essere riconosciute in modo errato quando lette dall'immagine. Inoltre, il modello richiede più tempo per elaborare le immagini renderizzate, poiché deve prima interpretarle utilizzando un encoder visivo, invece di leggere direttamente il testo.

Compatibilità

Per default, pxpipe supporta Claude Fable 5 e GPT 5.6. L'effetto può essere contato su benchmark e valutazioni nel repository, dove sono presentate le capacità di compressione. I fornitori di modelli di intelligenza artificiale potrebbero addebitare di più per il processo delle immagini se questa pratica fuori dall'usuale dovesse radicarsi.

Precedenti Simili

L'idea di fornire testi ai modelli di intelligenza artificiale in forma compressa di immagini non è nuova. DeepSeek ha sviluppato un sistema OCR che elabora documenti testuali come immagini, che, secondi gli articoli tecnici, può schiacciare il testo fino a 10 volte, conservando il 97% dell'informazione.

Leggi l'articolo originale →

← Torna alle news