PixelRAG batte i parser testuali nella precisione riduce i costi di 10 volte
Le pipeline enterprise RAG si avviano in maniera simile: un parser testuale converte pagine web e documenti in testo semplice così da poterli suddividere in blocchi e indicizzare per il recupero. Questo passo di conversione distrugge però i segnali di recupero — e, stando alle nuove ricerche, è responsabile della maggior parte delle risposte errate.
Un team di ricerca di UC Berkeley, Princeton University, EPFL e Databricks ha pubblicato una settimana fa un articolo presentando PixelRAG, un sistema che salta completamente questa conversione. Invece di trasformare le pagine in testo, PixelRAG le rende come screenshot, le indica come immagini e fornisce direttamente a un modello reader vision-to-language i blocchi recuperati. Testato su 30 milioni di frammenti di schermata che coprono l'intera Wikipedia, il sistema batte i metodi testuali in sei benchmark, migliorando la precisione del 18,1% rispetto ai modelli a base testuale.
Secondo il gruppo di ricerca, i parser sono un problema difficile da risolvere in modo duraturo.
Rendere le schermate evita perdite di dati e complessità
"Migliorare i parser è un processo senza fine poiché ogni sito richiede un trattamento particolare," ha spiegato a VentureBeat Yichuan Wang, primo autore e dottorando presso UC Berkeley. "Il nostro obiettivo era esplorare se le recenti tecnologie di vision-language modeling (VLM) potessero permettere di saltare completamente quel problema e realizzare un sistema di recupero in grado di funzionare su tutti i siti web senza bisogno di ingegneria specifica per ogni sito."
I parser HTML distruggono i segnali necessari alle pipeline RAG aziendali. "La struttura del web moderno richiede rendering, parsing, pulizia, divisione in blocchi e diversi passaggi artigianali," ha aggiunto Wang. "Ogni passaggio introduce errori potenziali e astrazioni che allontanano sempre di più dal contenuto originale del sito. Ci chiedevamo se fosse possibile eliminare la maggior parte di questa complessità e operare direttamente sul documento reso."
Wang ha notato inoltre che il parsing inevitabilmente perde informazioni: immagini, strutturazione visiva, tipografia, enfasi testuale (es. testi in grassetto), tabelle e layout vengono persi o convertiti in approssimazioni testuali non fedeli.
"Ogni parser, per quanto sofisticato possa essere, perde fondamentalmente delle informazioni nel processo," ha evidenziato Wang.
I tre modi in cui il RAG testuale perde le risposte
La ricerca ha identificato tre motivi per cui il RAG testuale perde la risposta finale prima che raggiunga l'utente. Tutti e tre sono stati testati sul benchmark SimpleQA, una raccolta standard di 1000 domande di fatto relative a Wikipedia:
- Perdita del parser (36,6% dei fallimenti): La conversione da HTML a testo distrugge completamente il contenuto strutturato, in modo tale che all'interno del corpus non vi sia alcun blocco testuale che contenga la risposta.
- Perdita di rilevanza (55,2% dei fallimenti): La risposta esiste nel corpus ma risulta spiazzata nel ranking; infatti, il 75,9% delle query presenta un blocco di informazioni secondarie al primo posto, che spinge almeno la risposta corretta al 20° posto in basso.
- Perdita di lettura (8,2% dei fallimenti): La risposta corretta arriva all'utente ma la mancanza di struttura impedisce che venga attribuita correttamente.
Come funziona PixelRAG
A differenza degli LLM standard che leggono solo testo, i modelli vision-to-language (VLM) elaborano immagini come input insieme al testo. Questi modelli possono interpretare una pagina web resa in modo analogo a un essere umano, mantenendo la struttura layoutuale. "In molte attività di estrazione strutturata, crediamo che i VLM abbiano un vantaggio innato poiché riescono a ragionare contestualmente sui contenuti e sull'impaginazione e non si basano solo su rappresentazioni testuali piatte," ha dichiarato Wang.
Più in concreto, PixelRAG si basa su un sistema a quattro tappe che opera esclusivamente su immagini e dati visivi:
Rendering
Le pagine vengono renderizzate utilizzando la libreria di automazione Playwright, una finestra di visualizzazione fissa da 875 pixel e i dati vengono divisi in tiles di 1024 pixel di altezza. I 7 milioni di articoli di Wikipedia producono circa 30 milioni di tiles. Le risorse vengono cache localmente e resi offline in modo completamente autonomo.
Indicizzazione
Ogni tile viene codificato come un vettore singolo da 2048 dimensioni utilizzando Qwen3-VL-Embedding-2B, e registrato in un indice approssimato di vicini più prossimi FAISS. L'indice completo occupa circa 120 GB in fp16 ed è aggiornabile incrementalmente senza il ricaricamento completo.
Addestramento
Il modello viene addestrato su dati sintetici basati sulla base di dati, con una minima selezione di false negative per filtrare le mancanze di risultati. Il metodo LoRA (una tecnologia leggera per addestrare solo una piccola parte dei pesi del modello) viene applicato sia al back-bone modellistico linguistico che all'encoder visivo. L'addestramento su circa 40.000 coppie viene completato in meno di tre ore su un unico H100.
Memoria
I tiles con schermate per Wikipedia occupano 5,6 TB, ma un'approccio di rendering on-demand elimina il bisogno di memorizzazione persistente: tutti i tiles vengono compressi, i screenshot eliminati e le pagine generate nuovamente in tempo reale al momento della richiesta. L'indice vettoriale occupa circa 120 GB.
Sei benchmark, 10 volte meno token e un problema non risolto
I ricercatori hanno testato PixelRAG su sei benchmark, che coprono domande rispondibili sulla base di Wikipedia, estrazioni da tabelle, QA multimedial e news live. Hanno affermato che supera il RAG testuale in tutti e sei. Per esempio, in SimpleQA raggiunge un livello di accuratezza del 78,8% rispetto al 71,6% del parser testuale migliore; su query basate su tabelle strutturate, la differenza si amplia a 48,8% rispetto al 42,5%. I team hanno bisogno di modelli di classe Qwen3-VL-4B o superiori per ottenere vantaggi; modelli più piccoli fanno registrare un divario di più del 12,5 punto percentuale.
Il vantaggio economico è il più forte a breve. In test, un agente AI che utilizza PixelRAG richiede 3,6 milioni di token di prompt contro 37,5 milioni per il recupero testuale. I costi sono tra il 2 e il 4 volte inferiori rispetto a soluzioni alternative, tra cui Google, con una maggiore precisione. La compressione delle