LifeSciBench, il benchmark che misura l'AI sulla ricerca biologica reale
LifeSciBench rappresenta una significativa avanzata nel campo dell’AI applicata alla ricerca biologica. Messo a punto da OpenAI in collaborazione con Tacit Labs, si propone di testare la capacità dei modelli di AI non semplicemente di rispondere a domande scientifiche, ma di effettuare veri e propri compiti di ricerca nella scienze della vita, simile a quanto un ricercatore specializzato eseguirebbe in laboratorio o in un contesto biotecnico.
Come è nato LifeSciBench
Il benchmark si basa su settecentocinquanta task formulati da scienziati con dottorato e anni di esperienza in industrie biotech e farmaceutiche. Ogni task è stato costruito con cura per essere riconoscibile a esperti del settore. Gli esempi includono l'analisi di risultati di digital transcriptomics per identificare terapie mirate, l'interpretazione di un pacchetto regolatorio per una terapia genica e il progetto di primer per l'assemblare frammenti con un approccio Golden Gate.
I risultati
Il modello che si colloca al primo posto, GPT-Rosalind, riesce a completare il 36,1% dei task. Nonostante si tratti di una percentuale non trascurabile, mostra chiaramente il limite: su 750 compiti, 171 rimangono irrisolti da tutti i cinque modelli testati. Questo dimostra che nonostante le capacità crescenti dell’intelligenza artificiale, essa non è (ancora) all’altezza delle esigenze complesse e multifasette della ricerca scientifica.
I componenti strutturali del benchmark
La forza di LifeSciBench risiede nella sua struttura coesa e ben definita. Ogni task viene realizzato grazie alla collaborazione tra esperti e sistemi di valutazione automatizzati. I criteri di giudizio vengono definiti tramite rubriche che punteggiano la capacità del modello di seguire procedure scientifiche precise, interpretare i dati forniti e produrre risposte che siano azionabili e fondate scientificamente. I task sono testati in modo rigoroso, con cicli di revisione multipli e validazione indipendente.
Copertura disciplinare e di lavoro
LifeSciBench copre un ampio ventaglio di competenze. I task sono suddivisi in sette workflow principali, che vadano dalla gestione dell’evidenza scientifica, all’analisi, al design, all’ottimizzazione, al ragionamento, alla validazione, alle operazioni e alla comunicazione scientifica. I settori biologici coinvolgono genomica, chimica medicinale, biologia strutturale, bioinformatica clinica e altro ancora. Questa vasta copertura rende LifeSciBench uno strumento rilevante per valutare la capacità complessiva dei modelli di AI in contesti di ricerca avanzata.
Analisi dei modelli testati
- GPT-Rosalind - OpenAI's model specializzato in scienze biologiche. Punteggio normalizzato: 0,576; pass rate: 36,1%
- GPT-5.5 - Un modello generalista avanzato. Punteggio normalizzato: 0,519
- Gemini 3.1 Pro - Altro modello generalista. Punteggio normalizzato: 0,515
- GPT-5.4 - L’ultima generazione prima di GPT-Rosalind. Punteggio normalizzato: 0,479
- Grok 4.3 - Un modello di X AI. Punteggio normalizzato: 0,399
Quali sono le aree di forza?
I modelli di AI mostrano un buon livello di performance in compiti che richiedono traduzione e comunicazione scientifica. GPT-Rosalind è particolarmente bravo nell’interpretare l’evidenza, nel gestire il rischio e formulare giudizianti che un esperto potrebbe applicare in un contesto decisionale. In alcune aree, il progresso rispetto a modelli generalisti come GPT-5.5 è marcato.
- GPT-Rosalind supera GPT-5.5 nel pass rate sui task di comunicazione scientifica da 56,3% a 71,1%
- Sui task di traduzione, il pass rate passa dal 36,8% a 57,7%
- Nelle analisi di output utili per decisione di un esperto, il pass rate passa dal 29,1% a 44,7%
Nel dettaglio: dove si fermano i modelli
Non tutti i task vengono risolti in modo soddisfacente. I modelli tendono a cedere in compiti che richiedono interazione con dati complessi (immagini, dataset, figure) e richiedono un livello più elevato di precisione o rispetto per i dettagli scientifici. La lettura di un artefatto allegato, ad esempio, raramente viene gestita con la necessaria attenzione e flessibilità logica.
Questo è fondamentale per i ricercatori che usano l'AI: LifeSciBench rileva chiaramente dove un modello può essere utile in contesti di lavoro avanzato e dove invece si deve attendere una revisione umana o una maggiore integrazione con strumenti automatizzati.
Una riflessione finale
I risultati di LifeSciBench non devono essere letti solo come una classifica. I dati rappresentano un quadro delle capacità effettive dei modelli di AI nello svolgimento di lavoro scientifico in tempo reale, con tutti i vincoli e le complessità di un laboratorio. OpenAI ha aperto le domande e le rubriche di valutazione, permettendo una trasparenza che i ricercatori possono valutare autonomamente. Questo rende LifeSciBench un'importante referenza per lo sviluppo futuro dell’intelligenza artificiale nel campo delle scienze della vita.