L'AI co-clinica: abilitare un nuovo modello per l'assistenza sanitaria
I sistemi sanitari di tutto il mondo stanno cercando di ottenere risultati migliori, costi inferiori e un'esperienza migliorata sia per i pazienti che per i clinici. Tuttavia, il progresso è limitato da una carenza globale di esperti clinici, con l'Organizzazione Mondiale della Sanità che prevede un deficit di oltre 10 milioni di operatori sanitari entro il 2030.
Se è vero che l'intelligenza artificiale (AI) è spesso vista come la chiave per colmare questa lacuna, finora non è stata in grado di soddisfare pienamente le esigenze dei clinici e dei pazienti. Per questo motivo, oggi annunciamo la nostra iniziativa di ricerca sull'AI co-clinician, volta a esplorare come l'AI possa amplificare meglio l'esperienza dei medici e fornire cure di qualità superiore ai pazienti.
Il percorso di Google DeepMind nell'AI medica
A Google DeepMind, il nostro percorso nell'AI medica si è evoluto in modo significativo. Siamo passati dal padroneggiare test di conoscenza medica in stile esame con MedPaLM, al raggiungere le prestazioni dei medici in consultazioni mediche simulate basate su testo con AMIE, includendo anche contesti di sperimentazione di fattibilità nel mondo reale. Abbiamo anche una lunga storia nello studio di come clinici e sistemi di AI possano lavorare insieme in modo sinergico.
L'ipotesi della "cura triadica"
Ipotizziamo che la prossima evoluzione dell'erogazione dell'assistenza sanitaria comporterà un modello di "cura triadica". In questo modello, gli agenti AI possono aiutare i pazienti nei loro percorsi di cura sotto l'autorità clinica del loro medico. La medicina è sempre stata uno sport di squadra, e gli agenti AI possono portare più compagni di squadra in campo: estendendo la portata dei clinici pur garantendo che essi mantengano il giudizio e il controllo fondamentali.
L'iniziativa di ricerca AI co-clinician
Questa visione costituisce il fondamento della nostra iniziativa di ricerca sull'AI co-clinician: un'AI progettata per funzionare come membro collaborativo del team di cura che interagisce con i pazienti sotto una supervisione clinica esperta. Abbiamo progettato e valutato l'AI co-clinician sia in contesti orientati al clinico che al paziente. Affrontare entrambe le prospettive è cruciale affinché l'AI possa migliorare la qualità, ridurre i costi, aumentare la disponibilità e migliorare l'esperienza complessiva dell'erogazione dell'assistenza.
L'AI co-clinician in contesti orientati al clinico
I progressi nella ricerca sull'AI medica sono fondamentali affinché tali sistemi possano essere più affidabili e utili per i clinici nell'assistenza ai pazienti.
Affidabilità e sintesi delle prove
Per un medico, uno strumento è utile solo se è affidabile e basato su fatti concreti. Abbiamo quindi ricercato quanto bene l'AI co-clinician potesse supportare i clinici fornendo prove di alta qualità in modo rapido e preciso.
In collaborazione con medici accademici, abbiamo adattato il framework "NOHARM" per testare la nostra AI in merito a due tipi specifici di errori:
- Errori di commissione: ovvero la fornitura di informazioni errate.
- Errori di omissione: ovvero la mancata segnalazione di informazioni critiche.
In valutazioni cieche dirette, i medici hanno costantemente preferito le risposte dell'AI co-clinician rispetto ai principali strumenti di sintesi delle prove disponibili. In un'analisi oggettiva di 98 quesiti realistici di assistenza primaria, il nostro sistema ha registrato zero errori critici in 97 casi, mostrando un miglioramento significativo rispetto a due sistemi AI ampiamente utilizzati dai medici.
Lo studio ha utilizzato un confronto cieco di 98 quesiti realistici di assistenza primaria, i quali sono stati curati da una vasta gamma di fonti e successivamente raffinati da un panel di medici curanti. Questo processo iterativo a più fasi ha coinvolto una ricerca di background completa e lo sviluppo di metriche di risposta specifiche per il quesito, per consentire una rigorosa valutazione professionale dell'accuratezza clinica e della conformità alle migliori pratiche. Sfruttando questa fase di affinamento guidata da esperti, la metodologia ha permesso una caratterizzazione precisa degli errori di omissione e commissione specifici dello scenario di consenso, garantendo che la valutazione riflettesse le complessità del processo decisionale clinico nel mondo reale.
Precisione nelle domande sui farmaci: il test RxQA
Oltre alla sintesi affidabile delle prove cliniche, i sistemi di AI dovrebbero rispondere a quesiti su farmaci e interventi terapeutici con la precisione che i medici richiedono. Questo è un compito notoriamente difficile per l'AI e, finora, è rimasto poco esplorato. Per affrontare questa lacuna, abbiamo valutato l'AI co-clinician sul set di domande RxQA OpenFDA, un benchmark impegnativo specificamente progettato per valutare la conoscenza e il ragionamento complessi sui farmaci. Abbiamo osservato progressi significativi nel superare questi test, superando altri sistemi AI all'avanguardia, specialmente quando le domande venivano poste in modo aperto, proprio come accade nella pratica clinica reale. I risultati sottolineano il potenziale dell'AI avanzata nel fornire assistenza utile mentre i clinici navigano le esigenze sempre più basate sui dati della pianificazione e gestione delle cure.
Il set RxQA era originariamente concepito come un test a domande a scelta multipla (MCQ) in cui anche i medici di base ottenevano punteggi modesti. Sebbene i nostri risultati mostrino miglioramenti significativi nelle prestazioni MCQ dei sistemi AI nel set RxQA OpenFDA pubblicamente disponibile, le esigenze dei clinici nel mondo reale si presentano tipicamente come domande aperte piuttosto che come la necessità di identificare la risposta corretta da opzioni predeterminate. In questo compito clinico più realistico di rispondere a domande aperte sui farmaci, l'AI co-clinician supera i modelli all'avanguardia disponibili. Nel loro insieme, questi risultati dimostrano che l'AI può rispecchiare la competenza dei medici umani in tali aspetti del ragionamento clinico, con significative opportunità di ulteriore miglioramento.
L'AI co-clinician in contesti orientati al paziente
Oltre ai contesti di assistenza orientati al clinico, stiamo anche indagando come l'AI co-clinician si comporta all'interno di contesti di ricerca orientati al paziente. La valutazione clinica esperta include tradizionalmente sottili segnali visivi e uditivi, come l'osservazione dell'andatura di un paziente, le sfumature dei modelli respiratori o l'aspetto dei cambiamenti cutanei. Mentre studi precedenti (incluso il nostro lavoro con il Beth Israel Deaconess Medical Center) hanno dimostrato il valore delle chat testuali AI prima di un appuntamento medico, limitare le interazioni al solo testo vincola fondamentalmente il valore clinico dell'AI. La medicina non è solo testo; richiede occhi, orecchie e voce per una comprensione completa del paziente.
Oltre il testo: l'AI multimodale
Questo è il motivo per cui stiamo esplorando il potenziale dell'AI multimodale in tempo reale come componente assistivo del team di cura. Basandosi sulle capacità di Gemini e Project Astra, abbiamo testato le capacità dell'AI co-clinician di utilizzare audio e video in tempo reale per interagire con i pazienti, simulando chiamate telemediche in cui un'AI capace potrebbe un giorno supportare una migliore diagnosi e gestione sotto supervisione esperta. Ulteriori dettagli sulla nostra metodologia e sui risultati sono disponibili nel nostro rapporto tecnico, intitolato "Towards Conversational Medical AI with Eyes, Ears and a Voice".
Studi di simulazione e valutazione delle competenze
Lavorando con medici accademici di prestigiose istituzioni come Harvard e Stanford, abbiamo progettato uno studio di simulazione randomizzato che ha utilizzato 20 scenari clinici sintetici e 10 "pazienti-attori" che erano in realtà medici. L'agente AI ha dimostrato nuove capacità che vanno ben oltre i sistemi solo testuali, come la capacità di guidare i pazienti attraverso esami fisici complessi in tempo reale. Ad esempio, ha corretto con successo la tecnica di un paziente nell'uso dell'inalatore e ha guidato manovre della spalla per identificare una lesione della cuffia dei rotatori, mostrando un'interazione dinamica e proattiva.
Risultati e direzioni future
Sebbene si discuta frequentemente del potenziale dell'AI di eguagliare o superare le prestazioni cliniche umane, queste simulazioni ad alta fedeltà ci permettono di valutare più rigorosamente questa premessa. Abbiamo valutato oltre 140 aspetti delle abilità di consultazione e abbiamo scoperto che i medici esperti hanno avuto prestazioni complessivamente migliori rispetto al sistema AI, in particolare nell'identificare "bandiere rosse" e nel guidare esami fisici critici. Questo risultato suggerisce che questi sistemi sono attualmente meglio utilizzati come strumenti di supporto preziosi per i professionisti, piuttosto che come sostituti del giudizio clinico insostituibile.
Allo stesso tempo, il nostro lavoro evidenzia i progressi significativi nelle capacità dell'AI: l'AI co-clinician ha dimostrato un livello di performance paragonabile o superiore a quello dei medici di base (PCP) in 68 delle 140 aree valutate. I risultati sottolineano una vasta promessa per l'integrazione dell'AI nell'assistenza sanitaria e indicano chiaramente le aree specifiche in cui ulteriori ricerche possono far progredire in modo più incisivo l'AI medica.
I risultati provengono da uno studio di simulazione randomizzato, in cieco sull'interfaccia, crossover, che ha coinvolto 120 incontri telemedici ipotetici eseguiti da medici di base reali, dall'AI co-clinician o da GPT-realtime. Per la valutazione, un gruppo di residenti di medicina interna ha fungito da pazienti-attori, interpretando 20 scenari ambulatoriali standardizzati. Questi scenari, che coprivano una gamma diversificata di condizioni cliniche, sono stati specificamente progettati per richiedere un ragionamento uditivo e visivo proattivo. Criteri personalizzati per ogni scenario hanno valutato sette domini di qualità della consultazione, con ogni elemento che utilizzava un punteggio ancorato da 0 a 2 per distinguere tra omissioni, completamento parziale ed esecuzione completa delle attività richieste.