Gli agenti AI necessitano di abilità: Martin Keen sugli strumenti per LLM
In un recente video della serie "think" di IBM, Martin Keen, un Master Inventor presso IBM, ha analizzato il concetto cruciale delle abilità degli agenti AI. Queste abilità rappresentano i mattoni fondamentali che consentono ai modelli linguistici di grandi dimensioni (LLM) di svolgere compiti complessi, interagendo in modo efficace con strumenti e servizi esterni. Keen illustra dettagliatamente come queste abilità vengono definite e perché sono indispensabili per la creazione di agenti AI che siano sia affidabili che pienamente funzionali nel contesto del mondo reale. La sua analisi fornisce una chiara roadmap per gli sviluppatori e i ricercatori che mirano a superare i limiti attuali degli LLM, dotandoli di una capacità pratica di "fare" oltre il semplice "sapere".
Comprendere le abilità degli agenti AI
Keen spiega che, sebbene gli LLM siano straordinariamente potenti e abbiano accesso a una vasta gamma di informazioni, spesso mancano della conoscenza procedurale necessaria per eseguire compiti nel mondo reale. Egli osserva che gli LLM "conoscono molti fatti", ma non necessariamente "come il lavoro viene effettivamente svolto". È proprio qui che entrano in gioco le abilità degli agenti AI. Queste abilità fungono da ponte essenziale, fornendo all'LLM istruzioni specifiche e chiare su come utilizzare determinati strumenti o servizi per raggiungere un risultato desiderato. Senza queste abilità procedurali, un LLM potrebbe essere in grado di descrivere come risolvere un problema, ma non di agire concretamente per risolverlo, rendendo le abilità un componente indispensabile per l'autonomia e l'efficacia operativa degli agenti.
La struttura di un file di abilità
Un file di abilità fondamentale, secondo Keen, è un semplice file markdown che include un nome e una descrizione. Il nome identifica chiaramente l'abilità, rendendola facilmente riconoscibile, e la descrizione spiega in quali circostanze l'agente dovrebbe utilizzarla. Ad esempio, un'abilità denominata "PDF Builder" potrebbe avere una descrizione come: "Utilizza quando l'utente chiede di estrarre un PDF". Queste informazioni di base sono cruciali per permettere all'LLM di scegliere l'abilità appropriata tra quelle disponibili, garantendo che le sue azioni siano pertinenti al contesto della richiesta dell'utente.
La discussione completa può essere trovata sul canale YouTube di IBM. Le abilità degli agenti AI e il loro funzionamento — direttamente da IBM.
Oltre a questi campi obbligatori, i file di abilità possono includere anche componenti opzionali che ne aumentano la sofisticazione e la flessibilità:
scripts/: Questa directory può ospitare codice eseguibile, come script Python o Bash, che l'agente può eseguire per realizzare l'abilità. Questi script sono il cuore dell'azione, permettendo all'agente di interagire dinamicamente con sistemi esterni o di elaborare dati.references/: Questo componente può contenere risorse statiche, come modelli o file di dati, che gli script potrebbero necessitare per funzionare correttamente. Ad esempio, un modello per generare un report specifico o un set di dati predefiniti.
Questi componenti opzionali permettono implementazioni di abilità più sofisticate e dinamiche, trasformando un semplice file descrittivo in un vero e proprio pacchetto funzionale che abilita l'agente a eseguire operazioni complesse e personalizzate.
Rivelazione progressiva negli agenti AI
Keen introduce il concetto di "rivelazione progressiva" (progressive disclosure) come un metodo per gestire la complessità delle abilità degli agenti AI. Questo approccio prevede l'organizzazione delle informazioni su più livelli, iniziando con i dettagli più essenziali e rivelandone altri solo quando necessario. Tale strategia mira a evitare il sovraccarico cognitivo per l'LLM e a migliorare l'efficienza del processo decisionale. Keen delinea tre livelli distinti:
- Livello 1: Metadati Questo include il nome e la descrizione dell'abilità, fornendo una comprensione di alto livello del suo scopo. È il primo contatto dell'LLM con l'abilità, permettendo una rapida valutazione della sua pertinenza.
- Livello 2: Corpo Questo livello contiene le istruzioni fondamentali, come i passaggi dettagliati o la logica richiesta per eseguire l'abilità. Qui l'LLM trova le informazioni necessarie per comprendere come l'abilità funziona.
- Livello 3: Cartelle opzionali Queste possono includere script e riferimenti, fornendo il codice eseguibile e i dati necessari per l'effettiva realizzazione dell'abilità. Questi dettagli sono accessibili solo quando l'LLM ha deciso di utilizzare l'abilità e ha bisogno dei componenti operativi.
Questo approccio a livelli assicura che l'LLM riceva la giusta quantità di informazioni al momento giusto, prevenendo così il sovraccarico cognitivo e migliorando significativamente l'efficienza e la precisione nell'esecuzione dei compiti.
Tipi di conoscenza per gli agenti AI
Keen evidenzia quattro tipi chiave di conoscenza che gli agenti AI possono sfruttare per operare in modo efficace e versatile:
- Contesto del modello (Model Context): Si riferisce alla conoscenza intrinsecamente presente all'interno dell'LLM stesso, acquisita durante la fase di addestramento. È la base di dati e la comprensione linguistica interna dell'agente.
- Accesso agli strumenti (MCP - Model Context Protocol): Questo è il Protocollo del Contesto del Modello, che consente agli agenti di chiamare API e servizi esterni. Permette all'agente di interagire con il mondo digitale esterno, estendendo le sue capacità oltre la sua conoscenza intrinseca.
- Conoscenza fattuale (RAS - Retrieval Augmented Generation): Questo si riferisce alla Generazione Aumentata dal Recupero, dove gli agenti recuperano informazioni rilevanti da basi di conoscenza esterne per aumentare le loro risposte. È fondamentale per mantenere l'informazione aggiornata e per fornire dettagli specifici che potrebbero non essere stati inclusi nel training iniziale dell'LLM.
- Conoscenza procedurale (Skills): Questa è la conoscenza di come eseguire compiti, esplicitamente codificata nei file di abilità. È ciò che trasforma il "sapere" dell'LLM in "fare", guidando l'agente attraverso sequenze di azioni per raggiungere un obiettivo.
Combinando queste diverse forme di conoscenza, gli agenti AI possono raggiungere un livello di funzionalità e autonomia significativamente più elevato, superando i limiti di ciascun tipo di conoscenza preso singolarmente e permettendo loro di affrontare una gamma molto più ampia di problemi e richieste.
Costruire la fiducia negli agenti AI
La capacità di definire e gestire le abilità è cruciale per costruire la fiducia negli agenti AI. Keen sottolinea che comprendere come un agente opera, cosa è in grado di fare e quando può farlo, è fondamentale per la fiducia dell'utente. Questa trasparenza operativa è la chiave per superare le preoccupazioni e le perplessità che spesso accompagnano l'implementazione di nuove tecnologie AI. Egli osserva che le abilità, in particolare quelle che consentono agli agenti di interagire con sistemi esterni o di eseguire codice, comportano rischi intrinseci come l'iniezione di prompt (prompt injection) e l'avvelenamento degli strumenti (tool poisoning). L'iniezione di prompt può portare un agente a eseguire azioni non intenzionali attraverso input maligni, mentre l'avvelenamento degli strumenti può compromettere la funzionalità o l'integrità degli strumenti con cui l'agente interagisce. Pertanto, test rigorosi e un'implementazione attenta e sicura sono essenziali per mitigare questi rischi e garantire che gli agenti operino in modo prevedibile e sicuro.
Keen conclude tracciando un parallelo con la scienza cognitiva umana, notando che anche gli esseri umani possiedono diversi tipi di memoria: semantica (conoscenza dei fatti), episodica (ricordi di eventi specifici) e procedurale (conoscenza di come fare le cose). Riflettendo queste strutture nella progettazione degli agenti AI, gli sviluppatori possono creare sistemi AI più capaci, intelligenti e, soprattutto, più affidabili, che riflettano meglio la complessità dell'intelligenza umana e interagiscano con il mondo in modo più naturale e sicuro.