Ai Agenti Stanno Iniziando la Fase di Ristrutturazione Mentre le Imprese Affrontano il Problema della Affidabilità
Man mano che gli agenti AI aziendali vengono implementati in produzione, le organizzazioni si scontrano con un crescente problema di affidabilità. Molti team stanno scoprendo che le prestazioni dei modelli linguistici di grandi dimensioni (LLM) da sole non determinano il successo degli agenti in ambiente produttivo. I flussi di lavoro a lungo termine devono sopravvivere a crisi, preservare lo stato, recuperare da malfunzionamenti, gestire i costi di inferenza e coordinarsi attraverso API, strumenti e sistemi aziendali.
Dopo un’onda iniziale concentrata sull’implementazione rapida, le organizzazioni ora devono rivalutare le implementazioni del primo livello e progettare nuovamente le architetture degli agenti primi ruoli attorno all’orchestrazione dei flussi di lavoro, all’osservabilità, al governo e al recupero, ha spiegato Preeti Somal, Senior VP Engineering presso Temporal Technologies, durante l’ultima occasione dell’AI Impact Series a New York.
“Abbiamo molti clienti che ci contattano per realizzare la versione 2.0 dello stesso agente,” ha detto Somal. “Hanno dovuto agire in fretta, ma non hanno prestato attenzione alle fondamenta critiche. I sistemi collassano, quindi tornano a ricostruire partendo da una base più affidabile.”
I sistemi agenziali stanno intensificando problemi ingegneristici conosciuti
Per Temporal, una società impegnata nell'orchestrazione dei flussi di lavoro la cui infrastruttura precede l’attuale ondata di AI aziendale agente, il cambiamento riflette una realizzazione più ampia sull’esigenza di sistemi AI produttivi che richiedano una esecuzione duratura, una gestione dello stato, una visibilità dei flussi e meccanismi per recuperare quando i modelli o i sistemi sottostanti falliscono.
“Questi modelli non sono necessariamente nuovi,” ha detto Somal. “L’AI li amplifica semplicemente.”
I sistemi agenziali introducono complessità aggiuntiva perché spesso coinvolgono processi multi-step duraturi che si estendono a diversi servizi, modelli, API e strumenti. Un singolo flusso di lavoro può chiamare diversi modelli linguistici, accedere a sistemi di recupero, avviare applicazioni esterne e gestire lo stato per ore o giorni. Spesso, i problemi ingegneristici emergono solo dopo la deployment.
“La gente crea agenti senza pensare al che succederà se l'agente si blocca,” ha detto Somal. “Dovrò riavviare l’intero processo dell’agente?”
Può importare moltissimo per aziende che operano con vincoli di costo rispondere a questa domanda. La riavvio dei flussi di lavoro dopo un errore può moltiplicare i costi di inferenza, aumentare la latenza e causare esperienze negative per i clienti.
Perché gli agenti a lungo termine richiedono una nuova architettura
Le aziende oggi affrontano sempre di più agenti eseguiti per lunghi periodi, a volte per molte ore o giorni, interagendo con strumenti e sistemi di supporto. I problemi di affidabilità aumentano quando i processi persistono nel tempo e impattano sia nello stato che nella memoria, concetti spesso trattati come sinonimi nell’ambito dell’AI.
Lo stato riguarda l’esecuzione del flusso di lavoro. Include dove l’agente si trova in un processo, quali azioni sono state completate e dove riprendere dopo un guasto. La memoria o contesto invece conserva le informazioni che l’agente porta avanti tra interazioni o compiti.
“Lo stato dell'agente riguarda che passo e che azioni sono state eseguite, e se qualcosa va in crash, da dove vorrebbero recuperare, rispetto al pezzo di contesto e memoria”, ha spiegato Somal.
Questa distinzione diventa sempre più cruciale quando le aziende superano le semplici interazioni di chatbot per concentrarsi su processi commerciali a lungo termine. A titolo di esempio, Somal menziona il caso di Customer Abridge nel settore sanitario, dove i flussi di lavoro gestiscono visite mediche passando attraverso diversi stadi: audio processing, sintesi, richieste ai modelli e generazione di riassunto post-consulto.
“Questo non è solo una parte del flusso,” ha detto Somal. “Tagliamo i video, sintetizziamo, richiamiamo i LLM e generiamo i riassunti finali. Tutto sta coordinato.”
La conseguenza per le aziende è che agenti di successo dipendono sempre più da sistemi capaci di resistere agli interruzioni, coordinare servizi e mantenere la continuità nel tempo.
Il ruolo dello scheletro deterministico
Un Framework utile per la progettazione AI aziendale è lo scheletro deterministico, ha spiegato Somal, che descrive il ruolo di Temporal in questo contesto.
“Definisce il percorso che desideri seguire,” ha detto. “Chiama il cervello, ma se il cervello non risponde lo chiama di nuovo. Se il cervello risponde ma passaggi successivi falliscono, ripristina dal punto in cui il fallimento è avvenuto.”
Nel contesto di questa prospettiva, il modello linguistico funziona come un sistema probabilistico in grado di produrre output variabili, mentre il software di orchestrazione mantiene l’affidabilità delle esecuzioni. Questo concetto è chiave per i sistemi aziendali che richiedono prevedibilità nonostante la natura non deterministica dei modelli. Un flusso di lavoro di acquisto, un riassunto sanitario, un escalation supporto clienti o un processo di conformità non possono semplicemente fallire muto perché un modello ha fatto timeout o una dipendenza esterna è collassata.
“Quello a cui prestate attenzione è assicurarvi di poter riprendere e che non paghiate in token extra se qualcosa va male,” ha detto Somal.
Affidabilità, visibilità ed economia dei costi dei token
Man mano che i dirigenti aziendali valutano il return on investment sull’AI, la visibilità sui costi è diventata un problema crescente. Agenti a lungo termine fanno spesso diversi richiami a modelli di LLM lungo flussi di lavoro complessi, che possono creare schemi di spesa opachi. Somal ha descritto un vantaggio operativo dell'orchestrazione come visibilità dove i costi si accumulano. Poiché i flussi di lavoro sono osservabili passo dopo passo, i team possono notare dove i token vengono utilizzati in un processo di agente multi-stage.
“Avete una visibilità completa sull'intero processo in un'unica interfaccia,” ha detto. “Puoi vedere dove spendi i token in un agente che richiama diversi sistemi in diversi step.”
Il recupero dei flussi di lavoro è anche