Perplexity AI prensenta sistema ibrido loco-nuvola per l'inferenza su Computex 2026
Perplexity AI, la startup di ricerca in rapida crescita valutata 20 miliardi di dollari, presenta un nuovo sistema ibrido denominato sistema di orchestrazione per l'elaborazione sull'edge e nel cloud. Annunciato in occasione di Computex 2026, il sistema offre il primo approccio autonomo in grado di eseguire in tempo reale e durante un compito l'analisi di dove processare diversi carichi di lavoro.
Nel sistema, Perplexity dimostra un software che decide automaticamente dove rimane l’informazione sull’utente locale e dove viene inviata ad ambienti modelli nel cloud. Nella dimostrazione, i modelli eseguono su Intel Core Ultra Series 3; queste determinazioni permettono di conservare informazioni sensibili localmente, inviando compiti complessi verso il cloud. Srinivas ha ribadito che l'approccio bilancia intelligenza, accuratezza, privacy e costo.
Riconosce che modelli sull’edge esistono già su vari strumenti, però il punto chiave sta nel sistema che decide autonomamente la gestione dei compiti. L'informazione finanziaria o medica rimane locale, mentre l’elaborazione richiede modelli avanzati nel cloud.
Un portavoce ha affermato in un'email che nessun prodotto ha mai fatto ciò prima. Sebbene non sia disponibile, il sistema ibrido sarà lanciato nei prossimi settimane.
Da agenti cloud a orchestrazione ibrida su dispositivi
Per comprendere tutta la portata del prodotto dimostrato su Computex, è necessario seguire l’arcobaleno dei prodotti sviluppati da Perplexity dall’inizio di quest’anno.
Il 25 febbraio, Perplexity ha lanciato Computer, un agente multi-modello capace di orchestrare 19 modelli AI per completare compiti complessi. Il sistema elaborava in cloud, suddividendo gli obiettivi in sottotask e inviando ciascun compito al modello più adatto.
Alla fine di marzo, Perplexity ha presentato il prodotto Personal Computer con Mac, una soluzione ibrida che permetteva agli agenti locali e nel cloud di funzionare in parallelo. Personal Computer ha accesso al sistema del Mac e alle app native.
Il sistema presenta file in uno spazio sperimentale protetto e ogni azione risulta auditabile e reversibile. L’architettura offerta durante Computex estende radicalmente Personal Computer. Prima, il Personal Computer divisa i ruoli in termini ben definiti: file locali e calcoli intensi effettuati in server.
Ora, il nuovo sistema ha la capacità autonomo di discernere dove eseguire ogni pezzo del compito — non solo il modello giusto, ma il posizione fisica ottimale.
Le tecnologie Intel e Nvidia aumentano la competitività
La dimostrazione non è avvenuta per caso. L’edizione 2026 di Computex ha concentrato una grande attenzione sull'intelligenza su dispositivi. Solo poche ore prima del keynote di Intel, il CEO di Nvidia, Jensen Huang, ha svelato RTX Spark, un nuovo superchip basato su Arm.
Con circa 20 Arm CPU cores, un Blackwell GPU con 6,144 CUDA cores, 128GB di RAM LPDDR5X e potenza per modelli di 120 miliardi di parametri, il RTX Spark Superchip rappresenta un'architettura promettente per un nuovo tipo di Windows basati su AI.
Non ha però restato indietro Intel, che ha mostrato i Xeon 6+ processori con 288 core di efficienza, realizzati in tecnologia 18A, e i Core Ultra Series 3, silicon per PC che rende possibile l'inferenza ibrida.
Perplexity ha messo a punto un’architettura che combacia con le strategie di entrambe queste aziende. Se il sistema funziona, creerà incentivi economici diretti per gli utenti (e in futuro le aziende) di investire in silicon per dispositivi locali potenti.
Più potente il chip localmente, più inferenza potrà essere processata lì, ridurre costi di cloud e migliorare la latenza per operazioni sensibili. Questo vantaggio beneficia non solo Intel e Nvidia, ma ogni produttore di silicon competente per PC AI.
Implicazioni ben al di là dell’economia della semiconduttori
Le implicazioni vanno molto al di là della sola economia delle chip. “Alla sostenibilità tecnica crescente, più intelligence si sposta sullo strumento dell'utente, in parallelo con il server per le compiti complessi, che necessitano di modelli avanzati”, ha dichiarato Perplexity.
La dichiarazione chiave riguarda l'infrastruttura sovranista. Paesi come UAE, Francia e India investono miliardi di dollari in capacità compute locale, in parte perché sensibili dati devono rimanere all'interno dei confini. Se l’inferenza può funzionare localmente, senza inviare dati verso server, non è più necessario la costruzione massiccio di data center, anche se non li elmina completamento. L’urgere si attenuò.
Un’architettura ibrida flessibile
Il piano di Perplexity per la ibridità di inferenza basa su una scommessa architettura: la gestione del sistema è più importante che i singoli modelli utilizzati.
Per gli ingegneri AI, questa scelta segnala un cambio radicale: la gestione del sistema potrebbe contare più delle singole modellazioni. L’idea basilare è di separare preoccupazioni: la gestione si preoccupa di scomposizione del compito, di stato, e coordinamento strumentale; la modello si occuperà unicamente di un compito specifico.
Perplexity ha sfruttato forte questa filosofia. La company punta a un’esperienza di consumatori che unisca modelli diversi, fornendo risposte economiche e accurate. A Perplexity, i modelli si specializzano e non si commodity.
Estendere la logica dell’ibridità
Estendere il ragionamento verso modelli fisico diversi è un passo logico. Perplexity non gestisce solo modelli diversi, ma anche ambienti diversi — scegliere dove eseguire il modello. Un modello locale leggero potrebbe gestire la sintesi di documenti sensibili a livello di privacy, mentre modelli frontier nel cloud analizzano dati di mercato più complessi.
Questo rappresenta una sfida tecnologica ambiziosa. Il suo successo richiede una precisa valutazione dell’importanza di ogni sottotask, un’intuizione precisa sulla sensibilità dei dati, capacità hardware locali e una comprensione precisa delle variazioni in termini di tempo e prestazione durante una task.
Un fallimento tecnico potrebbe risultare in informazioni sensibili inviate erroneamente nel cloud o in degradazione delle prestazioni. Perplexity ha dichiarato che il sistema sarà agnostico rispetto al tipo di chip, sebbene la dimostrazione iniziale abbia utilizzato hardware Intel.