Un agente ha creato una galleria 3D di Parigi collegando due Hugging Face Spaces
Costruzione di una galleria 3D interamente automatizzata
Un agente autonomo è riuscito a realizzare una galleria 3D interattiva di Parigi senza utilizzare alcun software di generazione delle immagini né strumenti di ricostruzione 3D. L’agente ha prodotto ogni singolo elemento richiesto per il progetto — incluse le immagini e gli splat 3D — invocando direttamente due Hugging Face Spaces, collegandoli in un visualizzatore cinematografico.
Questo articolo spiega come tale risultato sia ora possibile e perché rappresenta uno sguardo verso il futuro dello sviluppo software multimediale. Mitchell Hashimoto ha recentemente parlato di una transizione chiamata "economia a blocchi di costruzione", dove i percorsi più efficaci per il software non sono più monolitici, ma composti da componenti piccoli e ben documentati, che agenti intelligenti possono assemblare.
AI: buona per collegare componenti esistenti
Un osservazione chiave di Hashimoto è che l’AI non è eccezionale nel costruire da zero, ma eccelle nel unire pezzi testati. Questa teoria è stata fino ad ora incentrata sugli ambienti adatti a librerie di codice, ma ora sta cominciando a impattare sugli ambienti dell’AI multimediali.
Usare modelli d’avanguardia per immagini, video, sintesi vocale (TTS) o ricostruzione 3D, non era mai stato difficile per il modello stesso. Era l’integrazione che lo rendeva problematico: SDKs, pesi modelli, GPU, formati di input, polling. Se ogni modello fosse invece un blocco documentato ed eseguibile, un agente potrebbe collegarli esattamente come utilizza pacchetti npm.
Questo è esattamente ciò che le Hugging Face Spaces hanno piano piano realizzato.
Spaces e agenti.md
Il Hub di Hugging Face ospita migliaia di modelli d’avanguardia, molti dei quali disponibili liberamente. La maggior parte di questi è distribuita come interattivi Spaces. Ogni Gradio Space espone inoltre un file plain-text chiamato agents.md che un agente può leggere per chiamare direttamente lo spazio.
Questo file espone in un’unica volta: il URL dello schema, i template delle chiamate e di polling, il modo per caricare i file, e l’indicazione per l’autenticazione. Nessuna libreria client, nessun’integrazione hardcoded. Un agente legge queste informazioni e può guidare lo Spazio, punto all’altro, impostando semplicemente un token di accesso (HF_TOKEN).
Riuso e catene di modelli
La vera chiave di questo sistema è la catena di modelli, dove l’output di uno spazio diventa il dato di input del successivo. Prompt → immagine → 3D. Questa è la pipeline della galleria.
L’agente ha generato sei immagini a disegno, isolate su fondo nero, utili per la ricostruzione 3D da singola immagine. Dopo ha svolto anche il lavoro di "colla": ha notato che i file TripoSplat erano "Y-down", li ha ruotati, ha auto-frammezzato ogni monumento, ha compresso i file .ply in .ksplat (circa 3x più piccoli, quindi scaricabili più velocemente), ha creato un Three.js viewer con interfacce di scroll e rotazione manuale e ha caricato tutto come ambiente statico.
L’input umano era ridotto a decisioni qualitative: ad esempio, “fai in modo di zoomare”, “sostituisci l’obelisco con qualcosa di più adatto alla ricostruzione”, “la transizione è troppo lenta”.
Agenti che reagiscono al contesto
Può sembrare semplice, ma alcune di queste fasi sono state gestite direttamente dall’agente in base alla realtà. Un alto edificio a forma piramidale genera splat male. Un obelisco sottile appare noioso. Una ricostruzione in una singola vista prevede comunque l’inferenza della parte posteriore. Questo è esattamente il tipo di “R&D esternalizzato” e iterazione rapida promesso dall’economia a blocchi di costruzione, ad eccezione che il processo di R&D consisteva in una semplice conversazione.
Economia a basso costo
Il vero test di un blocco costruttivo è la capacità di poterlo riutilizzare a basso costo. Una volta realizzata questa pipeline, la creazione di intere nuove gallerie ha richiesto solo una frase per volta. “Crea una galleria simile per la Giappone”, quindi la stessa richiesta per l’Egitto, e l’agente ha svolto il resto: sei immagini dei monumenti, sei splat 3D, compressione dei file, costruzione di un visualizzatore e caricamento.
Usando sempre gli stessi due Spazio e agenti.md, ma cambiando i prompt, si può creare qualsiasi galleria in pochi istanti. Questa idea rappresenta esattamente l’economia a blocchi di costruzione in una frase: il costo marginale di un’applicazione multimediali scende in base al costo di descriverla.
Esempi visivi
Ecco due video dimostrativi: