Pinterest riduce i costi dell’intelligenza artificiale del 90% riscrivendo il modello visionario
Con 620 milioni di utenti mensili, Pinterest si trova a dover affrontare una sfida enorme: come fornire raccomandazioni di immagini rapide e personalizzate in modo scalabile? Il CTO della società, Matt Madrigal, ha risolto il problema rivedendo e riadattando un modello esistente, Qwen3-VL, sostituendo il suo livello visivo con una struttura personalizzata. Questo processo ha ridotto di oltre il 90% i costi legati all’intelligenza artificiale, con un aumento della precisione del 30%.
Personalizzazione di base
Madrigal e la sua squadra hanno concentrato il proprio lavoro sull’adattamento “fondamentale in proprio” dei modelli open source. Come spiega lui stesso in un recente podcast “VB Beyond the Pilot”, quando si ha accesso a dati veramente unici, la qualità di questi dati può superare ampiamente il vantaggio offerto da modelli di grandi dimensioni.
Come Pinterest ha adattato Qwen per la scoperta visiva
Pinterest ha utilizzato modelli open source per la ricerca e la scoperta visiva da tempo, partendo da BERT di Google e CLIP di OpenAI. Con Pin CLIP, la società ha personalizzato un modello esistente, integrandovi embeddings visivi proprietari e metadata delle immagini.
Il suo assistente vocale per lo shopping, Navigator 1, è stato costruito su Qwen3-VL, ma non in modo banale. I membri del team hanno letteralmente “tolto via” il livello encoder visivo di Qwen e lo hanno adattato agli embeddings multimodali propri. Questa personalizzazione ha permesso alla società di ottenere metadata dettagliati delle immagini e dei pin, che possono essere precalcolati offline e continuamente aggiornati con nuove informazioni per un’esperienza personalizzata.
Embeddings proprietari: vantaggi chiari
Secondo Matt Madrigal, l’utilizzo degli embeddings fatti in-house consente di ottenere un contesto molto più approfondito. Questa personalizzazione non solo semplifica la gestione delle informazioni, ma aumenta anche le prestazioni in termini di risposta e di inferenza.
Immaginiamo una situazione in cui non si usassero questi embeddings: ogni immagine ritrovata dovrebbe essere codificata in tempo reale. Questo approccio, dice Madrigal, peggiora di 20 volte il ritardo rispetto a quanto si riesce a fare oggi. “Se si tratta di qualcosa che è fondamentale per i nostri utenti finali e dovrà servire più di 600 milioni di utenti mensili, probabilmente lo svilupperemo direttamente o lo adatteremo al massimo da open source,” ha detto.
Costruire una mappa dei gusti
Un altro elemento chiave del lavoro Pinterest è la costruzione della cosiddetta “mappa dei gusti” (taste graph). Si tratta di una rappresentazione dinamica di ciò che ogni utente effettivamente ama, al di là del semplice clic. “Questa mappa cattura i gusti in evoluzione di miliardi di persone,” ha spiegato Madrigal. Mentre Google e altri motori di ricerca si rivolgono a chi sa già cosa cercare, Pinterest è la piattaforma per chi è ancora in fase di scoperta. Lo scopo? Guidare l’utente dalla fonte di ispirazione al momento d’azione, che può tradursi in un click su uno spot oppure in un acquisto.
Tutto ciò è reso possibile grazie all’unione di una struttura a grafico con il learning rappresentazionale. Gli embeddings degli utenti catturano i loro gusti in evoluzione e vengono aggiornati in base alla loro attività e ai nuovi contenuti.
- Non si tratta di un grafico sociale.
- Si basa su un grafico delle preferenze: cosa ti inspira e cosa ti ispira ad agire?
Un utente potrebbe essere un appassionato di design anni ‘50, un altro potrebbe preferire uno stile in stile Cape Cod. Queste preferenze vengono catturate negli embeddings degli utenti, e la mappa dei gusti proporrà prodotti specifici e pertinenti in base a esse.
Esplorare i benefici futuri
Nel podcast, Madrigal ha parlato anche di diversi argomenti interessanti:
- How Pinterest uses sandboxes to encourage creativity in a secure and contained environment;
- Why a continuous feedback loop can prevent visual AI slop;
- The importance of constant benchmarking to evaluate user engagement, performance, latency and other metrics.
Per ascoltare l’intervista completa, puoi trovare il podcast “Beyond the Pilot” su Spotify, Apple o qualsiasi piattaforma podcast preferisci.