Cosa codex sblocca per Notion

OpenAI Blog 9 giugno 2026

Reintegrando il loro sistema di agenti con GPT-5, Notion ha creato uno spazio di lavoro in cui l’intelligenza artificiale può ragionare, agire e adattarsi in modo autonomo.

Panoramica del contesto

Nel tardo 2022, poche settimane dopo aver ottenuto l’accesso a GPT-4, Notion aveva già lanciato un assistente per la scrittura, implementato funzionalità di domande e risposte su tutta la piattaforma e integrato in profondità i modelli OpenAI nei propri strumenti di ricerca, contenuti e pianificazione.

Tuttavia, con l’evoluzione dei modelli - e l’aumento del numero di utenti che richiedevano agli agenti di completare interi flussi di lavoro - il team di Notion ha notato limiti nella loro architettura esistente. Il vecchio schema di stimolazione dei modelli per compiti isolati limitava il soffitto delle possibili prestazioni sulla loro piattaforma. Gli agenti necessitavano di essere in grado di prendere decisioni, orchestrare strumenti e ragionare in presenza di ambiguità, e quel cambiamento richiedeva molto di più dell'ingegneria dei prompt.

“Non volevamo adattare il sistema esistente. Avevamo bisogno di un’architettura che effettivamente supportasse il funzionamento dei modelli di ragionamento.”

Sarah Sachs, Direttore Modeling AI di Notion

All'interno del rollout

Ribuilding per modelli di ragionamento, non patchando intorno ad essi

Invece di aggiustare il loro stack esistente, Notion ha completamente reinventato l'architettura. Ha sostituito le catene di prompt specifiche per compiti singoli con un modello centrale di ragionamento capace di coordinare moduli autonomi. Questi agenti possono cercare all'interno di Notion, Slack oppure in rete, aggiungere o modificare database e sintetizzare risposte usando gli strumenti necessari per compiere il task specifico.

Con il lancio di Notion 3.0, l’intelligenza artificiale non è solo integrata nei flussi di lavoro; essa li puù adesso guidare. Gli utenti possono assegnare un compito ampio - ad esempio raccogliere commenti degli stakeholder - e l’agente pianifica, esegue e fornisce un rapporto. Il passaggio verso agenti che decidono come lavorare ha richiesto di progettare fin dall'inizio autonomia del modello.

Risultati a colpo d’occhio

Testando GPT-5 con lavoro reale

Per verificare il cambiamento architettonico, Notion ha valutato GPT-5 rispetto ad altri modelli all'avanguardia utilizzando compiti specifici degli utenti. Le valutazioni erano incentrate sul feedback che Notion aveva precedentemente contrassegnato come prioritario, incluso domande emergenti in modalità Ricerca, compiti estesi che richiedevano ragionamento a più passaggi, e contenuti ambigui o obsoleti dove giudizio del modello era rilevante.

Il team ha utilizzato un insieme di valutazioni LLM, test standardizzati e feedback contrassegnati manualmente per la misurazione delle performance.

Risultati chiave:

Miglioramento del 7.6% rispetto ai modelli all’avanguardia per output allineati al feedback reale degli utenti.

Prestazioni del 15% superiori su domande complesse in modalità Ricerca.

Oltre il 100% di miglioramento su compiti strutturati a più passaggi come aggiornamenti di scadenze e ricerche sui concorrenti.

L’unico modello in grado di saturare completamente benchmark con informazioni conflittuali o obsolete.

Queste valutazioni hanno aiutato Notion a identificare dove GPT-5 aggiungeva valore - ad esempio, nel ragionamento, nell’ambiguità, nella ricerca - e dove lotturando specifico dell'ambiente poteva migliorare.

“Non abbiamo cercato di isolare compiti. Questi erano flussi di lavoro ad alto valore provenienti dal prodotto… è là che le differenze dei modelli emergono davvero.”

Sarah Sachs, Direttore Modeling AI di Notion

Lezioni per la leadership

Lezioni per squadre in implementazione con GPT-5

Ricostruire la piattaforma non era solo per lanciare Notion 3.0. Era per progettare un sistema che potesse sostenere nuove capacità del modello e adattarsi man mano migliorando in complessità. Il loro approccio offre una chiara roadmap per le altre squadre che intendono utilizzare l’AI in ambienti operativi:

Valuta ciò che conta: Utilizza compiti effettuati dagli utenti, non benchmark sintetici.

Testa il difficile: GPT-5 eccelle quando le informazioni sono ambigue, obsolette, o a più passaggi.

Progetta per l’autonomia: Se gli agenti sono incaricati di prendere decisioni, il sistema deve concedere loro lo spazio per ragionare e gli strumenti per agire.

La chiarezza produce performance: Anche i modelli all'avanguardia possono sottoperformare senza una chiara descrizione degli strumenti e una buona progettazione dell’interfaccia.

La riduzione iniziale è la strada corretta: Se il tuo sistema è stato progettato per modelli di completamento, potrebbe non scalare verso agenti.

“Stiamo già riscontrando benefici dalla ricostruzione.. Se il prossimo modello rilascerà nuove funzioni, faremo tutto il necessario per supportarle.”

Sarah Sachs, Direttore Modeling AI di Notion

Continua a leggere

Leggi l'articolo originale →

← Torna alle news