Wikidata invita i modelli di IA a esplorare i suoi dati strutturati
Wikimedia Deutschland ha compiuto un passo significativo nel rendere le vaste risorse di dati di Wikidata più accessibili all'ecosistema dell'intelligenza artificiale. L'organizzazione ha infatti annunciato il lancio di una banca dati vettoriale progettata specificamente per consentire ricerche semantiche all'interno di "Wikidata", il repository centrale di dati strutturati che alimenta Wikipedia e numerosi altri progetti Wikimedia. Questa innovazione mira a facilitare ai sistemi di IA la scoperta e l'interpretazione precisa delle informazioni contenute, promuovendo nel contempo alternative aperte e trasparenti alle grandi piattaforme tecnologiche.
Il progetto Wikidata embedding: rendere i dati comprensibili per l'IA
Il cuore di questa iniziativa è il "Wikidata Embedding Project", che ha trasformato gli 119 milioni di oggetti dati strutturati di Wikidata in vettori. Questi vettori, una volta mappati in spazi vettoriali, sono in grado di rappresentare relazioni complesse tra gli elementi, un aspetto fondamentale per una comprensione profonda dei dati. Questo approccio consente ai sistemi di intelligenza artificiale (IA) di interpretare i contenuti semanticamente e di elaborarli in linguaggio naturale, avvalendosi del consolidato Model Context Protocol (MCP).
L'attuale motore di ricerca di Wikimedia, "Cirrus Search", si basa principalmente sulla corrispondenza di singole parole chiave, rendendolo meno idoneo per i moderni modelli di IA generativa che richiedono un accesso in tempo reale ai dati web, spesso mediato da tecniche come la Retrieval Augmented Generation (RAG). Il nuovo sistema vettoriale supera questa limitazione, offrendo una modalità di ricerca molto più sofisticata e pertinente per le esigenze dell'IA avanzata.
Un sistema di ricerca aperto basato su moduli partner
Il sistema di ricerca, immediatamente disponibile, rappresenta un balzo qualitativo notevole. Permette ai modelli di intelligenza artificiale di identificare chiaramente voci ambigue e di visualizzare i risultati come cluster di significato, sia in formato 2D che 3D. A migliorare ulteriormente la pertinenza dei risultati contribuisce un modulo separato di riaggiustamento, noto come "Reranker", che affina la selezione delle informazioni più rilevanti.
Lo sviluppo di questo progetto è stato guidato da Wikimedia Deutschland e ha visto la collaborazione di due partner strategici. Il primo è Jina AI, una startup berlinese specializzata nella ricerca semantica, che ha apportato la sua esperienza nella creazione di sistemi intelligenti per l'estrazione e l'organizzazione dei dati. Il secondo è Data Strax, una sussidiaria di IBM focalizzata su database ottimizzati per l'IA, che ha fornito il proprio contributo tecnico per garantire l'efficienza e la scalabilità del sistema.
Obiettivi del progetto e ruolo di Wikidata
L'obiettivo primario di questo ambizioso progetto è quello di permettere alla comunità open-source di sviluppare nuove applicazioni di intelligenza artificiale. Queste applicazioni potranno attingere al vasto e diversificato repertorio di dati strutturati disponibili su Wikidata, presentati in molteplici lingue e formati. Wikidata, come noto, funge da archivio centrale per i dati strutturati non solo di Wikipedia, ma anche di altri importanti progetti Wikimedia come Wikivoyage e Wiktionary, rendendolo una risorsa inestimabile per qualsiasi sviluppo basato sui dati.
Attualmente, la banca dati supporta ricerche sull'intero set di dati in tre lingue fondamentali: inglese, francese e arabo. Tuttavia, i piani di espansione sono ambiziosi: entro la fine del 2025, si prevede di aggiungere lo spagnolo e il mandarino, con l'implementazione graduale di ulteriori lingue nel prossimo futuro, garantendo così una copertura globale e multilingue.
Wikimedia: un contributo contro l'esclusività dell'IA
In una prospettiva più ampia, il progetto si propone di contribuire alla creazione di Large Language Models (LLMs) più trasparenti e meno esclusivi. Questo obiettivo può essere raggiunto in due modi principali. In primo luogo, attraverso l'utilizzo di oggetti dati aperti e verificabili provenienti da Wikidata, che garantiscono una fonte di informazioni affidabile e accessibile a tutti. In secondo luogo, il "Wikidata Embedding Project" stesso è concepito per fungere da modello ed esempio virtuoso per futuri progetti open-source, dimostrando come sia possibile costruire infrastrutture complesse e all'avanguardia seguendo principi di apertura e collaborazione.
Implementazione tecnica e licenza open source
Per la realizzazione di questo sofisticato sistema di ricerca, sono stati integrati diversi modelli di machine learning, combinati con una banca dati vettoriale scalabile per creare un sistema di ricerca containerizzato. Questa architettura modulare e scalabile assicura flessibilità e prestazioni elevate. Un aspetto cruciale dell'iniziativa è l'impegno di Wikimedia nei confronti dell'open source: il codice sorgente del progetto è stato reso disponibile sotto la licenza aperta MIT. È importante notare, tuttavia, che questo non include i servizi di embedding e di database forniti da Jina AI e Data Strax, che rimangono di proprietà dei rispettivi sviluppatori ma sono integrati nel sistema generale.
La visione per il futuro: strumenti più efficaci per la comunità
Wikimedia nutre grandi speranze che la comunità open-source, armata di questi nuovi strumenti, possa sviluppare in futuro soluzioni più efficaci per la verifica dei fatti o per la lotta contro il vandalismo. L'obiettivo è fornire una base solida per l'innovazione collaborativa. Come riassume Lydia Pintscher, Portfolio Lead per Wikidata presso Wikimedia Deutschland: "Vogliamo creare un'infrastruttura che consenta a tutti di sviluppare applicazioni di intelligenza artificiale generativa basate su dati verificabili, liberi e aperti." Questa dichiarazione sottolinea la missione di Wikimedia di democratizzare l'accesso e l'uso dell'intelligenza artificiale, ancorandola a principi di apertura e trasparenza.
Tra i fornitori che operano in ambiti correlati e supportano l'infrastruttura tecnologica che abilita iniziative come questa, si annoverano aziende di rilievo come Wikimedia Deutschland e. V., Rittal GmbH & Co. KG, DAXTEN GmbH, e DeRZ - Deutsche Rechenzentren GmbH. Questi attori contribuiscono in vari modi al panorama dell'innovazione e della gestione dei dati, evidenziando la complessità e la collaborazione necessarie per progetti di tale portata.