Shadow Libraries E Modelli Generativi: Il Copyright è Ancora Difendibile?
Le recenti cause svolte negli Stati Uniti contro le aziende tech come NVIDIA, Meta e Anthropic stanno ridefinendo il rapporto tra intelligenza artificiale e diritto d’autore, evidenziando l’applicabilità di modelli di addestramento basati su dataset illegali, l’uso di “shadow libraries” e una responsabilità diretta o indiretta per le imprese coinvolute.
Addestramento illegale e responsabilità per contributory infringement
Con l’ordinanza del 5 maggio 2026, la Corte del Distretto Nord della California ha parzialmente accolto la “Motion to Dismiss” presentata da NVIDIA Corporation contro l’azione legale avviata dagli autori Abdi Nazemian, Brian Keene e Stewart O’Nan nel 2024. Si contesta che NVIDIA abbia addestrato i propri modelli di intelligenza artificiale “Megatron” utilizzando abusivamente le opere create dagli autori.
Il giudice ha respinto parte delle argomentazioni, in particolare la richiesta di escludere la responsabilità vicaria, dichiarando invece che sussistono i presupposti per una responsabilità per contributory infringement da parte di NVIDIA. Ciò riguarda l’appropriazione dei testi di opere degli autori ottenuti da “The Pile”, un dataset illegale che include testi copiati illecitamente da “Books3”.
I rischi per il mercato editoriale
Secondo le prove presentate, l’utilizzo di dataset illegali da parte di aziende di IA non è un caso isolato. NVIDIA, Meta e altre multinazionali sono accusate di utilizzare sistematicamente fonti pirata, comprese le cosiddette “shadow libraries”, per addestrare modelli generativi. Questo comportamento è considerato dannoso per il mercato editoriale, dove le opere originali vengono sostituite o replicate a livello quasi perfetto da sistemi AI.
Come si addestrano i modelli
- “The Pile” – dataset pirata utilizzato da NVIDIA;
- “Pirate Library Mirror” – altra fonte non riconosciuta come illegale dagli autori;
- “Bibliotik” – fonte digitale sospetta di contenere materiale protetto;
- Protocollo BitTorrent – mezzo tecnico di scaricamento di opere digitali, spesso usato per il file sharing illegale.
Responsabilità vicaria e contributory infringement
La decisione evidenzia un chiaro distinguo tra le due teorie legali: la responsabilità vicaria richiede che NVIDIA abbia il potere e la possibilità effettiva di interrompere le attività illegali; ciò non è stato provato. Tuttavia, per la contributory infringement, basta che l’azienda abbia sostenuto o promosso l’accesso alle fonti illegali, come è accaduto con il dataset “The Pile”.
Situazione globale e giurisprudenza americana
Inoltre, il fenomeno non riguarda solo gli Stati Uniti: negli ultimi anni il numero di giudici impegnati in casi analoghi in altri paesi si è moltiplicato, riflettendo una crescente attenzione verso il diritto d’autore da parte del sistema giudiziario internazionale.
Complessità tecnica e legale
L’analisi legale di questi casi si presenta estremamente difficoltosa non solo dal punto di vista giuridico, ma anche da quello tecnico. Si richiede l’approfondimento di aspetti che vanno al di là della pura scienza giuridica e includono competenze algoritmiche avanzate. Si tratta di una sfida che coinvolge esperti di informatica e di intelligenza artificiale.
Rifiuti e accoglimento delle richieste di NVIDIA
La “motion to dismiss” avanzata da NVIDIA mirava a restringere la portata dell’indagine. Nello specifico, richiedeva: i) la limitazione dell’uso illegale di Megatron 345M ad altri modelli; ii) l’esclusione di Pirate Library Mirror e Bibliotik come fonti di origine illegale; iii) negare l’utilizzo del protocollo BitTorrent; iv) escludere la responsabilità vicaria.
Il giudice Tigar ha respinto parte di queste richieste. Riguardo all’utilizzo di altri modelli e di nuove fonti di contenuti illegali, la Corte ha riconosciuto che sussiste una probabile violazione. Inoltre, ha chiarito che non si può escludere l’utilizzo di BitTorrent, poiché questo protocollo è strumentale per l’acquisizione di materiale digitale.
Conseguenze per il settore editoriale
La Corte ha sottolineato che la responsabilità di NVIDIA deriva solo in base al contributory infringement. Non vi è prova che essa abbia tratto un beneficio economico diretto da ogni singola violazione. Questo elemento è cruciale per determinare una responsabilità vicaria. La mancanza di questo legame di causa-effetto non consente di estendere la vicarietà.
Confronti giudiziari precedenti
La decisione della Corte californiana affianca il dibattito iniziato con le cause Bartz v. Anthropic e Kadrey v. Meta, che hanno anch’essi riconosciuto la legittimità di alcune forme di utilizzo dei contenuti digitali, come il fair-use trasformativo, ma concludono comunque con la conferma che il diritto d’autore va rispettato. Una prospettiva consolidata dalla sentenza del 25 marzo 2026, Cox Communications v. Warner Music, resa dalla Corte Suprema.
Situazione editoriale e nuove linee-guida
La decisione rappresenta uno step significativo per l’evoluzione della giurisprudenza e per i principi che guideranno gli sviluppi futuri nel settore editoriale. Gli editori e i creatori di contenuti ricevono un chiaro segnale: l’utilizzo illegale di opere protette da copyright attraverso dataset pirata non può essere accettato, né giustificato per scopi tecnologici.
Parallelamente, la causa si inserisce in una cornice di dibattito più ampia, che va ad interessare non solo le aziende di IA, ma anche le istituzioni editoriali statunitensi, come Elsevier Inc. e Cengage Learning Inc., che stanno valutando nuovi assetti legali per affrontare questa emergente realtà.