Meta, la società guidata da Mark Zuckerberg, ha riconosciuto di aver impiegato libri “piratati”, contenuti nel database Books3, per addestrare i suoi modelli di IA (Intelligenza Artificiale), Llama 1 e Llama 2.


Books3, una raccolta di opere protette da copyright, era già finita al centro di polemiche per essere stata utilizzata anche da altre aziende tecnologiche. Ora, la rivelazione che Meta ha sfruttato parti di questa risorsa alimenta un dibattito sull’uso etico dei dati nella formazione delle IA.

La conferma emerge dai documenti presentati nel contenzioso legale che vede l’azienda accusata da un gruppo di autori, tra cui la scrittrice Sarah Silverman e Richard Kadrey. Secondo gli atti del processo, Meta ha scaricato porzioni di Books3, una collezione di circa 200.000 libri, per migliorare le capacità dei suoi modelli linguistici.

L’azienda, tuttavia, sostiene di non aver infranto alcuna norma, appellandosi al principio del “fair use” previsto dalla legislazione statunitense, che in alcuni casi consente l’utilizzo di materiale protetto senza il consenso dei detentori dei diritti.

A lanciare l’allarme è stato il noto esperto di IA Marco Camisani Calzolari che ha convidiso un post emblematico sul suo profilo Facebook rendendo pubblica la vicenda anche sul social gestito da Zuckerberg.

Un utilizzo legittimo o una violazione del diritto d’autore?

Nonostante l’ammissione, Meta ribadisce che il suo operato non richiedeva né autorizzazioni né compensazioni economiche per gli autori coinvolti. La società afferma che, se anche avesse copiato opere senza permesso, tale pratica rientrerebbe nei limiti dell’uso equo, citando l’articolo 107 del Titolo 17 del Codice degli Stati Uniti. Tuttavia, la questione rimane aperta, poiché l’interpretazione del “fair use” è spesso oggetto di controversie giuridiche, soprattutto quando si tratta di addestrare modelli di IA con testi protetti da copyright.

Il database Books3, creato dal gruppo di ricerca EleutherAI, faceva parte di un vasto insieme di dati chiamato The Pile, utilizzato per l’addestramento di intelligenze artificiali avanzate. In passato, il creatore di Books3, Shawn Presser, aveva difeso l’iniziativa sostenendo che senza raccolte come questa, soltanto aziende con enormi risorse economiche, come OpenAI, avrebbero potuto sviluppare modelli linguistici sofisticati. Tuttavia, sotto la pressione di gruppi per la tutela del copyright, Books3 risulta rimosso dal web dallo scorso agosto.

Il caso Meta e il problema delle biblioteche pirata

Le rivelazioni contenute nei documenti processuali mostrano che l’uso di contenuti protetti da copyright da parte di Meta potrebbe essere ancora più esteso di quanto inizialmente ammesso. Oltre a Books3, l’azienda avrebbe scaricato massicce quantità di dati da altre biblioteche digitali illegali.

Un’indagine ha rivelato che Meta ha ottenuto almeno 81,7 terabyte di materiale da siti come Anna’s Archive, includendo fonti come Z-Library e LibGen, due noti archivi pirata. Ulteriori documenti suggeriscono che i vertici dell’azienda fossero consapevoli della discutibile legalità di queste operazioni.

Alcune email interne mostrano dipendenti esprimere dubbi etici sull’utilizzo di questi dati, definendo esplicitamente Sci-Hub, ResearchGate e LibGen come piattaforme che distribuiscono materiale illegalmente.

L’industria editoriale in allarme

La vicenda ha scatenato la reazione degli autori e delle case editrici, che chiedono maggiore trasparenza e protezione per i loro lavori. Molti scrittori hanno firmato lettere aperte per sollecitare regole più severe sull’uso dei contenuti nell’addestramento dell’intelligenza artificiale. Appare il fondato timore che il lavoro creativo si sfrutti sistematicamente senza alcuna forma di riconoscimento o remunerazione, con il rischio di danneggiare l’intera industria editoriale.

Questa vicenda rappresenta un punto di svolta nella regolamentazione dell’intelligenza artificiale e nella tutela della proprietà intellettuale. La questione rimane aperta: l’innovazione tecnologica può giustificare l’uso indiscriminato di contenuti protetti? E soprattutto, chi pagherà il prezzo di questa rivoluzione?