Una nuova controversia scuote il mondo dell’intelligenza artificiale. Questa volta Meta è stata accusata di utilizzare contenuti piratati provenienti da torrent per addestrare il suo modello di linguaggio Llama, che alimenta Meta AI. Il caso rappresenta una delle prime cause legali intentate contro una grande azienda tecnologica per violazione del copyright in relazione all’addestramento di sistemi IA.
Secondo quanto riportato da Wired, Meta è stata citata in giudizio nel 2023 nel caso “Kadrey et al. v. Meta Platforms” dai romanzieri Richard Kadrey e Christopher Golden, che hanno sostenuto che l’azienda abbia utilizzato senza autorizzazione contenuti protetti da copyright.
Inizialmente, Meta aveva presentato al tribunale documenti con informazioni oscurate, ma il giudice Vince Chhabria del Tribunale distrettuale della California del Nord ha ordinato la pubblicazione dei documenti originali.
I documenti rivelano le conversazioni tra i dipendenti di Meta riguardo a Meta AI e Llama. In una di queste, un ingegnere afferma: “Scaricare torrent da un laptop aziendale [di proprietà di Meta] non sembra corretto”, confermando implicitamente l’utilizzo di contenuti piratati per l’addestramento dell’IA. Un’altra conversazione suggerisce che “MZ” (Mark Zuckerberg) avrebbe approvato l’uso di materiale piratato.
Le prove indicano che Meta avrebbe utilizzato contenuti provenienti da LibGen, una vasta libreria di libri, riviste e articoli accademici piratati. LibGen, nata in Russia nel 2008, è stata oggetto di numerose cause per violazione del copyright, anche se non si conosce ancora chi gestisca effettivamente questa “piattaforma di pirateria”. Meta avrebbe inoltre utilizzato contenuti di altre “shadow libraries” per addestrare il proprio modello IA.
Meta si difende invocando il principio del “fair use”, una dottrina legale che consente l’utilizzo di contenuti protetti da copyright senza autorizzazione in determinate circostanze. L’azienda sostiene inoltre di aver semplicemente utilizzato il testo per “modellare statisticamente il linguaggio e generare espressioni originali”.
Non è la prima volta che aziende tecnologiche vengono accusate di addestrare i modelli IA con contenuti protetti da copyright. Lo scorso anno, un’indagine ha rivelato che il modello OpenELM creato da Apple includeva sottotitoli provenienti da oltre 170.000 video di YouTube.
Inizialmente si pensava che Ala società di Cupertino avesse utilizzato contenuti protetti per addestrare Apple Intelligence, ma l’azienda ha chiarito che OpenELM era un modello open source creato per scopi di ricerca e che il suo database non è impiegato per alimentare Apple Intelligence.
Apple ha dichiarato che le sue funzionalità di IA disponibili su iOS e macOS sono addestrate “su dati con licenza, inclusi dati selezionati per migliorare funzionalità specifiche, oltre a dati pubblicamente disponibili raccolti dal nostro web crawler”.
Va notato che molte grandi testate giornalistiche, tra cui il New York Times e The Atlantic, hanno scelto di non condividere i propri contenuti per l’addestramento di Apple Intelligence.
Leggi o Aggiungi Commenti