Causa collettiva di tre autori contro Anthropic per violazione del diritto d'aurore nell'addestramento della sua intelligenza artificiale • W3B Today

Tre autori californiani hanno fatto causa a una società di intelligenza artificiale, Anthropic, per aver utilizzato in modo improprio i loro libri e centinaia di migliaia di altri per addestrare il suo chatbot basato sull’intelligenza artificiale Claude.

La denuncia apre una nuova class action dagli scrittori e giornalisti contro le società di intelligenza artificiale. Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, ha affermato che Anthropic ha utilizzato versioni pirata delle loro opere e di altre per insegnare a Claude a rispondere a richieste umane.

La causa intentata:

Justin A. Nelson (pro hac vice in arrivo)
Alejandra C. Salinas (pro hac vice in arrivo)
SUSMAN GODFREY L.L.P
1000 Louisiana Street, Suite 5100
Houston, TX 77002-5096
Telefono: (713) 651-9366
jnelson@susmangodfrey.com
asalinas@susmangodfrey.com
Rohit D. Nath (SBN 316062)
SUSMAN GODFREY L.L.P
1900 Avenue of the Stars, Suite 1400
Los Angeles, CA 90067-2906
Telefono: (310) 789-3100
RNath@susmangodfrey.com
J. Craig Smyser (pro hac vice in arrivo)
SUSMAN GODFREY L.L.P
One Manhattan West, 51° piano,
New York, NY 10019
Telefono: (212) 336-8330
Fax: (212) 336-8340
csmyser@susmangodfrey.com

Avvocati per i Querelanti e la Classe Proposta (Altri Avvocati elencati nella pagina delle firme)

Jordan W. Connors (pro hac vice in arrivo)
SUSMAN GODFREY L.L.P
401 Union Street, Suite 3000
Seattle, WA 98101
Telefono: (206) 516-3880
jconnors@susmangodfrey.com

Rachel Geman (pro hac vice in arrivo)
Wesley Dozier (pro hac vice in arrivo)
Anna Freymann (pro hac vice in arrivo)
LIEFF CABRASER HEIMANN & BERNSTEIN, LLP
250 Hudson Street, 8° piano
New York, NY 10013-1413
Telefono: (212) 355-9500
rgeman@lchb.com
wdozier@lchb.com
afreymann@lchb.com

Reilly T. Stoler (SBN 310761)
LIEFF CABRASER HEIMANN & BERNSTEIN, LLP
275 Battery Street, 29° piano
San Francisco, CA 94111-3339
Telefono: (415) 956-1000
rstoler@lchb.com

TRIBUNALE DISTRETTUALE DEGLI STATI UNITI
DISTRETTO SETTENTRIONALE DELLA CALIFORNIA
DIVISIONE DI SAN FRANCISCO

Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, individualmente e a nome di altri similmente situati, Querelanti,
v.
ANTHROPIC PBC,
Convenuto.

Caso n.
RECLAMO COLLETTIVO
GIUDIZIO CON GIURIA RICHIESTO

1. I querelanti Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, a nome loro e di tutti gli altri similmente situati (la “Classe,” come definita sotto), per il loro reclamo contro il Convenuto Anthropic PBC (“Anthropic”), affermano quanto segue:

NATURA DELL’AZIONE

2. Anthropic ha costruito un’azienda multimiliardaria rubando centinaia di migliaia di libri protetti da copyright. Invece di ottenere il permesso e pagare un prezzo equo per le creazioni che sfrutta, Anthropic le ha piratate. Gli autori spendono anni a concepire, scrivere e perseguire la pubblicazione del loro materiale protetto da copyright. La Costituzione degli Stati Uniti riconosce il principio fondamentale che i creatori meritano una compensazione per il loro lavoro. Tuttavia, Anthropic ha ignorato le protezioni del copyright. Un componente essenziale del modello di business di Anthropic e della sua famiglia di modelli di linguaggio “Claude” (o “LLM”) è il furto su larga scala di opere protette da copyright.

3. I querelanti sono autori di una serie di opere di narrativa e saggistica. Intraprendono questa azione ai sensi della Legge sul Copyright per risarcire il danno causato dalla sfacciata violazione del copyright da parte di Anthropic. Anthropic ha scaricato versioni piratate note delle opere dei querelanti, ne ha fatto copie e ha alimentato queste copie piratate nei suoi modelli. Anthropic ha preso queste drastiche misure per aiutare gli algoritmi informatici a generare risposte testuali simili a quelle umane.

4. Anthropic non ha nemmeno tentato di compensare i querelanti per l’uso del loro materiale. Infatti, Anthropic ha adottato più misure per nascondere l’entità del suo furto di copyright. La legge sul copyright proibisce ciò che Anthropic ha fatto qui: scaricare e copiare centinaia di migliaia di libri protetti da copyright presi da siti web piratati e illegali.

5. Gli LLM di Anthropic compromettono la capacità degli autori di guadagnarsi da vivere, poiché gli LLM consentono a chiunque di generare—automaticamente e gratuitamente (o a costi molto ridotti)—testi che altrimenti gli scrittori sarebbero pagati per creare e vendere. Gli LLM di Anthropic, che diluiscono il mercato commerciale delle opere dei querelanti e della Classe, sono stati creati senza pagare un centesimo agli scrittori.

6. L’immenso successo di Anthropic è un risultato diretto della sua violazione del copyright. La qualità di Claude, o di qualsiasi LLM, è una conseguenza della qualità dei dati utilizzati per addestrarlo. Maggiore è la qualità del testo lungo su cui un LLM è addestrato, più sarà abile nel generare risposte testuali realistiche, complesse e utili alle richieste. Senza appropriarsi delle opere dei querelanti e dei membri della Classe per addestrare i suoi LLM all’inizio, Anthropic non avrebbe un prodotto commerciale con cui danneggiare il mercato delle opere degli autori. Anthropic ha goduto di enormi guadagni finanziari dallo sfruttamento di materiale protetto da copyright. Anthropic prevede di generare oltre 850 milioni di dollari di ricavi nel 2024. Dopo dieci round di finanziamento, Anthropic ha raccolto 7,6 miliardi di dollari da giganti tecnologici come Amazon e Google. A dicembre 2023, questi investimenti hanno valutato l’azienda oltre 18 miliardi di dollari, probabilmente anche di più oggi.

7. Il guadagno commerciale di Anthropic è avvenuto a spese dei creatori e dei titolari di diritti, inclusi i querelanti e i membri della Classe. I lettori di libri in genere acquistano libri. Anthropic non ha nemmeno fatto quel passo basilare e insufficiente. Anthropic non ha mai cercato—né tanto meno pagato—una licenza per copiare e sfruttare l’espressione protetta contenuta nelle opere protette da copyright alimentate nei suoi modelli. Invece, Anthropic ha fatto ciò che qualsiasi adolescente potrebbe dire essere illegale. Ha intenzionalmente scaricato copie piratate note di libri da internet, ne ha fatto copie non autorizzate e poi ha utilizzato quelle copie non autorizzate per digerire e analizzare l’espressione protetta da copyright, tutto per il proprio guadagno commerciale. Il risultato finale è un modello costruito sul lavoro di migliaia di autori, destinato a imitare la sintassi, lo stile e i temi delle opere protette da copyright su cui è stato addestrato.

8. Anthropic si presenta come un’azienda a beneficio pubblico, progettata per migliorare l’umanità. Nelle parole del suo co-fondatore Dario Amodei, Anthropic è “un’azienda che si concentra sul beneficio pubblico”. Tuttavia, per i titolari di opere protette da copyright, Anthropic ha già causato una distruzione di massa. Non è coerente con i valori umani fondamentali o con il beneficio pubblico scaricare centinaia di migliaia di libri da una fonte illegale nota. Anthropic ha tentato di rubare il fuoco di Prometeo. Non è un’esagerazione dire che il modello di Anthropic cerca di trarre profitto dallo sfruttamento della creatività umana e dell’ingegno dietro ciascuna di queste opere.

GIURISDIZIONE E SEDE

9. La Corte ha giurisdizione sulle materie ai sensi degli articoli 28 U.S.C. §§ 1331 e 1338(a) perché questa azione deriva dalla Legge sul Copyright del 1976, 17 U.S.C. § 101 e seguenti.

10. La Corte ha anche giurisdizione personale sul convenuto perché ha volutamente beneficiato del privilegio di condurre affari in questo distretto.

11. La sede è appropriata ai sensi dell’articolo 28 U.S.C. § 1400(a) perché Anthropic o i suoi agenti risiedono o possono essere trovati in questo distretto a causa delle loro attività di violazione, insieme alla loro commercializzazione di queste attività di violazione, che si sono verificate in questo distretto. La sede è anche appropriata ai sensi dell’articolo 28 U.S.C. § 1391(b)(2) perché una parte sostanziale degli eventi che hanno dato origine alle richieste dei querelanti si è verificata in questo distretto, inclusa la violazione su larga scala del copyright e la commercializzazione degli LLM di Anthropic.

LE PARTI

12. La querelante Andrea Bartz è un’autrice e giornalista residente a New York. È l’autrice di The Lost Night: A Novel, The Herd, We Were Never Here, e The Spare Room.

13. Il querelante Charles Graeber è un autore e giornalista residente a New York. È l’autore di The Good Nurse: A True Story of Medicine, Madness, and Murder e The Breakthrough: Immunotherapy and the Race to Cure Cancer. Il querelante Graeber ha scritto numerosi saggi per The New Yorker, The New York Times, e GQ.

14. Il querelante Kirk Wallace Johnson è un autore e giornalista residente a Los Angeles, California. È l’autore di The Fisherman and the Dragon: Fear, Greed, and a Fight for Justice on the Gulf Coast, The Feather Thief: Beauty, Obsession, and the Natural History Heist of the Century, e To Be A Friend Fatal: The Fight to Save the Iraqis America Left Behind. È il fondatore di The List Project, una non-profit che ha aiutato a reinsediare oltre 2.500 rifugiati iracheni che hanno lavorato per organizzazioni affiliate agli Stati Uniti durante la guerra in Iraq.

15. Il convenuto Anthropic PBC è una società del Delaware con sede principale al 548 Market Street, PMB 90375, San Francisco, California 94104-5401.

FATTI ALLEGATI

I. Fondazione di Anthropic e Sviluppo e Commercializzazione di Claude

16. Anthropic è stata fondata a gennaio 2021 da sette ex-dipendenti di OpenAI, tra cui l’attuale amministratore delegato Dario Amodei e la presidente Daniela Amodei. Prima di fondare Anthropic, Dario Amodei era vicepresidente della ricerca di OpenAI, dove era “una delle due persone che fissavano la direzione generale della ricerca presso OpenAI” e “guidava gli sforzi per costruire i modelli GPT-2 e GPT-3 di OpenAI.”

17. Anthropic ha rilasciato la prima iterazione del suo modello di punta, Claude, nel marzo 2023, poco dopo che ChatGPT di OpenAI ha conquistato il mondo. Qualche mese dopo, a luglio 2023, Anthropic ha rilasciato la successiva iterazione del modello, Claude 2, per l’uso pubblico. Poi, a marzo 2024, Anthropic ha rilasciato Claude 3. Claude 3 è stato rilasciato con tre livelli, che vanno dal più semplice al più avanzato: Claude Sonnet, Claude Haiku e Claude Opus. Più recentemente, a giugno di quest’anno, Anthropic ha rilasciato la sua ultima iterazione di Claude, Claude 3.5 Sonnet. Claude è disponibile per l’uso tramite interfaccia web, su applicazioni Android e iOS, e tramite un’interfaccia di programmazione delle applicazioni, che consente agli sviluppatori di creare strumenti di intelligenza artificiale generativa personalizzati utilizzando Claude come base.

18. Secondo Anthropic, Claude supera altri LLM concorrenti sul mercato, come ChatGPT di OpenAI e Gemini di Google. Anthropic vanta che Claude può essere utilizzato per “redigere qualsiasi cosa, da un messaggio di testo o un’email a una sceneggiatura o un romanzo.”

19. Claude ha avuto un enorme successo, sia tra il pubblico in generale che tra le imprese. Attualmente, Anthropic offre l’accesso al suo modello Claude 3.5 Sonnet gratuitamente, con limiti di utilizzo aumentati e l’accesso a modelli come Claude 3 Opus o Haiku soggetto a tariffe di abbonamento che vanno dai 20 ai 30 dollari al mese. Claude ha ottenuto decine di milioni di utenti attivi mensili ed è stato integrato in Amazon Bedrock (la piattaforma di Amazon Web Services per i servizi di intelligenza artificiale nel cloud). Anthropic è stata particolarmente brava a corteggiare una clientela aziendale, che genera entrate da abbonamento a pagamento. I clienti di Claude includono “importanti imprese e startup” come Slack, Zoominfo, Asama, Bridgewater, LexisNexis e Jane Street Capital.

20. Nel corso della sua esistenza, Anthropic si è avvolta nella retorica della “sicurezza AI” e della “responsabilità.” Tuttavia, le sue azioni hanno reso ridicolo i suoi nobili obiettivi. L’immenso successo di Anthropic è stato costruito, in gran parte, sul furto su larga scala del copyright. Come dettagliato di seguito, i modelli di Anthropic sono stati addestrati su enormi quantità di materiale piratato. Inoltre, Anthropic non avrebbe potuto costruire un modello capace di digerire interi libri e generare testi complessi senza lo sfruttamento di queste opere.

II. Anthropic ha Compiuto un Furto di Copyright su Larga Scala nell’Addestramento dei suoi LLM

1. Modelli di Linguaggio di Grandi Dimensioni e il Processo di Addestramento

21. Claude è un tipo di modello di linguaggio di grandi dimensioni, o “LLM.” Gli LLM tentano di “comprendere” il linguaggio umano elaborando testi in ingresso e sono progettati per imitare l’uso del linguaggio umano generando testi in uscita su base predittiva, cioè prevedendo quale parola segue quale.

22. Claude è una complessa rete di funzioni matematiche composta da una serie di algoritmi che scompongono il testo in ingresso in pezzi più piccoli—parole o porzioni di parole, chiamate “token”—quindi traducono quei pezzi in “vettori,” o una sequenza di numeri utilizzata per identificare il token all’interno della serie di algoritmi. Questi vettori aiutano a collocare ogni token su una mappa, identificando altri token strettamente associati alla parola. Come descritto dal concorrente di Anthropic, OpenAI: “il processo inizia scomponendo il testo in ‘token’ di lunghezza approssimativamente pari a quella di una parola, che vengono convertiti in numeri. Il modello poi calcola la prossimità di ogni token rispetto agli altri token nei dati di addestramento—essenzialmente, quanto vicino appare una parola rispetto a qualsiasi altra parola. Queste relazioni tra parole rivelano quali parole hanno significati simili… e funzioni.” Mentre il modello si addestra e digerisce più espressioni, gli algoritmi che descrivono la relazione tra i vari token cambiano di conseguenza.

23. Il modello viene addestrato su un vasto corpus di testi; senza addestramento, non esiste LLM. Come ha descritto Anthropic, “[i] modelli di linguaggio di grandi dimensioni come Claude devono essere ‘addestrati’ su testi affinché possano apprendere i modelli e le connessioni tra le parole. Questo addestramento è importante affinché il modello funzioni in modo efficace e sicuro.”

24. Il modello prende input di testo sotto forma di una frase o un passaggio incompleto e tenta di completare la frase, essenzialmente un quiz a riempimento dei vuoti. Il modello confronta il completamento della frase previsto con la risposta “corretta” effettiva. Il modello poi adatta i suoi algoritmi per “imparare” dai suoi errori. In altre parole, adatta i suoi algoritmi per ridurre la probabilità di ripetere lo stesso errore e quindi minimizzare la differenza tra qualsiasi dato input di testo e il “corretto” output di testo.

25. Il modello poi ripete questo stesso ciclo milioni, possibilmente miliardi, di volte su tutto il corpus, adattando i suoi algoritmi ogni volta per riflettere il testo di input dal corpus. Il processo di pre-addestramento consente al modello di elaborare richieste e generare output testuali che imitano il linguaggio umano. Lo fa esponendo il modello a una vasta gamma di testi e utilizzando algoritmi per prevedere la parola successiva nel testo. Ripetendo questo processo più e più volte, il modello mostra fluidità nello stile, nella sintassi e nell’espressione delle idee, in gran parte digerendo ed elaborando l’espressione contenuta nel materiale utilizzato per l’addestramento. In questo modo, l’LLM sfrutta efficacemente l’espressione contenuta nel corpus di addestramento, adattando i suoi algoritmi in modo tale da poter rispecchiare e imitare l’ordinamento delle parole, lo stile, la sintassi e la presentazione di fatti, concetti e temi.

26. Dopo il processo di pre-addestramento, il modello generativo deve passare a un ulteriore processo di post-addestramento. A questo punto, il modello è in grado di completare frasi e prevedere la parola o le parole successive dopo un determinato input di testo, ma non può ancora rispondere a domande, tanto meno con risposte simili a quelle umane. Il processo di post-addestramento è talvolta chiamato “fine-tuning.” Questa fase prevede in genere una maggiore supervisione umana e si concentra sull’apportare aggiustamenti al modello utilizzando dataset di addestramento relativamente più piccoli.

27. Per entrambi i processi di post-addestramento e pre-addestramento nello sviluppo di Claude, Anthropic ha creato molteplici copie non autorizzate dei dati di addestramento. Come ha osservato l’Ufficio Brevetti e Marchi degli Stati Uniti, l’addestramento degli LLM “quasi per definizione comporta la riproduzione di intere opere o di parti sostanziali di esse.”

28. La qualità e la quantità del corpus sono fondamentali per la qualità del modello risultante. Per quanto riguarda lo sviluppo degli LLM, l’espressione “garbage in, garbage out” ha peso. Come ha detto un ricercatore: “[il comportamento del modello di grandi dimensioni] non è determinato dall’architettura, dai parametri iper o dalle scelte dell’ottimizzatore [cioè, caratteristiche tecniche impostate durante l’addestramento del modello]. È determinato dal tuo dataset, nient’altro. Tutto il resto è un mezzo per raggiungere un fine nell’uso efficiente delle risorse computazionali per approssimare quel dataset.”

29. Claude, ad esempio, ha dimostrato di essere in grado di elaborare in modo coerente un intero libro in una volta—fino a 75.000 parole—e di generare passaggi chiari e coerenti in risposta. Queste risposte imitano una comprensione non solo dell’ordinamento corretto delle parole e della sintassi, ma anche di temi e idee di livello superiore. Claude potrebbe sviluppare questa capacità solo addestrandosi su prosa di alta qualità e pezzi più complessi e lunghi.

30. In questo modo, i libri sono materiali di addestramento particolarmente preziosi. Come ha affermato un commentatore, “[i] libri offrono testi formali e lunghi che aiutano gli LLM a comprendere strutture linguistiche complesse, afferrare il contesto a lungo termine e produrre narrazioni coerenti.”

2. Anthropic ha copiato un’enorme quantità di libri piratati per addestrare Claude

31. Sebbene Anthropic sia stata particolarmente riservata sulle fonti del suo corpus di addestramento per Claude, ha ammesso di aver utilizzato un dataset chiamato The Pile.

32. The Pile è un dataset open-source di oltre 800 GB creato per l’addestramento di modelli di linguaggio di grandi dimensioni. The Pile è stato ospitato e reso disponibile pubblicamente online da una no-profit chiamata EleutherAI. Come descritto dai suoi creatori, “The Pile è costruito da 22 sottogruppi di alta qualità e diversificati… molti dei quali derivano da fonti accademiche e professionali. I modelli addestrati su The Pile migliorano significativamente rispetto a Raw CC e CC-100 su tutti i componenti di The Pile, migliorando al contempo le prestazioni nelle valutazioni successive.”

33. Uno degli architetti di The Pile è uno sviluppatore indipendente di nome Shawn Presser. Presser ha creato un dataset incluso in The Pile chiamato “Books3,” che è una raccolta di libri piratati.

34. Presser ha descritto come ha creato Books3 in un thread su Twitter di ottobre 2020.

35. Presser ha continuato. Ha detto di aver creato Books3 in risposta ai “documenti di OpenAI su GPT-2 e 3,” che “si riferiscono a dataset chiamati ‘books1’ e ‘books2’,” quest’ultimo dei quali Presser sospetta “potrebbe essere ‘tutto di libgen’.” LibGen si riferisce a “Library Genesis,” un sito web che offre libri piratati che è stato ordinato di chiudere per violazione del copyright nel 2015. Per creare un dataset di libri piratati comparabile a quello che sospettava che OpenAI avesse creato per sé, Presser annunciò che anche Books3 era un download diretto di tutti i libri da un altro sito piratato—una raccolta di “196.640 libri,” che comprende “tutto di bibliotik.”

36. Bibliotik è una “notoria raccolta piratata” di “libri piratati.” Per anni, prima del suo utilizzo come “Books3,” Bibliotik è stata frequentemente inclusa in riepiloghi delle migliori e più popolari fonti di materiale piratato.

37. Books3 è stata una parte cruciale di The Pile. Nel documento di EleutherAI su The Pile, viene evidenziato il valore chiave di Books3 come materiale di addestramento: “Books3 è un dataset di libri derivato da una copia dei contenuti del tracker privato Bibliotik… Bibliotik consiste in una miscela di libri di narrativa e saggistica ed è quasi un ordine di grandezza più grande del nostro prossimo dataset di libri più grande (BookCorpus2).” Il documento poi riassume il punto chiave del motivo per cui The Pile includeva questa nota fonte di materiale illegale protetto da copyright: “Abbiamo incluso Bibliotik perché i libri sono inestimabili per la ricerca sulla modellazione del contesto a lungo raggio e per la narrazione coerente.”

38. Allo stesso tempo, Presser ed EleutherAI hanno ripetutamente e pubblicamente riconosciuto che, con The Pile e Books3, stavano rendendo disponibile una cache di materiale piratato. Il documento di EleutherAI su The Pile ha osservato che “c’è poca consapevolezza del fatto che l’elaborazione e la distribuzione di dati di proprietà di altri potrebbe anche essere una violazione della legge sul copyright.” Inoltre, la scheda informativa di The Pile osserva che “Books3 è quasi interamente composto da opere protette da copyright.” Presser, da parte sua, ha ammesso di aver rilasciato Books3 nonostante “la paura di ritorsioni sul copyright.”

39. Nell’agosto 2023, Books3 è stato rimosso dalla “copia più ufficiale” di The Pile ospitata da “The Eye” a causa di reclami di copyright. Nonostante questa rimozione, la versione originale sembra essere ancora disponibile come parte di The Pile da altre fonti.

40. Sebbene Anthropic abbia fatto di tutto per nascondere il contenuto dei suoi dataset di addestramento, ciò che è noto sui dati di addestramento indica che i modelli Claude di Anthropic sono stati addestrati su una massa di libri protetti da copyright e altro materiale protetto da copyright. È evidente che Anthropic ha scaricato e riprodotto copie di The Pile e Books3, sapendo che questi dataset erano composti da una quantità enorme di contenuti protetti da copyright provenienti da siti pirata come Bibliotik.

41. In un documento di ricerca di dicembre 2021 sull’addestramento dei modelli di linguaggio di grandi dimensioni, Anthropic ha descritto la creazione di un dataset “la maggior parte del quale abbiamo ottenuto da The Pile” e che includeva “32% libri da internet,” un termine in codice nell’industria per copie piratate di libri disponibili su internet.

42. Più recentemente, a luglio 2024, Anthropic ha pubblicamente riconosciuto di aver utilizzato The Pile per addestrare i suoi modelli Claude. Come riportato da Proof News, la portavoce dell’azienda Jennifer Martinez ha “confermato l’uso di The Pile nell’assistente AI generativo di Anthropic, Claude.” Anthropic ha confermato lo stesso a Vox News. I ricercatori indipendenti hanno testato Claude per fare luce sulla composizione del suo set di addestramento, e il loro lavoro ha confermato un’elevata probabilità che Claude sia stato addestrato su libri protetti da copyright.

43. Anthropic quindi ha copiato e sfruttato un’enorme quantità di libri protetti da copyright, inclusi ma non limitati ai libri contenuti in Books3, sapendo di violare le leggi sul copyright. Invece di ottenere materiale di addestramento da quantità piratate di libri protetti da copyright da questo moderno Napster, Anthropic avrebbe potuto cercare e ottenere una licenza per farne copie. Ha invece preso la decisione deliberata di fare affidamento su materiali rubati per addestrare i loro modelli.

44. La copia commerciale delle opere dei querelanti e delle opere di proprietà della Classe proposta da parte di Anthropic era chiaramente un uso non equo, per diversi motivi. Anthropic ha suggerito che utilizza i dati di addestramento per “apprendere i modelli e le connessioni tra le parole,” un po’ come apprenderebbe un essere umano. Sebbene l’antropomorfizzazione interessata dei suoi modelli da parte di Anthropic sia chiaramente fuori luogo, almeno gli esseri umani che apprendono dai libri acquistano copie legali di essi, o li prendono in prestito da biblioteche che li acquistano, fornendo almeno una qualche misura di compensazione agli autori e ai creatori. Anthropic non lo fa, e ha usurpato il contenuto degli autori allo scopo di creare una macchina costruita per generare lo stesso tipo di contenuto per cui solitamente gli autori verrebbero pagati.

45. Anthropic, appropriandosi delle opere degli autori senza compensazione, ha privato gli autori delle vendite di libri e dei ricavi delle licenze. Da tempo esiste un mercato consolidato per la vendita di libri e e-book, eppure Anthropic lo ha ignorato e ha scelto di raschiare un enorme corpus di libri protetti da copyright da internet, senza nemmeno pagare per una copia iniziale.

46. Anthropic ha anche usurpato un mercato di licenze per i titolari di copyright. Negli ultimi due anni, è emerso un fiorente mercato di licenze per dati di addestramento protetti da copyright. Numerose aziende di intelligenza artificiale, tra cui OpenAI, Google e Meta, hanno pagato centinaia di milioni di dollari per ottenere licenze per riprodurre materiale protetto da copyright per l’addestramento degli LLM. Questi includono accordi con Axel Springer, News Corporation, l’Associated Press e altri. Inoltre, in assenza della violazione su larga scala del copyright da parte di Anthropic, sarebbero possibili pratiche di licenza globale attraverso clearinghouse, come il Copyright Clearance Center, che ha recentemente lanciato un meccanismo di licenza collettiva disponibile sul mercato oggi.

47. Anthropic, tuttavia, ha scelto di utilizzare gratuitamente le opere dei querelanti e delle opere di proprietà della Classe, e così facendo ha danneggiato il mercato delle opere protette da copyright privandole delle vendite di libri e dei ricavi delle licenze.

III. Anthropic ha tratto profitto dal suo sfruttamento non autorizzato di materiale protetto da copyright a spese degli autori

48. Gli LLM di Anthropic e altri modelli simili minacciano seriamente il sostentamento degli autori stessi—compresi i querelanti in questa causa, come discusso specificamente sotto—su cui sono stati “addestrati.”

49. Goldman Sachs stima che l’AI generativa potrebbe sostituire 300 milioni di posti di lavoro a tempo pieno nel prossimo futuro, ovvero un quarto del lavoro attualmente svolto negli Stati Uniti e in Europa.

50. Già oggi, gli scrittori riferiscono di perdere reddito proveniente dalla scrittura di testi, giornalismo e contenuti online, che sono importanti fonti di reddito per gli autori di libri. The Authors Guild, la più antica organizzazione professionale che rappresenta scrittori e autori, ha recentemente pubblicato uno studio sui guadagni che mostra un reddito medio legato alla scrittura per autori a tempo pieno di poco oltre i 20.000 dollari, e che gli autori tradizionali a tempo pieno guadagnano solo la metà di tale importo dai loro libri. Il resto proviene da attività come la scrittura di contenuti—lavoro che sta iniziando a scarseggiare a causa dei sistemi di AI generativa addestrati sulle opere di quegli scrittori, senza compenso, per cominciare.

51. Dall’esplosione dell’uso degli LLM nel 2023, coincisa con il rilascio di Claude, c’è stata un’esplosione di libri generati dall’AI. Quando la giornalista Kara Swisher ha pubblicato le sue memorie Burn Book all’inizio di quest’anno, Amazon è stata inondata di copie generate dall’AI. Questo non è stato un incidente isolato. In un altro caso, l’autrice Jane Friedman ha scoperto “una cache di libri spazzatura” scritti a suo nome in vendita su Amazon. Mentre gli LLM sono diventati più avanzati—e abilitati ad addestrarsi su sempre più materiale protetto da copyright—sono in grado di generare più contenuti e contenuti più sofisticati. Il risultato è che è più facile che mai generare copie di libri protetti da copyright che competono con l’originale, o almeno diluiscono il mercato dell’opera protetta da copyright originale.

52. Claude in particolare è stato utilizzato per generare contenuti di libri a basso costo. Ad esempio, a maggio 2023, è stato riportato che un uomo di nome Tim Boucher aveva “scritto” 97 libri utilizzando Claude di Anthropic (così come ChatGPT di OpenAI) in meno di un anno, e li aveva venduti a prezzi compresi tra $1,99 e $5,99. Ogni libro ha impiegato solo “sei o otto ore” per essere “scritto” dall’inizio alla fine. Claude non avrebbe potuto generare questo tipo di contenuto lungo se non fosse stato addestrato su una grande quantità di libri, libri per i quali Anthropic non ha pagato nulla agli autori.

53. In breve, il successo e la redditività di Anthropic si basano sulla violazione massiccia del copyright senza una parola di permesso o un centesimo di compenso per i titolari di copyright, inclusi i querelanti qui.

IV. Anthropic ha sfruttato ciascuna delle opere protette da copyright dei querelanti

54. Ogni autore, sia i querelanti che i membri della Classe, ha una voce, uno stile e una modalità espressiva creativa distinti. Ma tutti i querelanti e i membri della Classe hanno subito gli stessi danni dalla violazione del copyright da parte di Anthropic.

55. Il contenuto dei dataset che Anthropic ha utilizzato per “addestrare” i suoi LLM è particolarmente noto ad essa stessa, tale che i querelanti non sono in grado di discernere tale contenuto con perfetta precisione. Tuttavia, Anthropic ha ammesso di aver utilizzato The Pile per addestrare Claude, che includeva Books3 durante il periodo rilevante, e il contenuto di Books3 è ampiamente riportato. I querelanti fanno specifiche accuse di violazione del copyright di seguito in base a ciò che è noto sulle pratiche di addestramento di Anthropic; ciò che è noto sui contenuti, sugli usi e sulla disponibilità di archivi di libri piratati che si sospetta che Anthropic abbia utilizzato, come Bibliotik; e i risultati dei test di Claude condotti dai querelanti.

56. La querelante Bartz. La querelante Bartz è l’autrice di numerosi libri, tra cui The Lost Night: A Novel. Questo romanzo è incluso nel dataset Books3, in base a quanto riportato pubblicamente sul dataset. Copie piratate della sua opera sono disponibili online tramite siti web come LibGen e Bibliotek. Bartz è l’autrice e la proprietaria del copyright registrato elencato nell’Allegato A, sotto il nome della sua S Corporation interamente di proprietà, Andrea Bartz Inc.

57. Il querelante Graeber. Il querelante Graeber è l’autore di numerosi libri, tra cui The Good Nurse e The Breakthrough. Entrambi i libri fanno parte del dataset Books3, in base a quanto riportato pubblicamente su quel dataset. Copie piratate di tutte le opere del querelante Graeber sono disponibili online tramite siti web come LibGen e Bibliotik. Graeber è l’autore e proprietario dei copyright registrati elencati a suo nome nell’Allegato A.

58. Il querelante Johnson. Il querelante Johnson è l’autore di numerosi libri, tra cui To Be a Friend Is Fatal. Questo libro fa parte del dataset Books3, in base a quanto riportato pubblicamente su quel dataset. Copie piratate di tutte le opere del querelante Johnson sono disponibili online tramite siti web come LibGen e Bibliotik. Johnson è l’autore e il proprietario legale e/o beneficiario del copyright registrato elencato a suo nome nell’Allegato A.

ALLEGATO DELLA CLASSE

59. Questa azione è intentata dai querelanti individualmente e per conto della Classe, come definito di seguito, ai sensi delle Regole 23(a), (b)(3) e 23(b)(2), (c)(4), e (g) delle Regole Federali di Procedura Civile:

60. La Classe comprende almeno migliaia di autori e titolari di copyright e quindi è così numerosa che l’unione di tutti i membri è impraticabile. Le identità dei membri della Classe possono essere facilmente accertate dai registri aziendali tenuti dal convenuto e almeno dal contenuto del database Books3 che Anthropic ha scaricato illegalmente.

61. Le richieste avanzate dal querelante sono tipiche delle richieste della Classe, tutte le cui opere sono state copiate come parte del processo di addestramento degli LLM.

62. Il querelante proteggerà in modo equo e adeguato gli interessi della Classe e non ha alcun interesse antagonista rispetto a quelli degli altri membri della Classe.

63. Il querelante ha incaricato avvocati che sono competenti ed esperti in materia di copyright e di azioni collettive, nonché in controversie complesse.

64. Questa azione è appropriata come azione collettiva ai sensi della Regola 23(b)(3) delle Regole Federali di Procedura Civile perché le questioni comuni di diritto e di fatto che riguardano la Classe predominano rispetto a quelle che riguardano solo singoli membri. La legge è uniforme. Inoltre, le questioni fattuali comuni che danno origine a risposte comuni che avanzano questa controversia includono:

a. Se la riproduzione delle opere protette da copyright della Classe da parte di Anthropic costituisse violazione del copyright;

b. Se la riproduzione delle opere protette da copyright della Classe da parte di Anthropic nel corso dell’addestramento dei loro modelli di AI generativa fosse un uso equo;

c. Se la riproduzione delle opere protette da copyright della Classe da parte di Anthropic abbia danneggiato i membri della Classe e se il membro della Classe abbia diritto a risarcimento, comprese le danni statuari e l’importo dei danni statuari;

d. Se la violazione del copyright da parte di Anthropic fosse intenzionale.

65. Inoltre, il dispositivo di classe è il meccanismo superiore per gestire questa azione, e un processo collettivo è altamente gestibile.

66. Questa azione è anche appropriata come azione collettiva ai sensi della Regola 23(b)(2) delle Regole Federali di Procedura Civile perché la decisione di Anthropic di addestrare i suoi modelli su un’enorme quantità di libri della Classe influisce su tutti i membri della classe nello stesso modo, e qualsiasi ingiunzione concessa influenzerà la Classe nel suo insieme.

67. Infine, almeno, ci sono molteplici questioni comuni relative al contesto uniforme di Anthropic, come (ma non limitate a) la loro ingestione, riproduzione e volontà.

RICHIESTA DI RISARCIMENTO: Violazione del Copyright (17 U.S.C. § 501)
Contro il Convenuto Anthropic PBC

68. I querelanti incorporano per riferimento le affermazioni contenute nei paragrafi da 1 a 65 come se fossero completamente riportate qui.

69. I querelanti e i membri della Classe proposta hanno creato opere letterarie originali fissate in un mezzo tangibile di espressione e possiedono i copyright registrati nelle opere che Anthropic ha riprodotto e appropriato per addestrare i loro modelli di intelligenza artificiale.

70. I querelanti e i membri della Classe proposta detengono quindi i diritti esclusivi, inclusi i diritti di riproduzione e distribuzione, su queste opere ai sensi del 17 U.S.C. § 106.

71. Anthropic ha violato i diritti esclusivi, ai sensi del 17 U.S.C. § 106, dei querelanti e dei membri della Classe proposta riproducendo, tra le altre cose, le opere possedute dai querelanti e dalla Classe proposta in dataset utilizzati per addestrare i loro modelli di intelligenza artificiale.

72. Sulla base delle informazioni e delle convinzioni, la condotta illecita di Anthropic allegata qui era e continua ad essere volontaria. Anthropic ha violato i diritti esclusivi dei querelanti e dei membri della Classe proposta sapendo di trarre profitto da una massiccia violazione del copyright.

73. I querelanti e i membri della Classe proposta hanno diritto, a loro scelta, a danni statuari o danni effettivi, ritenzione dei profitti, onorari e spese legali e altri rimedi disponibili ai sensi della Legge sul Copyright.

74. I querelanti e i membri della Classe proposta sono stati e continuano ad essere irreparabilmente danneggiati dalla condotta di Anthropic, per la quale non esiste un rimedio adeguato a legge. Anthropic continuerà a violare i diritti esclusivi dei querelanti e della classe proposta a meno che la loro attività di violazione non venga inibita da questa Corte. I querelanti hanno quindi diritto a un’ingiunzione permanente che vieti la continua violazione di Anthropic.

RICHIESTA DI RISARCIMENTO

75. Dove i querelanti chiedono che questa causa sia certificata come azione collettiva, che i loro avvocati siano nominati come Avvocati della Classe e che siano nominati come Rappresentanti della Classe, e i querelanti chiedono giudizio contro il Convenuto come segue:

1. Assegnare ai querelanti e alla Classe proposta danni statuari o danni compensativi a loro scelta, restituzione, ritenzione dei profitti, onorari e spese legali e qualsiasi altro risarcimento consentito dalla legge o dall’equità ai sensi della o delle richieste di risarcimento;

2. Inibire permanentemente Anthropic dall’impegnarsi nella condotta illecita allegata qui;

3. Assegnare ai querelanti e alla Classe proposta interessi pre-giudiziali e post-giudiziali ai sensi della o delle richieste di risarcimento;

4. Assegnare ai querelanti e alla Classe proposta costi, spese e onorari legali come consentito dalla legge; e

5. Assegnare ai querelanti e alla Classe proposta ulteriore risarcimento che la Corte possa ritenere giusto e opportuno in base alle circostanze.

RICHIESTA DI PROCESSO CON GIURIA

76. Ai sensi della Regola 38 delle Regole Federali di Procedura Civile, i querelanti richiedono un processo con giuria per tutte le richieste soggette a processo.

Data: 19 agosto 2024

Avvocati per i Querelanti e la Classe Proposta

Fonte

Le opinioni espresse in questo articolo sono dell’autore.

Leggi le ultime notizie su www.presskit.it

Può interessarti anche: Con che frequenza i principali modelli di intelligenza artificiale producono contenuti protetti da copyright? La riposta in una ricerca di Patronus AI

Per non dimenticare: OpenAI ha affermato che è “impossibile” addestrare i migliori modelli di intelligenza artificiale senza le opere protette da copyright

Seguici su Facebook https://www.facebook.com/presskit.it

Seguici su Sfero: https://sfero.me/users/presskit-quotidiano-on-line

Seguici su Telegram https://t.me/presskit

Copiate l’articolo, se volete, vi chiediamo solo di mettere un link al pezzo originale.