Grote taalmodellen (LLM’s) zoals ChatGPT, Bard en zelfs open source-versies worden getraind op openbare internetinhoud. Maar er zijn ook tekenen dat populaire AI’s ook kunnen worden getraind op datasets die zijn gemaakt op basis van illegale boeken.
Is Dolly 2.0 getraind op illegale inhoud?
Dolly 2.0 is een open source AI die onlangs is uitgebracht. Het is Dolly’s bedoeling om AI te democratiseren door het beschikbaar te maken voor iedereen die er iets mee wil creëren, ook commerciële producten.
Maar er is ook een privacyprobleem met het concentreren van AI-technologie in de handen van drie grote bedrijven en hen privégegevens toevertrouwen.
Als ze de keuze krijgen, geven veel bedrijven privégegevens liever niet door aan derden zoals Google, OpenAI en Meta.
Zelfs Mozilla, het open source browser- en app-bedrijf, investeert in de groei van het open source AI-ecosysteem.
De bedoeling van open source AI is zeker goed.
Maar er is een probleem met de gegevens die worden gebruikt om deze grote taalmodellen te trainen, omdat een deel ervan bestaat uit illegale inhoud.
De open source ChatGPT-kloon, Dolly 2.0, is gemaakt door een bedrijf genaamd DataBricks (meer over Dolly 2.0)
Dolly 2.0 is gebaseerd op een open source large language model (LLM) genaamd Pythia (die is gemaakt door een open source-groep genaamd, EleutherAI).
EleutherAI creëerde acht LLM-versies van verschillende groottes binnen de LLM Pythia-familie.
Een versie van Pythia, een versie met 12 miljard parameters, is degene die door DataBricks wordt gebruikt om Dolly 2.0 te maken, evenals met een dataset die DataBricks zelf heeft gemaakt (een Q&A-dataset die werd gebruikt om de AI Dolly 2.0 te trainen om instructies op te nemen )
Het ding over EleutherAI Pythia LLM is dat het is getraind met behulp van een dataset genaamd Pile.
De Pile-dataset bestaat uit verschillende sets met Engelse teksten, waaronder een dataset met de naam Books3. De Books3-dataset bevat de tekst van boeken die zijn gepirateerd en gehost op een piratensite genaamd bibliotik.
Dit is wat de DataBricks-aankondiging zegt:
“Dolly 2.0 is een 12B-parametertaalmodel gebaseerd op EleutherAI’s pythia-familie van modellen en uniek afgestemd op een nieuwe, hoogwaardige, door mensen gegenereerde instructie volgende dataset, collectief onder Databricks-medewerkers”.
Pythia LLM is gebouwd met de Pile-dataset
EleutherAI’s Pythia-onderzoeksdocument waarin wordt vermeld dat Pythia is getraind met behulp van de Pile-dataset.
Hier is een citaat uit het Pythia-onderzoeksdocument:
“We trainen elk 8 modelgroottes op zowel de stapel… als de stapel na deduplicatie, waardoor we 2 exemplaren van de suite hebben die kunnen worden vergeleken.”
Deduplicatie betekent dat ze overtollige gegevens hebben verwijderd, het is een proces om een schonere dataset te creëren.
Dus wat zit er in Pile? Er is een onderzoeksdocument van Pile waarin wordt uitgelegd wat er in deze dataset staat.
Hier is een citaat uit Pile’s onderzoekspaper waarin staat dat ze de Books3-dataset gebruiken:
“Daarnaast nemen we verschillende bestaande hoogwaardige datasets op: Books3 (pers2020)…”
Het onderzoeksdocument van de Pile-dataset linkt naar een tweet van Shawn Presser, die zegt wat er in de Books3 dataset staat:
“Stel dat je een GPT-model van wereldklasse wilt trainen, net als OpenAI. Hoe? Je hebt geen gegevens.
Nu ja. Iedereen doet het nu.
Introductie van “books3”, ook bekend als “tota la bibliotik”
– 196.640 boeken
– in gewone .txt-indeling
– Directe en betrouwbare download voor jaren: https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz”
Dus… het bovenstaande citaat geeft duidelijk aan dat de Pile-dataset werd gebruikt om de Pythia LLM te trainen, die op zijn beurt diende als basis voor de Dolly 2.0 open source AI.
Is Google Bard getraind in illegale inhoud?
The Washington Post publiceerde onlangs een recensie van Google’s Colossal Clean Crawled Corpus-dataset (ook bekend als C4 Research Paper – PDF hier ) waarin ze ontdekten dat de dataset van Google ook gehackte inhoud bevat.
De C4-dataset is belangrijk omdat het een van de datasets is die wordt gebruikt om Google’s LaMDA LLM te trainen, een versie waarop Bard is gebaseerd.
De daadwerkelijke dataset heet Infiniset en de C4-dataset vertegenwoordigt ongeveer 12,5% van de totale tekst die wordt gebruikt om LaMDA te trainen. Citaties van deze feiten over Bard zijn hier te vinden.
Nieuwsartikel gepubliceerd in de Washington Post:
“De drie grootste sites waren patents.google.com nr. 1, die tekst bevat van patenten die over de hele wereld zijn uitgegeven; wikipedia.org nee. 2, de gratis online encyclopedie; en scribd.com nr. 3, een digitale bibliotheek met alleen een abonnement.
Staat ook op de lijst: b-ok.org nr. 190, een beruchte piratenmarktplaats voor e-books die sindsdien in beslag is genomen door het Amerikaanse ministerie van Justitie.
In de dataset waren ten minste 27 andere sites geïdentificeerd door de Amerikaanse overheid als markten voor piraterij en namaak.”
De fout in de analyse van de Washington Post is dat ze kijken naar een versie van de C4, maar niet noodzakelijkerwijs degene die LaMDA heeft gevormd.
Het onderzoekspaper over de C4-dataset werd gepubliceerd in juli 2020. Een jaar na de publicatie werd een ander onderzoekspaper gepubliceerd waarin werd vastgesteld dat de C4-dataset bevooroordeeld was tegen mensen van kleur en de LGBT-gemeenschap.
Het onderzoekspaper is getiteld: Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus (PDF-onderzoeksdocument hier).
De onderzoekers ontdekten dat de dataset negatieve gevoelens bevatte tegen mensen met een Arabische identiteit en documenten uitsluit die verband houden met zwarten, Hispanics en documenten die seksuele geaardheid vermelden.
De onderzoekers schreven:
“Ons onderzoek van de uitgesloten gegevens suggereert dat documenten die verband houden met zwarte en Latijns-Amerikaanse auteurs en documenten die seksuele oriëntaties vermelden, eerder worden uitgesloten door C4.EN’s blokkeerlijstfiltering en dat veel uitgesloten documenten niet-aanstootgevende of niet-seksuele inhoud bevatten (bijv. , wetgevingsdiscussies over het homohuwelijk, wetenschappelijke en medische inhoud).
Deze uitsluiting is een vorm van toewijzingsschade… en verergert de bestaande raciale ongelijkheid (op basis van taal) en de stigmatisering van LGBTQ+-identiteiten…
Bovendien is een direct gevolg van het verwijderen van deze tekst uit de datasets die worden gebruikt om de taalmodellen te trainen, dat de modellen slecht zullen presteren wanneer ze worden toegepast op tekst door en over mensen met minderheidsidentiteiten, waardoor ze feitelijk worden uitgesloten van de voordelen van technologie zoals automatische vertaling of zoekopdracht. “
Er werd geconcludeerd dat het uitfilteren van “slechte woorden” en andere pogingen om de dataset “op te schonen” te simplistisch was en dat een meer genuanceerde aanpak gerechtvaardigd was.
Deze bevindingen zijn belangrijk omdat ze laten zien dat het algemeen bekend was dat de C4-dataset gebrekkig was.
LaMDA is ontwikkeld in 2022 (twee jaar na de C4-dataset) en het bijbehorende LaMDA-onderzoeksdocument zegt dat het is getraind op C4.
Maar dit is slechts een onderzoeksdocument. Wat er in het echte leven in een productiemodel gebeurt, kan heel anders zijn dan wat er in het onderzoeksverslag staat.
Wanneer we het hebben over een onderzoeksdocument, is het belangrijk om te onthouden dat Google consequent zegt dat wat in een patent of onderzoeksdocument staat, niet noodzakelijk is wat er in het algoritme van Google wordt gebruikt.
Het is zeer waarschijnlijk dat Google op de hoogte is van deze bevindingen en het is niet onredelijk om aan te nemen dat Google een nieuwe versie van C4 voor het productiemodel heeft ontwikkeld, niet alleen om de ongelijkheden in de dataset aan te pakken, maar ook om deze bij te werken.
Google zegt niet wat er in hun algoritme zit, het is een zwarte doos. Daarom kunnen we niet met zekerheid zeggen dat de technologie die ten grondslag ligt aan Google Bard is getraind op illegale inhoud.
Om het nog duidelijker te maken, werd Bard in 2023 gelanceerd met een lichtgewicht versie van LaMDA. Google heeft niet gedefinieerd wat een lichtgewicht versie van LaMDA is.
Er is dus geen manier om te weten welke inhoud zich in de datasets bevond die werden gebruikt om de lichtgewicht versie van LaMDA die Bard aandrijft, te trainen.
Men kan alleen maar speculeren over welke inhoud werd gebruikt om Bard te trainen.
Gebruikt GPT-4 illegale inhoud?
OpenAI is uiterst privé over de datasets die worden gebruikt om GPT-4 te trainen. De laatste keer dat OpenAI datasets noemde, was in het pdf-onderzoeksdocument voor GPT-3 dat in 2020 werd gepubliceerd en zelfs daar is het een beetje vaag en onnauwkeurig over wat er in de datasets staat.
De website TowardsDataScience publiceerde in 2021 een interessant overzicht van de beschikbare informatie waarin ze concludeerden dat er inderdaad illegale inhoud werd gebruikt om vroege versies van GPT te trainen.
Zij schrijven:
“… We vinden bewijs dat BookCorpus rechtstreeks de auteursrechtbeperkingen heeft geschonden voor honderden boeken die niet hadden mogen worden herverdeeld met behulp van een gratis dataset.
Zo stellen meer dan 200 boeken in BookCorpus expliciet dat ze “niet mogen worden gereproduceerd, gekopieerd of gedistribueerd voor commerciële of niet-commerciële doeleinden”.
Het is moeilijk te concluderen of GPT-4 illegale inhoud heeft gebruikt.
Is er een probleem met het gebruik van illegale inhoud?
Men zou kunnen denken dat het onethisch is om illegale inhoud te gebruiken om een groot taalmodel te vormen en te profiteren van het gebruik van die inhoud.
Maar wetten kunnen dit soort gebruik toestaan.
Ik vroeg Kenton J. Hutcherson, internetadvocaat bij Hutcherson Law, wat hij vond van het gebruik van illegale inhoud in de context van het trainen van grote taalmodellen.
Ik vroeg met name of iemand die Dolly 2.0 gebruikt, dat gedeeltelijk kan worden opgebouwd uit illegale boeken, commerciële entiteiten die applicaties bouwen met Dolly 2.0, zouden worden blootgesteld aan claims van inbreuk op het auteursrecht?
Kenton antwoordde:
“Een claim voor inbreuk op het auteursrecht door houders van auteursrechten van illegale boeken zou waarschijnlijk mislukken op grond van redelijk gebruik.
Redelijk gebruik beschermt transformatief gebruik van auteursrechtelijk beschermde werken.
Hier worden gehackte boeken niet gebruikt als boeken voor mensen om te lezen, maar als invoer voor een AI-trainingsdataset.
Een soortgelijk voorbeeld speelde een rol bij het gebruik van miniaturen op pagina’s met zoekresultaten. Miniaturen zijn er niet om de webpagina’s te vervangen waarvan ze een voorbeeld weergeven. Ze hebben een heel andere functie: ze geven een voorbeeld van de pagina weer.
Dit is transformatief gebruik.”
Karen J. Bernstein van Bernstein IP had een soortgelijke mening.
“Is het gebruik van illegale inhoud redelijk gebruik? Fair use is in dergelijke gevallen een veel gebruikte verdediging.
Het concept van verdediging tegen redelijk gebruik bestaat alleen onder de Amerikaanse auteursrechtwetgeving.
Redelijk gebruik wordt geanalyseerd aan de hand van een multi-factoranalyse die het Hooggerechtshof heeft opgesteld in een baanbrekende zaak uit 1994.
In dit scenario zullen er vragen zijn over hoeveel van de illegale inhoud uit de boeken is verwijderd en wat er met de inhoud is gedaan (was het “transformatief”), en of die inhoud de markt wegneemt van de maker van het auteursrecht”.
De AI-technologie ontwikkelt zich in een ongekend tempo en lijkt met de week te evolueren. Misschien als gevolg van de concurrentie en de financiële voordelen van succes, zijn Google en OpenAI steeds meer privé geworden over hoe hun AI-modellen worden getraind.
Moeten ze meer open zijn over deze informatie? Kan erop worden vertrouwd dat uw datasets eerlijk en onbevooroordeeld zijn?
Het gebruik van illegale inhoud om deze AI-modellen te maken, kan wettelijk worden beschermd als redelijk gebruik, maar alleen omdat het kan, betekent dat dat je het zou moeten doen?
Uitgelichte afbeelding door Shutterstock/Roman Samborskyi

Hey, ik ben Brent, en ik speel al een lange tijd mee in de SEO scene. Ik ben vooral heel actief in de Amerikaanse markt, en hou dan ook wel van een uitdaging. Ik ben sinds kort aan het uitbreiden binnenin de Benelux, en besluit hier dan ook te oversharen!
Wil je meer leren, klik dan op lees meer!