Er is bezorgdheid over het ontbreken van een gemakkelijke manier om u af te melden voor inhoud die wordt gebruikt om grote taalmodellen (LLM’s) zoals ChatGPT te trainen. Er is een manier om dit te doen, maar het is niet eenvoudig en ook niet zeker om te werken.
Hoe AI’s leren van uw inhoud
Grote taalmodellen (LLM’s) worden getraind met gegevens die uit verschillende bronnen komen. Veel van deze datasets zijn open source en worden vrij gebruikt om AI te trainen.
Enkele gebruikte bronnen zijn:
Wikipedia Overheidsrechtbanken Boeken E-mails Bijgehouden websites
Er zijn eigenlijk portalen, websites die datasets aanbieden, die enorme hoeveelheden informatie bieden.
Een van de portals wordt gehost door Amazon, dat duizenden datasets aanbiedt op het AWS Open Data Registry.
De portal van Amazon met duizenden datasets is slechts een van de vele andere die meer datasets bevatten.
Wikipedia somt 28 portals op voor het downloaden van datasets, waaronder de Google-dataset en de Hugging Face-portalen voor duizenden datasets.
Gegevenssets voor webinhoud
OpenWebText
Een populaire dataset van webinhoud wordt OpenWebText genoemd. OpenWebText bestaat uit URL’s gevonden in Reddit-berichten die ten minste drie upvotes hadden.
Het idee is dat deze URL’s betrouwbaar zijn en inhoud van hoge kwaliteit bevatten. Ik kon geen informatie vinden over een user-agent voor zijn tracker, misschien identificeert het zichzelf gewoon als python, niet zeker.
We weten echter dat als uw site is gelinkt vanuit Reddit met ten minste drie upvotes, de kans groot is dat uw site zich in de OpenWebText-dataset bevindt.
Lees hier meer over OpenWebText.
Gemeenschappelijke kruip
Een van de meest gebruikte datasets voor internetinhoud wordt geleverd door een non-profitorganisatie genaamd Common Crawl.
Common Crawlgegevens zijn afkomstig van een bot die het hele internet doorzoekt.
Organisaties die de gegevens willen gebruiken, downloaden deze en verwijderen deze vervolgens van spamsites, enzovoort.
De algemene naam van de crawlbot is CCBot.
CCBot volgt het robots.txt-protocol, dus het is mogelijk om Common Crawl met Robots.txt te blokkeren en te voorkomen dat uw websitegegevens in een andere dataset worden ingevoerd.
Als uw site echter al is gecrawld, is deze waarschijnlijk al opgenomen in verschillende datasets.
Door Common Crawl te blokkeren, is het echter mogelijk om te voorkomen dat uw website-inhoud wordt opgenomen in nieuwe datasets van nieuwere Common Crawl-gegevens.
De CCBot User-Agent-tekenreeks is:
CCBot/2.0
Voeg het volgende toe aan uw robots.txt-bestand om de Common Crawl-bot te blokkeren:
User-Agent: CCBot Disallow: /
Een extra manier om te bevestigen of een CCBot-user-agent legitiem is, is dat deze traceert vanaf Amazon AWS IP-adressen.
CCBot houdt zich ook aan de metatagrichtlijnen van nofollow-robots.
Gebruik dit in uw robots-metatag:
Voorkom dat AI uw inhoud gebruikt
Zoekmachines zorgen ervoor dat websites niet meer worden gevolgd. Met Common Crawl kunt u het ook uitschakelen. Maar er is momenteel geen manier om website-inhoud uit bestaande datasets te verwijderen.
Bovendien lijken de onderzoekers website-uitgevers geen manier te bieden om zich af te melden voor tracking.
Het artikel ChatGPT is eerlijk gebruik van webcontent? onderzoek de vraag of het zelfs ethisch is om websitegegevens zonder toestemming te gebruiken of een manier om deze uit te schakelen.
Veel uitgevers waarderen het misschien dat ze in de nabije toekomst meer zeggenschap krijgen over hoe hun inhoud wordt gebruikt, met name AI-producten zoals ChatGPT.
Op dit moment is nog niet bekend of dit gaat gebeuren.
Uitgelichte afbeelding door Shutterstock/ViDI Studio

Hey, ik ben Brent, en ik speel al een lange tijd mee in de SEO scene. Ik ben vooral heel actief in de Amerikaanse markt, en hou dan ook wel van een uitdaging. Ik ben sinds kort aan het uitbreiden binnenin de Benelux, en besluit hier dan ook te oversharen!
Wil je meer leren, klik dan op lees meer!