fbpx

Hoe u kunt voorkomen dat ChatGPT uw website-inhoud gebruikt

Hoe u kunt voorkomen dat ChatGPT uw website-inhoud gebruikt

Share This Post


Er is bezorgdheid over het ontbreken van een gemakkelijke manier om u af te melden voor inhoud die wordt gebruikt om grote taalmodellen (LLM’s) zoals ChatGPT te trainen. Er is een manier om dit te doen, maar het is niet eenvoudig en ook niet zeker om te werken.

Hoe AI’s leren van uw inhoud

Grote taalmodellen (LLM’s) worden getraind met gegevens die uit verschillende bronnen komen. Veel van deze datasets zijn open source en worden vrij gebruikt om AI te trainen.

Enkele gebruikte bronnen zijn:

Wikipedia Overheidsrechtbanken Boeken E-mails Bijgehouden websites

Er zijn eigenlijk portalen, websites die datasets aanbieden, die enorme hoeveelheden informatie bieden.

Een van de portals wordt gehost door Amazon, dat duizenden datasets aanbiedt op het AWS Open Data Registry.

Hoe u kunt voorkomen dat ChatGPT uw website-inhoud gebruikt

De portal van Amazon met duizenden datasets is slechts een van de vele andere die meer datasets bevatten.

Wikipedia somt 28 portals op voor het downloaden van datasets, waaronder de Google-dataset en de Hugging Face-portalen voor duizenden datasets.

Gegevenssets voor webinhoud

OpenWebText

Een populaire dataset van webinhoud wordt OpenWebText genoemd. OpenWebText bestaat uit URL’s gevonden in Reddit-berichten die ten minste drie upvotes hadden.

Het idee is dat deze URL’s betrouwbaar zijn en inhoud van hoge kwaliteit bevatten. Ik kon geen informatie vinden over een user-agent voor zijn tracker, misschien identificeert het zichzelf gewoon als python, niet zeker.

We weten echter dat als uw site is gelinkt vanuit Reddit met ten minste drie upvotes, de kans groot is dat uw site zich in de OpenWebText-dataset bevindt.

Lees hier meer over OpenWebText.

Gemeenschappelijke kruip

Een van de meest gebruikte datasets voor internetinhoud wordt geleverd door een non-profitorganisatie genaamd Common Crawl.

Common Crawlgegevens zijn afkomstig van een bot die het hele internet doorzoekt.

Organisaties die de gegevens willen gebruiken, downloaden deze en verwijderen deze vervolgens van spamsites, enzovoort.

De algemene naam van de crawlbot is CCBot.

CCBot volgt het robots.txt-protocol, dus het is mogelijk om Common Crawl met Robots.txt te blokkeren en te voorkomen dat uw websitegegevens in een andere dataset worden ingevoerd.

Als uw site echter al is gecrawld, is deze waarschijnlijk al opgenomen in verschillende datasets.

Door Common Crawl te blokkeren, is het echter mogelijk om te voorkomen dat uw website-inhoud wordt opgenomen in nieuwe datasets van nieuwere Common Crawl-gegevens.

De CCBot User-Agent-tekenreeks is:

CCBot/2.0

Voeg het volgende toe aan uw robots.txt-bestand om de Common Crawl-bot te blokkeren:

User-Agent: CCBot Disallow: /

Een extra manier om te bevestigen of een CCBot-user-agent legitiem is, is dat deze traceert vanaf Amazon AWS IP-adressen.

CCBot houdt zich ook aan de metatagrichtlijnen van nofollow-robots.

Gebruik dit in uw robots-metatag:

Voorkom dat AI uw inhoud gebruikt

Zoekmachines zorgen ervoor dat websites niet meer worden gevolgd. Met Common Crawl kunt u het ook uitschakelen. Maar er is momenteel geen manier om website-inhoud uit bestaande datasets te verwijderen.

Bovendien lijken de onderzoekers website-uitgevers geen manier te bieden om zich af te melden voor tracking.

Het artikel ChatGPT is eerlijk gebruik van webcontent? onderzoek de vraag of het zelfs ethisch is om websitegegevens zonder toestemming te gebruiken of een manier om deze uit te schakelen.

Veel uitgevers waarderen het misschien dat ze in de nabije toekomst meer zeggenschap krijgen over hoe hun inhoud wordt gebruikt, met name AI-producten zoals ChatGPT.

Op dit moment is nog niet bekend of dit gaat gebeuren.

Uitgelichte afbeelding door Shutterstock/ViDI Studio



Source link

More To Explore

OpenAI sluit gebrekkige AI-detector af
Marketing Nieuwtjes

OpenAI sluit gebrekkige AI-detector af

OpenAI heeft zijn AI-classificatie, een tool die is ontworpen om door AI gegenereerde tekst te identificeren, stopgezet na kritiek op de nauwkeurigheid ervan. De beƫindiging

WACHT! VOORDAT JE GAAT...

Geef me jouw E-mail Address, en dan stuur ik je een GRATIS kopie van mijn boek, waarin ik je laat zien hoe je jouw inkomen kan verdubbelen in 90 dagen!