fbpx

Hoe ChatGPT-watermerken werken en waarom het kan worden overwonnen

Hoe ChatGPT-watermerken werken en waarom het kan worden overwonnen

Share This Post


OpenAI’s ChatGPT introduceerde een manier om automatisch inhoud te creëren, maar plannen om een ​​watermerkfunctie te introduceren om het gemakkelijker te kunnen detecteren, maken sommige mensen nerveus. Hier is hoe het watermerk van ChatGPT werkt en waarom er een manier is om het te verslaan.

ChatGPT is een geweldige tool waar zowel online uitgevers, affiliates als SEO’s van houden en bang voor zijn.

Sommige marketeers zijn er dol op omdat ze nieuwe manieren ontdekken om het te gebruiken om inhoudsoverzichten, overzichten en complexe artikelen te genereren.

Online uitgevers vrezen dat AI-inhoud de zoekresultaten zal overspoelen en door mensen geschreven expertartikelen zal vervangen.

Bijgevolg wordt ook met angst en hoop geanticipeerd op nieuws over een watermerkfunctie die de detectie van door ChatGPT geschreven inhoud ontgrendelt.

Cryptografisch watermerk

Een watermerk is een semi-transparante markering (een logo of tekst) die is ingesloten in een afbeelding. Het watermerk geeft aan wie de oorspronkelijke auteur van het werk is.

Het is grotendeels te zien op foto’s en in toenemende mate in video’s.

Het watermerken van tekst in ChatGPT omvat cryptografie in de vorm van het inbedden van een patroon van woorden, letters en leestekens in de vorm van een geheime code.

Scott Aaronson en ChatGPT Watermerken

Een invloedrijke computerwetenschapper genaamd Scott Aaronson werd in juni 2022 ingehuurd door OpenAI om te werken aan AI-beveiliging en afstemming.

AI-veiligheid is een onderzoeksgebied dat zich bezighoudt met het bestuderen van manieren waarop AI schade kan toebrengen aan mensen en het creëren van manieren om dergelijke negatieve verstoringen te voorkomen.

Het wetenschappelijke tijdschrift Distill, met aan OpenAI gelieerde auteurs, definieert AI Safety als volgt:

“Het langetermijndoel van kunstmatige intelligentie (AI) -beveiliging is ervoor te zorgen dat geavanceerde AI-systemen op betrouwbare wijze zijn afgestemd op menselijke waarden, dat ze op betrouwbare wijze doen wat mensen willen dat ze doen”.

AI-afstemming is het gebied van kunstmatige intelligentie dat zich bezighoudt met ervoor zorgen dat AI is afgestemd op de beoogde doelen.

Een groot taalmodel (LLM) zoals ChatGPT kan worden gebruikt op een manier die indruist tegen de doelen van AI-afstemming zoals gedefinieerd door OpenAI, namelijk het creëren van AI die de mensheid ten goede komt.

Dienovereenkomstig is de reden voor het watermerk om te voorkomen dat AI wordt misbruikt op een manier die de mensheid schaadt.

Aaronson legde de reden voor het uitvoerwatermerk van ChatGPT uit:

“Dit kan uiteraard nuttig zijn bij het voorkomen van academisch plagiaat, maar bijvoorbeeld ook bij het massaal genereren van propaganda…”

Hoe werkt het ChatGPT-watermerk?

ChatGPT-watermerken is een systeem dat een statistisch patroon, een code, woordkeuzes en zelfs interpunctie insluit.

Door AI gegenereerde inhoud wordt gegenereerd met een redelijk voorspelbaar patroon van woordkeuze.

Woorden geschreven door mensen en AI volgen een statistisch patroon.

Het wijzigen van het patroon van woorden die in de gegenereerde inhoud worden gebruikt, is een manier om de tekst van een “watermerk” te voorzien, zodat een systeem gemakkelijker kan detecteren of het het product is van een AI-tekstgenerator.

De truc die het watermerken van AI-inhoud ondetecteerbaar maakt, is dat de distributie van woorden nog steeds een willekeurig uiterlijk heeft, vergelijkbaar met normale door AI gegenereerde tekst.

Dit staat bekend als een pseudo-willekeurige verdeling van woorden.

Pseudowillekeur is een statistisch willekeurige reeks woorden of getallen die niet echt willekeurig zijn.

Het ChatGPT-watermerk is momenteel niet in gebruik. Scott Aaronson van OpenAI merkt echter op dat het gepland is.

Op dit moment bevindt ChatGPT zich in previews, waardoor OpenAI “verkeerde uitlijning” kan ontdekken door gebruik in de echte wereld.

Vermoedelijk kan het watermerk worden ingevoerd in een definitieve versie van ChatGPT of eerder.

Scott Aaronson schreef over hoe watermerken werken:

“Mijn belangrijkste project tot nu toe was een tool om de output van een tekstmodel zoals GPT statistisch te markeren.

Kortom, wanneer GPT lange tekst genereert, willen we dat er een anderszins onmerkbaar geheim signaal in de woordkeuze zit, dat je later kunt gebruiken om te bewijzen dat, ja, dit afkomstig was van GPT.”

Aaronson legde verder uit hoe de watermerken van ChatGPT werken. Maar eerst is het belangrijk om het concept van tokenisatie te begrijpen.

Tokenisatie is een stap die plaatsvindt bij de verwerking van natuurlijke taal, waarbij de machine de woorden in een document neemt en ze opsplitst in semantische eenheden zoals woorden en zinnen.

Tokenisatie verandert tekst in een gestructureerde vorm die kan worden gebruikt in machine learning.

Het proces voor het genereren van tekst is de machine die raadt welk token het volgende is op basis van het vorige token.

Dit wordt gedaan met een wiskundige functie die de waarschijnlijkheid bepaalt van wat het volgende token zal zijn, wat een kansverdeling wordt genoemd.

Het volgende woord wordt voorspeld, maar is willekeurig.

Het watermerk zelf is wat Aaron omschrijft als pseudo-willekeurig in die zin dat er een wiskundige reden is voor een bepaald woord of leesteken om daar te staan, maar het is nog steeds statistisch willekeurig.

Hier is de technische uitleg van het GPT-watermerk:

“Voor GPT is elke invoer en uitvoer een reeks tokens, die woorden kunnen zijn, maar ook leestekens, delen van woorden of meer – er zijn in totaal ongeveer 100.000 tokens.

In de kern genereert GPT constant een kansverdeling over het volgende te genereren token, afhankelijk van de keten van eerdere tokens.

Nadat het neurale netwerk de distributie heeft gegenereerd, geeft de OpenAI-server in feite een token weer volgens die distributie, of een gewijzigde versie van de distributie, afhankelijk van een parameter genaamd “temperatuur”.

Echter, zolang de temperatuur niet nul is, zal er meestal enige willekeur zijn bij de keuze van het volgende token: je kunt hetzelfde token keer op keer uitvoeren en elk een andere voltooiing krijgen (d.w.z. een tokenketen van uitvoer). tijd. .

Om vervolgens het watermerk te markeren, in plaats van het volgende token willekeurig te selecteren, zal het idee zijn om het pseudo-willekeurig te selecteren, met behulp van een pseudo-willekeurige cryptografische functie, waarvan de sleutel alleen bekend is bij OpenAI.

Het watermerk ziet er volkomen natuurlijk uit voor de lezer omdat de woordkeuze de willekeur van alle andere woorden nabootst.

Maar deze willekeur bevat een vooroordeel dat alleen kan worden gedetecteerd door iemand met de sleutel om het te decoderen.

Hier is de technische uitleg:

“Ter illustratie, in het speciale geval dat GPT een aantal mogelijke tokens had die het even waarschijnlijk achtte, kon je eenvoudig het token kiezen dat g maximaliseerde. De keuze zou uniform willekeurig lijken voor iemand die de sleutel niet kende, maar iemand wie Als ik het wist, zou ik alle n-grammen kunnen optellen en zien dat het abnormaal groot was.”

Watermerken is een privacy-eerste oplossing

Ik heb discussies op sociale media gezien waarin sommige mensen suggereerden dat OpenAI een logboek zou kunnen bijhouden van elke uitvoer die het genereert en dit zou kunnen gebruiken voor detectie.

Scott Aaronson bevestigt dat OpenAI dit zou kunnen doen, maar dat dit een privacyprobleem oplevert. De mogelijke uitzondering is de wetshandhavingssituatie, waar hij niet verder op inging.

Hoe ChatGPT of GPT-watermerk te detecteren

Een interessant ding dat nog niet zo bekend lijkt, is dat Scott Aaronson erop wees dat er een manier is om het watermerk te omzeilen.

Hij zei niet dat het mogelijk is om het watermerk te verslaan, hij zei dat het kan worden verslagen.

“Nu kan dat allemaal met voldoende inspanning worden verslagen.

Als je bijvoorbeeld een andere AI hebt gebruikt om GPT-uitvoer te parafraseren, dan kunnen we dat niet detecteren.”

Het lijkt erop dat het watermerk kan worden verslagen, tenminste vanaf november, toen de vorige uitspraken werden gedaan.

Er is geen indicatie dat het watermerk momenteel in gebruik is. Maar wanneer het in gebruik wordt genomen, is het misschien niet bekend of die maas in de wet is gesloten.

Dagvaarding

Lees hier de blogpost van Scott Aaronson.

Uitgelichte afbeelding door Shutterstock/RealPeopleStudio



Source link

More To Explore

Bing AI voicechat komt naar de desktop
Marketing Nieuwtjes

Bing AI voicechat komt naar de desktop

Bing heeft een update aangekondigd voor Bing AI Chat die voicechat-mogelijkheden toevoegt aan de gebruikersinterface voor zoeken op desktops. Spraakinteractie is tweerichtingsverkeer en beschikbaar in

WACHT! VOORDAT JE GAAT...

Geef me jouw E-mail Address, en dan stuur ik je een GRATIS kopie van mijn boek, waarin ik je laat zien hoe je jouw inkomen kan verdubbelen in 90 dagen!