fbpx

Google Bard AI: welke sites werden gebruikt om het te trainen?

Google Bard AI: welke sites werden gebruikt om het te trainen?

Share This Post


Google’s Bard is gebaseerd op het LaMDA-taalmodel, dat bestaat uit op internetinhoud gebaseerde datasets, Infiniset genaamd, waarvan zeer weinig bekend is over waar de gegevens vandaan komen en hoe ze eraan zijn gekomen.

Het LaMDA-onderzoeksdocument uit 2022 somt de percentages op van verschillende soorten gegevens die worden gebruikt om LaMDA te trainen, maar slechts 12,5% is afkomstig van een openbare dataset van gecrawlde webinhoud en nog eens 12,5% is afkomstig van Wikipedia.

Google is opzettelijk vaag over waar de rest van de geschraapte gegevens vandaan komen, maar er zijn aanwijzingen over welke sites zich in deze datasets bevinden.

Google’s Infiniset-dataset

Google Bard is gebaseerd op een taalmodel genaamd LaMDA, wat staat voor Language Model for Dialogue Applications.

LaMDA is getraind op een dataset genaamd Infiniset.

Infiniset is een combinatie van internetcontent die bewust is gekozen om het dialoogvermogen van het model te vergroten.

LaMDA’s onderzoekspaper (pdf) legt uit waarom ze voor deze inhoudssamenstelling hebben gekozen:

“…deze samenstelling is gekozen om robuustere prestaties te bereiken in dialoogtaken…terwijl het vermogen behouden blijft om andere taken uit te voeren, zoals het genereren van code.

Als toekomstig werk kunnen we bestuderen hoe de keuze van deze samenstelling de kwaliteit kan beïnvloeden van sommige van de andere NLP-taken die door het model worden uitgevoerd.”

Het onderzoeksartikel verwijst naar dialoog en dialogen, wat de spelling is van woorden die in deze context worden gebruikt, op het gebied van informatica.

In totaal was LaMDA vooraf getraind op 1,56 biljoen woorden aan “openbare dialoog en webtekstgegevens”.

De dataset bestaat uit de volgende combinatie:

12,5% C4-gebaseerde data 12,5% Engelse Wikipedia 12,5% V&A website programmeercode documenten, tutorials en andere 6,25% Engelse webdocumenten 6,25% Niet-webdocumenten Engels 50% Gegevens van openbare forumdialogen

De eerste twee delen van Infiniset (C4 en Wikipedia) bestaan ​​uit bekende gegevens.

De C4-dataset, die binnenkort wordt verkend, is een speciaal gefilterde versie van de Common Crawl-dataset.

Slechts 25% van de gegevens is afkomstig van één genoemde bron (de C4-dataset en Wikipedia).

De rest van de gegevens die het grootste deel van de dataset van Infiniset vormen, 75%, bestaat uit woorden die van internet zijn gehaald.

Het onderzoekspapier vermeldt niet hoe de websitegegevens zijn verkregen, van welke websites deze zijn verkregen, of andere details over de geschraapte inhoud.

Google gebruikt alleen algemene omschrijvingen zoals “Niet-Engelstalige webdocumenten”.

Het woord “verduisterd” betekent wanneer iets onverklaard en grotendeels verborgen blijft.

Troebel is het beste woord om 75% van de gegevens te beschrijven die Google gebruikte om LaMDA te trainen.

Er zijn enkele aanwijzingen die een algemeen idee kunnen geven van welke sites zich binnen 75% van de webinhoud bevinden, maar we kunnen het niet zeker weten.

Gegevensset C4

C4 is een dataset ontwikkeld door Google in 2020. C4 staat voor “Colossal Clean Crawled Corpus”.

Deze dataset is gebaseerd op gegevens van Common Crawl, een open source dataset.

Over Common Crawl

Common Crawl is een geregistreerde non-profitorganisatie die maandelijks het internet doorzoekt om gratis datasets te creëren die iedereen kan gebruiken.

De Common Crawl-organisatie wordt momenteel gerund door mensen die voor de Wikimedia Foundation hebben gewerkt, voormalige Googlers, de oprichter van Blekko, en als adviseurs Peter Norvig, onderzoeksdirecteur bij Google, en Danny Sullivan (ook van Google).

Hoe C4 is ontwikkeld vanuit Common Crawl

De onbewerkte gegevens van Common Crawl worden opgeschoond door zaken als dunne inhoud, obscene woorden, lorem ipsum, navigatiemenu’s, deduplicatie, enz. te verwijderen. om de dataset te beperken tot de hoofdinhoud.

Het doel van het uitfilteren van onnodige gegevens was om brabbeltaal te verwijderen en voorbeelden van natuurlijk Engels te behouden.

Dit is wat de onderzoekers die C4 hebben gemaakt schreven:

“Om onze basisdataset te verzamelen, hebben we de tekst uit april 2019 van internet gedownload en de hierboven genoemde filtering toegepast.

Dit levert een verzameling tekst op die niet alleen ordes van grootte groter is dan de meeste datasets die worden gebruikt voor pretraining (ongeveer 750 GB), maar ook redelijk schone en natuurlijke Engelse tekst bevat.

We noemen deze dataset het “Colossal Clean Crawled Corpus” (of kortweg C4) en publiceren deze als onderdeel van TensorFlow Datasets…”

Er zijn ook andere ongefilterde versies van C4.

Het onderzoeksdocument dat de C4-dataset beschrijft, is getiteld Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (PDF).

Een ander onderzoekspaper uit 2021, (Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus – PDF), onderzocht de samenstelling van de sites die zijn opgenomen in de C4-dataset.

Interessant genoeg ontdekte het tweede onderzoeksartikel anomalieën in de originele C4-dataset die resulteerden in de verwijdering van webpagina’s die Spaans en Afrikaans-Amerikaans waren uitgelijnd.

Spaanstalige webpagina’s werden verwijderd door het blokkeerlijstfilter (malaria, etc.) met een snelheid van 32% van de pagina’s.

Afro-Amerikaans uitgelijnde webpagina’s werden verwijderd met een percentage van 42%.

Vermoedelijk zijn deze tekortkomingen verholpen…

Een andere bevinding was dat 51,3% van de C4-dataset bestond uit webpagina’s die in de Verenigde Staten werden gehost.

Ten slotte erkent de analyse uit 2021 van de oorspronkelijke C4-dataset dat de dataset slechts een fractie van het hele internet vertegenwoordigt.

De analyse zegt:

“Onze analyse laat zien dat hoewel deze dataset een aanzienlijk deel van een deel van het openbare internet vertegenwoordigt, deze geenszins representatief is voor de Engelssprekende wereld en een groot aantal jaren beslaat.

Bij het bouwen van een dataset op basis van een fragment van het web, is het rapporteren van de domeinen waaruit de tekst is geëxtraheerd een integraal onderdeel van het begrijpen van de dataset; het gegevensverzamelingsproces kan leiden tot een aanzienlijk andere verdeling van internetdomeinen dan verwacht.”

De volgende statistieken over de C4-dataset zijn afkomstig uit het tweede onderzoeksartikel dat hierboven is gelinkt.

De top 25 websites (volgens aantal vermeldingen) in C4 zijn:

patents.google.com nl.wikipedia.org nl.m.wikipedia.org www.nytimes.com www.latimes.com www.theguardian.com journals.plos.org www.forbes.com www.huffpost.com patents.com www.scribd.com www.washingtonpost.com www.fool.com ipfs.io www.frontiersin.org www.businessinsider.com www.chicagotribune.com www.booking.com www.theatlantic.com link.springer.com www. aljazeera.com www.kickstarter.com caselaw.findlaw.com www.ncbi.nlm.nih.gov www.npr.org

Dit zijn de top 25 domeinen die worden weergegeven in de C4-dataset:

Google Bard AI: welke sites werden gebruikt om het te trainen?Screenshot van Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus

Als u meer wilt weten over de C4-dataset, raad ik u aan Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus (pdf) te lezen, evenals het originele onderzoekspaper (pdf) uit 2020 waarvoor het is gemaakt C4 .

Wat kunnen gegevens uit openbare forumdialogen zijn?

50% van de trainingsgegevens is afkomstig van “openbare forumdialooggegevens”.

Dat is alles wat het LaMDA-onderzoeksdocument van Google te zeggen heeft over deze trainingsgegevens.

Als je zou raden, zijn Reddit en andere grote communities zoals StackOverflow veilige weddenschappen.

Reddit wordt gebruikt in veel belangrijke datasets, waaronder die ontwikkeld door OpenAI genaamd WebText2 (PDF), een open source-benadering van WebText2 genaamd OpenWebText2, en Google’s 2020 WebText-achtige dataset (PDF).

Google heeft ook details vrijgegeven van een andere dataset van openbare dialoogsites een maand voordat de LaMDA-paper werd gepubliceerd.

Deze dataset met openbare dialoogsites wordt MassiveWeb genoemd.

We speculeren niet dat de MassiveWeb-dataset werd gebruikt om LaMDA te trainen.

Maar het bevat een goed voorbeeld van wat Google koos voor een ander dialooggericht taalmodel.

MassiveWeb is gemaakt door DeepMind, eigendom van Google.

Het is ontworpen om te worden gebruikt door een groot taalmodel genaamd Gopher (link naar pdf van onderzoekspapier).

MassiveWeb gebruikt dialoogbronnen op het web die verder gaan dan Reddit om te voorkomen dat er een voorkeur ontstaat voor door Reddit beïnvloede gegevens.

Hij gebruikt nog steeds Reddit. Maar het bevat ook gegevens die afkomstig zijn van vele andere sites.

De sites voor openbare dialoog in MassiveWeb zijn:

Reddit Facebook Quora YouTube Medium StackOverflow

Nogmaals, dit suggereert niet dat LaMDA is getraind met de vorige sites.

Het is alleen bedoeld om te laten zien wat Google mogelijk heeft gebruikt, door een dataset te tonen waar Google tegelijkertijd met LaMDA aan werkte, een die sites van het forumtype bevat.

De overige 37,5%

De laatste groep gegevensbronnen zijn:

12,5% codedocumenten van sites die verband houden met programmeren, zoals Q&A-sites, tutorials, enz.; 12,5% Wikipedia (Engels) 6,25% Engelse webdocumenten 6,25% Niet-Engelse webdocumenten.

Google specificeert niet welke sites in de categorie van het programmeren van Q&A-websites vallen die goed zijn voor 12,5% van de dataset waarop LaMDA is getraind.

We kunnen dus alleen maar speculeren.

Stack Overflow en Reddit lijken voor de hand liggende keuzes, vooral omdat ze waren opgenomen in de MassiveWeb-dataset.

Welke “tutorial”-sites zijn gecrawld? We kunnen alleen maar speculeren wat deze “tutorial” -sites zouden kunnen zijn.

Dat laat de laatste drie inhoudscategorieën over, waarvan er twee erg vaag zijn.

Wikipedia in het Engels behoeft geen discussie, we kennen allemaal Wikipedia.

Maar de volgende twee worden niet uitgelegd:

Engelstalige en niet-Engelstalige webpagina’s zijn een algemene beschrijving van 13% van de sites die in de database zijn opgenomen.

Dit is alle informatie die Google geeft over dit deel van de trainingsgegevens.

Moet Google transparant zijn over de datasets die voor Bard worden gebruikt?

Sommige uitgevers voelen zich niet op hun gemak als hun sites worden gebruikt om AI-systemen te trainen, omdat deze systemen volgens hen hun websites uiteindelijk overbodig kunnen maken en kunnen verdwijnen.

Of dit waar is, valt nog te bezien, maar het is een oprechte bezorgdheid van uitgevers en leden van de zoekmarketinggemeenschap.

Google is frustrerend vaag over de websites die worden gebruikt om LaMDA te trainen, evenals welke technologie werd gebruikt om de websites naar gegevens te doorzoeken.

Zoals te zien is in de analyse van de C4-dataset, kan de methodologie voor het kiezen van welke website-inhoud moet worden gebruikt voor het trainen van grote taalmodellen de kwaliteit van het taalmodel beïnvloeden door bepaalde populaties uit te sluiten.

Moet Google transparanter zijn over welke sites worden gebruikt om zijn AI te trainen, of op zijn minst een gemakkelijk te vinden transparantierapport publiceren over welke gegevens zijn gebruikt?

Uitgelichte afbeelding door Shutterstock/Asier Romero



Source link

More To Explore

Moet het congres Big Tech-platforms onderzoeken?
Marketing Nieuwtjes

Moet het congres Big Tech-platforms onderzoeken?

Deze week houdt de House Energy and Commerce Committee een volledige commissiehoorzitting met TikTok-CEO Shou Chew om te bespreken hoe het platform omgaat met gebruikersgegevens,

WACHT! VOORDAT JE GAAT...

Geef me jouw E-mail Address, en dan stuur ik je een GRATIS kopie van mijn boek, waarin ik je laat zien hoe je jouw inkomen kan verdubbelen in 90 dagen!