Google heeft een onderzoekspaper gepubliceerd over een nieuw type dataset om een taalmodel te trainen om zinnen op te halen die een vraag exact beantwoorden in een open dialoog.
We weten niet of Google deze dataset gebruikt. Maar de onderzoekers zeggen dat het beter presteert dan modellen die zijn getraind op andere datasets.
Veel onderzoeksdocumenten, zoals die gepubliceerd voor LaMDA, vermelden geen specifieke contexten van hoe het zou kunnen worden gebruikt.
Het LaMDA-onderzoeksdocument (pdf) concludeert bijvoorbeeld vaag:
“LaMDA is een stap dichter bij praktische en veilige open dialoogsystemen, die op hun beurt een breed scala aan nuttige toepassingen kunnen ontsluiten.”
Dit onderzoekspaper stelt dat het probleem dat ze oplossen is hoe een dataset kan worden gemaakt om een machine te trainen voor een open dialoog door een zin van een webpagina te selecteren.
Waarom deze dataset belangrijk is
Wat dit onderzoeksartikel interessant maakt, is dat de onderzoekers concluderen dat het kan worden gebruikt om de productie van generatieve AI te ondersteunen, zoals die wordt gezien in de nieuwe generatieve zoekervaring van Google.
Aangezien het onderzoekspaper werd gepresenteerd op een conferentie voor het ophalen van informatie (Proceedings of the 45th ACM SIGIR International Conference on Research and Development), is het redelijk veilig om te raden dat dit algoritme verband houdt met het ophalen van informatie, wat betekent zoeken
Een laatste ding om op te merken is dat onderzoek naar dit nieuwe type dataset vorig jaar in 2022 werd gepresenteerd, maar dat het onopgemerkt lijkt te zijn gebleven… Tot nu toe.
Wat Google wilde bereiken met de nieuwe dataset
De onderzoekers leggen uit waar ze zich op richten:
“In dit artikel richten we ons op open dialogen: twee partijen praten om de beurt over een willekeurig aantal onderwerpen zonder beperkingen op onderwerpveranderingen en het soort discussie over elk onderwerp.
Het dialoogvenster is ook niet gebaseerd op een specifiek document, in tegenstelling tot de omgeving die in sommige eerdere werken werd gebruikt…
De taak die voorhanden is, is het ophalen van zinnen uit een documentcorpus die nuttige informatie bevatten om (automatisch of door mensen) de volgende wending van de dialoog te genereren.
We merken op dat dialoogwendingen vragen, verzoeken, argumenten, uitspraken, enz. kunnen zijn.”
Een nieuw type dataset voor het trainen van taalkundige modellen
Het probleem dat de onderzoekers oplossen, is hoe een zin van een webpagina kan worden opgehaald als antwoord op een open vraag, een type vraag dat meer nodig heeft dan een ja of nee-antwoord.
Het onderzoeksartikel legt uit dat wat ontbreekt om deze mogelijkheid op een machine mogelijk te maken, een adequate set gespreksgegevens is.
Ze leggen uit dat bestaande datasets om twee redenen worden gebruikt:
Om dialoogreacties door een generatieve AI te evalueren, maar niet om deze te gebruiken om informatie op te halen die relevant is voor die reactie. Datasets voor gebruik door een zoek- of vraag-antwoordmachine, gericht op een enkele passage van een vraag en antwoord.
Ze verklaren de tekortkomingen van bestaande datasets:
“…in de meeste van deze datasets worden de geretourneerde zoekresultaten niet gezien als onderdeel van het dialoogvenster.
… in zowel datasets voor het ophalen van conversatiepassages als datasets voor conversatiekwaliteitscontrole, is er een gebruiker die vragen of vragen stelt die expliciete intenties met informatiebehoeften weerspiegelen, in tegenstelling tot natuurlijke dialogen waarin alleen intenties impliciet kunnen worden weergegeven, bijvoorbeeld in bevestigende verklaringen.
Samenvattend, bestaande conversatiedatasets combineren geen natuurlijke conversaties tussen mensen en mensen met relevante zinannotaties die zijn opgehaald uit een groot documentcorpus.
Dus hebben we deze dataset gebouwd…
Hoe de nieuwe dataset is gemaakt
De onderzoekers creëerden een dataset die kan worden gebruikt om een algoritme te trainen dat in een open dialoog een zin kan ophalen die het juiste antwoord is.
De dataset bestaat uit Reddit-gesprekken die werden gekoppeld aan Wikipedia-antwoorden, plus menselijke annotaties (relevantiescores) van deze vraag-antwoordparen.
De Reddit-gegevens zijn gedownload van Pushshift.io, een archief van Reddit-gesprekken (Pushshift FAQ).
Het onderzoekspapier legt uit:
“Om een bredere reikwijdte van deze taak aan te pakken waarbij elk type dialoog kan worden gebruikt, hebben we een dataset gebouwd met open dialogen van Reddit, kandidaat-zinnen van Wikipedia voor elke dialoog en menselijke annotaties voor de zinnen.
De dataset bevat 846 dialogen die zijn gemaakt op basis van Reddit-threads.
Voor elke dialoog werden 50 zinnen opgehaald van Wikipedia met behulp van een ongecontroleerde methode voor het ophalen van zaden.
Deze zinnen werden door de crowdworkers beoordeeld op hun relevantie, dat wil zeggen of ze nuttige informatie bevatten om de volgende wending in de dialoog te genereren.
De dataset die ze hebben gemaakt, is beschikbaar op GitHub.
Voorbeeld dialoogvraag:
“Wat was er eerst, de kip of het ei?”
Een voorbeeld van een irrelevante reactie:
“Gedomesticeerde kippen bestaan al zo’n 10.000 jaar. Eieren bestaan al honderden miljoenen jaren.”
Een voorbeeld van een correcte webpagina-zin die kan worden gebruikt om te antwoorden is:
“In de eenvoudigere woorden van Neil deGrasse Tyson:
‘Wat was er eerst: de kip of het ei? Het ei gelegd door een vogel die geen kip was’”.
Herstelmethode
Voor het retrievalgedeelte citeren ze eerder onderzoek naar taalkundige modellen en andere methoden en kiezen ze voor een zwakke supervisieaanpak.
Ze leggen uit:
“Het passend maken van ophaalmodellen vereist relevantielabels voor trainingsvoorbeelden in een doeltaak.
Deze zijn soms schaars of niet beschikbaar.
Een manier om dit te voorkomen, is het automatisch genereren van labels en het trainen van een model met weinig toezicht op deze annotaties.
… We volgen het zwakke supervisieparadigma in ons trainingsmodel, met een nieuwe zwakke Reddit-annotator voor ophalen in een dialoogcontext.
Is de dataset succesvol?
Google en andere organisaties publiceren veel onderzoeksdocumenten die verschillende niveaus van succes laten zien.
Sommige onderzoeken eindigen met beperkt succes, waardoor de stand van de techniek slechts een klein beetje of helemaal niet wordt gewijzigd.
De onderzoekspapers die mij (voor mij) interesseren, zijn die die duidelijk succesvol zijn en de huidige stand van de techniek overtreffen.
Het is de bedoeling van de ontwikkeling van deze dataset om een taalkundig model te trainen om zinnen te recupereren die juist dienen als wending in een open dialoog.
Ze geven aan hoe een op deze dataset getraind BERT-model nog krachtiger wordt.
Zij schrijven:
“Hoewel RANKBERTMS beter presteert dan alle niet-aangepaste modellen, presteert het RANKBERTMS→R-model, dat verder werd aangepast met onze zwak gecontroleerde trainingsset, beter.
Deze methode behaalt de hoogste prestaties, waarbij alle prestatiewinsten ten opzichte van andere methoden statistisch significant zijn.
Deze bevinding toont ook de effectiviteit aan van onze zwakke annotator en onbewaakte trainingsset, wat aantoont dat de prestaties kunnen worden verbeterd zonder handmatige annotatie voor training.”
Elders rapporteren onderzoekers:
“We laten zien dat een neurale classificator die is aangepast aan onze zwak gecontroleerde trainingsset beter presteert dan alle andere geteste modellen, inclusief een neurale classificator die is gemonteerd op de dataset voor het ophalen van passages van MS Marco.”
Ze schrijven ook dat hoe succesvol deze aanpak ook is, ze geïnteresseerd zijn in het verbeteren van de stand van de techniek, nog meer dan het al is.
De onderzoekspaper concludeert:
“In toekomstig werk willen we BERT-gebaseerde ophaalmodellen ontwikkelen die worden getraind met slechts zwakke supervisie, met behulp van een vooraf getrainde BERT, zonder de noodzaak van grote geannoteerde trainingssets zoals MS Marco.
We willen ook graag generatieve taalmodellen onderbouwen met onze retrieval-modellen en de conversaties bestuderen die uit deze basis voortkomen.”
Kan deze aanpak worden gebruikt?
Google bevestigt zelden wanneer een specifieke zoekopdracht wordt gebruikt. Er zijn enkele gevallen, zoals bij BERT, waarin Google bevestigt dat het het gebruikt.
Maar over het algemeen is het standaardantwoord dat het feit dat Google een onderzoekspaper of patent publiceert, niet betekent dat het het gebruikt in zijn zoekalgoritme.
Dat gezegd hebbende, gaf het onderzoekspaper, dat dateert van medio 2022, aan dat een toekomstige richting was om te bestuderen hoe generatieve taalmodellen (zoals de generatieve zoekervaring van Bard en Google) erop kunnen worden gebaseerd.
Een generatieve AI-chatervaring kan ervoor zorgen dat de AI-output wordt uitgevonden, wat technisch bekend staat als hallucinerend.
Aarden betekent het verankeren van de AI-chatoutput met feiten, meestal van online bronnen, om hallucinaties te helpen voorkomen.
Bing gebruikt een systeem genaamd Bing Orchestrator dat webpagina’s controleert om GPT-uitvoer op feiten te baseren.
Door de AI-uitvoer in te pluggen, blijft deze op feiten gebaseerd, wat deze dataset mogelijk kan doen naast het selecteren van zinnen van webpagina’s als onderdeel van een antwoord.
Lees het onderzoeksartikel:
Abstracte webpagina: een dataset voor het ophalen van zinnen voor open dialogen
Real Research Paper: een dataset voor het ophalen van zinnen voor dialogen met een open einde
Uitgelichte afbeelding door Shutterstock/Camilo Concha

Hey, ik ben Brent, en ik speel al een lange tijd mee in de SEO scene. Ik ben vooral heel actief in de Amerikaanse markt, en hou dan ook wel van een uitdaging. Ik ben sinds kort aan het uitbreiden binnenin de Benelux, en besluit hier dan ook te oversharen!
Wil je meer leren, klik dan op lees meer!