Databricks heeft de release aangekondigd van het eerste instructiegerichte open source taalmodel, genaamd Dolly 2.0. Het is getraind met een vergelijkbare methodologie als InstructGPT, maar met een dataset van hogere kwaliteit die 100% open source is.
Dit model is gratis te gebruiken, zelfs voor commerciële doeleinden, omdat elk onderdeel van het model 100% open source is.
Open source instructietraining
Wat ChatGPT in staat stelt om instructies op te volgen, is de training die het krijgt met behulp van de technieken die worden beschreven in het InstructGPT-onderzoeksdocument.
De doorbraak die met InstructGPT is ontdekt, is dat taalmodellen geen steeds grotere trainingssets nodig hebben.
Door door mensen beoordeelde vragen en antwoorden te trainen, kon OpenAI een beter taalmodel trainen met honderd keer minder parameters dan het vorige model, GPT-3.
Databricks gebruikte een vergelijkbare benadering om een waarschuwings- en responsdataset te maken met de naam databricks-dolly-15k.
Hun dataset voor meldingen/antwoorden is gemaakt zonder webforums of Reddit te doorzoeken.
databricks-dolly-15k is een dataset gemaakt door Databricks-medewerkers, 100% origineel, door mensen gegenereerd, 15.000 bericht-antwoordparen ontworpen om het Dolly 2.0-taalmodel op dezelfde manier te trainen als het ChatGPT-model is gemaakt met InstructGPT.
De GitHub-pagina voor de dataset legt uit hoe ze het deden:
“databricks-dolly-15k is een open source dataset van instructietraceerlogboeken die worden gebruikt in databricks/dolly-v2-12b-training die zijn gegenereerd door duizenden Databricks-medewerkers in verschillende gedragscategorieën beschreven in het InstructGPT-document, inclusief brainstormen en classificatie, gesloten QA, generatie, informatie-extractie, open QA en samenvatting.
… Medewerkers van Databricks werden uitgenodigd om prompt/antwoord-paren te maken in elk van de acht verschillende instructiecategorieën, waaronder de zeven beschreven in het InstructGPT-document, evenals een open categorie met vrije vorm.
Bijdragers werd geïnstrueerd om het gebruik van informatie van welke webbron dan ook te vermijden, met uitzondering van Wikipedia (voor bepaalde subsets van instructiecategorieën), en werd expliciet geïnstrueerd om het gebruik van generatieve AI te vermijden om instructies of reacties te formuleren. Er werden voorbeelden van elk gedrag gegeven om de soorten vragen en instructies te motiveren die geschikt zijn voor elke categorie.
Halverwege het datageneratieproces hadden bijdragers de mogelijkheid om vragen van andere bijdragers te beantwoorden. Ze werden gevraagd om de oorspronkelijke vraag te herformuleren en alleen vragen te selecteren waarvan redelijkerwijs verwacht kon worden dat ze correct zouden beantwoorden.”
Databricks beweert dat dit mogelijk de eerste door mensen gegenereerde instructiedataset is die is gemaakt om een taalmodel te trainen om instructies te volgen, zoals ChatGPT doet.
De uitdaging was om een 100% originele dataset te creëren die geen links had naar ChatGPT of een andere bron met een beperkende licentie.
Een wedstrijd stimuleerde werknemers om te helpen bij het genereren van de 15.000 verzoeken/antwoorden in zeven taakcategorieën, zoals brainstormen, sorteren en creatief schrijven.
Databricks beweert dat de databricks-dolly-15k trainingsset mogelijk superieur is aan de dataset die wordt gebruikt om ChatGPT te trainen.
Ze merken op dat hoewel hun dataset kleiner is dan die gebruikt om het Stanford Alpaca-model te trainen, hun model beter presteerde omdat hun data van hogere kwaliteit zijn.
Zij schrijven:
“Het Dolly 2.0-model, gebaseerd op EleutherAI’s pythia-12b, vertoonde instructievolgend gedrag van hoge kwaliteit. Achteraf gezien is dit niet verrassend.
Veel van de datasets voor het afstemmen van instructies die de afgelopen maanden zijn gepubliceerd, bevatten gesynthetiseerde gegevens, die vaak hallucinaties en feitelijke fouten bevatten.
databricks-dolly-15k daarentegen wordt gegenereerd door professionals, is van hoge kwaliteit en bevat lange antwoorden voor de meeste taken.
… we verwachten niet dat Dolly de laatste zal zijn in termen van effectiviteit.
We hopen echter dat Dolly en de open source dataset als kiem zullen dienen voor een veelvoud aan verder werk, dat kan dienen om nog krachtigere taalmodellen te initiëren.”
Beperkingen van datasets
De GitHub-pagina voor de dataset erkent dat er enkele tekortkomingen in de dataset kunnen zijn.
Wikipedia-gegevens werden gebruikt voor een deel van de training in het kader van het maken van verzoeken en antwoorden. Daarom is het mogelijk dat eventuele vooringenomenheid in Wikipedia wordt weerspiegeld in de resulterende dataset.
Sommige medewerkers die aan het maken van de dataset hebben gewerkt, waren geen moedertaalsprekers van het Engels, wat afwijkingen in de dataset zou kunnen veroorzaken.
De demografische samenstelling van de werknemers die de dataset hebben gemaakt, kan van invloed zijn op het bevatten van vooroordelen die specifiek zijn voor die werknemers.
Ondanks deze mogelijke tekortkomingen in de dataset, gaf Databricks aan dat die van hen van hogere kwaliteit is.
Daarnaast is Dolly 2.0 bedoeld als startpunt voor anderen om nog betere versies te creëren en te innoveren.
Databricks houdt vol dat open source AI beter is
Een van de motivaties achter de creatie van Dolly 2.0 is dat gebruikers van de gegevens eigenaar kunnen worden van de modellen die ze hebben gemaakt en hun gegevens beter kunnen beschermen door deze niet met een derde partij te hoeven delen.
Ze zijn ook van mening dat AI-beveiliging niet moet worden geconcentreerd in de handen van drie grote bedrijven, maar moet worden verspreid onder alle belanghebbenden.
Open source wint aan kracht en het zal interessant zijn om te zien waar deze industrie de komende jaren staat.
Meer informatie over waar u het Dolly 2.0-model kunt downloaden en hoe u het kunt gebruiken, vindt u in zijn advertentie.
Gratis Dolly: introductie van ‘s werelds eerste echt open LLM
Uitgelichte afbeelding door Shutterstock/Kamil Macniak

Hey, ik ben Brent, en ik speel al een lange tijd mee in de SEO scene. Ik ben vooral heel actief in de Amerikaanse markt, en hou dan ook wel van een uitdaging. Ik ben sinds kort aan het uitbreiden binnenin de Benelux, en besluit hier dan ook te oversharen!
Wil je meer leren, klik dan op lees meer!