fbpx

De uitgelekte memo van Google geeft de nederlaag toe aan open source AI

De uitgelekte memo van Google geeft de nederlaag toe aan open source AI

Share This Post


Een gelekte Google-memo biedt een puntsgewijze samenvatting van waarom Google het verliest van open source AI en suggereert een pad terug naar domein en eigendom van het platform.

De notitie opent door te erkennen dat zijn concurrent nooit OpenAI was en altijd open source zou zijn.

Je kunt niet concurreren met open source

Bovendien geven ze toe dat ze op geen enkele manier gepositioneerd zijn om te concurreren met open source, en erkennen ze dat ze de strijd om AI-dominantie al verloren hebben.

Zij schreven:

“We hebben veel over onze schouders meegekeken bij OpenAI. Wie gaat de volgende mijlpaal halen? Wat is de volgende stap?

Maar de ongemakkelijke waarheid is dat we niet gepositioneerd zijn om deze wapenwedloop te winnen en OpenAI ook niet. Terwijl we vechten, heeft een derde factie stilletjes onze lunch opgegeten.

Ik heb het natuurlijk over open source.

Heel eenvoudig, ze slaan ons. De dingen die wij als ‘belangrijke open problemen’ beschouwen, zijn vandaag opgelost en in de handen van mensen.”

Het grootste deel van de notitie is gewijd aan het beschrijven hoe Google wordt ingehaald door open source.

En hoewel Google een kleine voorsprong heeft op open source, erkent de auteur van de memo dat het wegglijdt en nooit meer terugkomt.

De zelfanalyse van de metaforische kaarten die ze zelf hebben uitgedeeld is behoorlijk slecht:

“Hoewel onze modellen nog steeds een lichte voorsprong hebben op het gebied van kwaliteit, wordt de kloof in een verbazingwekkend tempo kleiner.

Open source-modellen zijn sneller, beter aanpasbaar, meer privé en meer capabel pond voor pond.

Ze doen dingen met parameters van $ 100 miljoen en $ 13 miljoen waarmee we worstelen met $ 10 miljoen en $ 540 miljoen.

En ze doen het in weken, niet in maanden.”

Grote taalmodelgrootte is geen voordeel

Misschien wel de meest huiveringwekkende realisatie die in de memo tot uiting komt, is dat de grootte van Google niet langer een voordeel is.

De buitengewoon grote afmetingen van hun modellen worden nu gezien als een nadeel en zeker niet als het onoverkomelijke voordeel dat ze dachten te zijn.

De gelekte memo somt een reeks gebeurtenissen op die aangeven dat de controle van Google (en OpenAI) over AI snel kan eindigen.

Naar verluidt heeft de open source-gemeenschap slechts een maand geleden, in maart 2023, een uitgelekt open source grootformaat taalmodel verkregen, ontwikkeld door Meta genaamd LLaMA.

Binnen enkele dagen en weken ontwikkelde de wereldwijde open source-gemeenschap alle bouwstenen die nodig waren om klonen van Bard en ChatGPT te maken.

Geavanceerde stappen zoals het afstemmen van instructies en het versterken van leren van menselijke feedback (RLHF) werden snel gerepliceerd door de wereldwijde open source-gemeenschap, niet minder goedkoop.

Tuning instructies
Een proces waarbij een taalmodel wordt afgestemd om het iets specifieks te laten doen waarvoor het oorspronkelijk niet is opgeleid.
Versterking leren van menselijke feedback (RLHF)
Een techniek waarbij mensen een taal evalueren, vormt de uitvoer zodat deze leert welke resultaten voor mensen bevredigend zijn.

RLHF is de techniek die door OpenAI wordt gebruikt om InstructGPT te maken, een model dat ten grondslag ligt aan ChatGPT en waarmee GPT-3.5- en GPT-4-modellen instructies kunnen ontvangen en taken kunnen uitvoeren.

RLHF staat open source in brand

De schaal van open source schrikt Google af

Wat Google in het bijzonder bang maakt, is het feit dat de Open Source-beweging haar projecten kan schalen op een manier die closed source niet kan.

De Q&A-dataset die werd gebruikt om de open source ChatGPT-kloon, Dolly 2.0, te maken, is volledig gemaakt door duizenden werknemersvrijwilligers.

Google en OpenAI waren deels gebaseerd op vragen en antwoorden van sites als Reddit.

De open source Q&A-dataset die door Databricks is gemaakt, zou van hogere kwaliteit zijn omdat de mensen die eraan hebben bijgedragen professionals waren en de antwoorden die ze gaven langer en substantiëler waren dan die gevonden in een typische dataset met vragen en antwoorden van een openbare forum.

In de uitgelekte memo stond:

“Begin maart kreeg de open source-gemeenschap haar eerste echt capabele basismodel in handen, toen Meta’s LLaMA naar het publiek werd gelekt.

Het had geen instructies of gespreksafstemming, geen RLHF.

De gemeenschap begreep echter onmiddellijk het belang van wat hun was gegeven.

Een enorme stortvloed aan innovatie volgde, met slechts enkele dagen tussen grote ontwikkelingen…

Hier zijn we, amper een maand later, en er zijn varianten van tweaking-instructies, kwantificering, kwaliteitsverbeteringen, menselijke beoordelingen, multimodaliteit, RLHF, enz. enz., waarvan vele op elkaar zijn gebaseerd.

Het belangrijkste is dat ze het probleem van schaalvergroting hebben opgelost zodat iedereen kan spelen.

Veel van de nieuwe ideeën komen van gewone mensen.

De toegangsdrempel voor training en experimenten is gedaald van de volledige output van een grote onderzoeksorganisatie naar één persoon, één nacht en een robuuste laptop.”

Met andere woorden, wat Google en OpenAI maanden en jaren kostte om te trainen en te bouwen, duurde slechts dagen voor de open source-gemeenschap.

Dit moet een echt angstaanjagend scenario zijn voor Google.

Het is een van de redenen waarom ik zoveel over de open source AI-beweging heb geschreven, omdat het er echt naar uitziet waar de toekomst van generatieve AI zich in relatief korte tijd zal bevinden.

Open source heeft historisch gezien beter gepresteerd dan gesloten source

De notitie citeert recente ervaringen met OpenAI’s DALL-E, het deep learning-model dat wordt gebruikt om afbeeldingen te maken, vergeleken met de open source Stable Diffusion als een voorbode van wat er momenteel gebeurt in generatieve AI zoals Bard en ChatGPT.

Dall-e werd in januari 2021 uitgebracht door OpenAI. Stable Diffusion, de open source-versie, werd anderhalf jaar later, in augustus 2022, uitgebracht en binnen enkele weken overtrof het Dall-E in populariteit.

Deze tijdlijngrafiek laat zien hoe snel Stable Diffusion Dall-E inhaalde:

Schermafbeelding van Google Trends die laat zien hoe het slechts drie weken duurde voordat open source Stable Diffusion Dall-E in populariteit inhaalde en een aanzienlijke voorsprong had.

De Google Trends-tijdlijn hierboven laat zien hoe de interesse in het open-source Stable Diffusion-model die van Dall-E binnen drie weken na de release ver overtrof.

En hoewel Dall-E al anderhalf jaar uit was, bleef de belangstelling voor Stable Diffusion exponentieel groeien, terwijl Dall-E van OpenAI stagneerde.

De existentiële dreiging van soortgelijke gebeurtenissen die Bard (en OpenAI) inhalen, bezorgt Google nachtmerries.

Het proces voor het maken van open source-modellen is superieur

Een andere factor die de technici van Google verontrust, is dat het proces van het maken en verbeteren van open source-modellen snel en goedkoop is en zich perfect leent voor een wereldwijde samenwerkingsbenadering die gebruikelijk is bij open source-projecten.

In de notitie wordt opgemerkt dat nieuwe technieken zoals LoRA (Low-Rank Adaptation of Large Language Models) het mogelijk maken om taalmodellen binnen enkele dagen aan te passen tegen buitensporig lage kosten, waarbij de uiteindelijke LLM vergelijkbaar is met de te dure LLM’s. gemaakt door Google en OpenAI.

Een ander voordeel is dat open source-engineers kunnen voortbouwen op eerder werk, itereren, in plaats van helemaal opnieuw te moeten beginnen.

Tegenwoordig is het niet nodig om grote taalmodellen met miljarden parameters te bouwen, zoals OpenAI en Google deden.

Dit is misschien het punt waarop Sam Alton onlangs zinspeelde toen hij onlangs zei dat het tijdperk van grote, massieve taalmodellen voorbij is.

De auteur van de Google-memo contrasteerde LoRA’s goedkope en snelle benadering van het bouwen van LLM’s met de huidige grote AI-benadering.

De auteur van de notitie reflecteert op het ontbreken van Google:

“Door gigantische modellen vanaf het begin te trainen, wordt niet alleen de eerdere training weggegooid, maar ook eventuele iteratieve verbeteringen die er bovenop zijn aangebracht. In de open source-wereld duurt het niet lang om deze verbeteringen onder de knie te krijgen, waardoor volledige omscholing is extreem duur.

We moeten nadenken of elke nieuwe toepassing of idee echt een compleet nieuw model nodig heeft.

… In termen van ingenieursuren is de snelheid van verbetering van deze modellen zelfs veel groter dan wat we kunnen doen met onze grotere varianten, en de beste zijn al niet te onderscheiden van ChatGPT.

De auteur concludeert door te beseffen dat wat zij dachten dat hun voordeel was, hun gigantische modellen en de daarmee gepaard gaande onbetaalbare kosten, eigenlijk een nadeel was.

Het wereldwijde collaboratieve karakter van open source is efficiënter en veel sneller in innovatie.

Hoe kan een closed source-systeem concurreren met de overweldigende menigte ingenieurs van over de hele wereld?

De auteur concludeert dat ze niet kunnen concurreren en dat directe concurrentie, in zijn woorden, een “verliezende propositie” is.

Dit is de crisis, de storm die zich buiten Google afspeelt.

Als je open source niet kunt verslaan, doe dan mee

De enige troost die de auteur van de memo in open source vindt, is dat aangezien open source-innovaties gratis zijn, Google er ook van kan profiteren.

Ten slotte concludeert de auteur dat de enige open benadering voor Google is om het platform te bezitten op dezelfde manier waarop Chrome en Android de open source-platforms domineren.

Ze wijzen erop hoe Meta profiteert van het vrijgeven van hun geweldige LLaMA-taalmodel voor onderzoek en hoe ze nu duizenden mensen hun werk gratis laten doen.

Misschien is de grote conclusie van de opmerking dat Google in de nabije toekomst zou kunnen proberen zijn open source-dominantie te repliceren door zijn eigen open source-projecten te lanceren en daarmee eigenaar te worden van het platform.

De memo concludeert dat het gebruik van open source de meest haalbare optie is:

“Google zou zichzelf moeten vestigen als een leider in de open source-gemeenschap, door het voortouw te nemen door samen te werken met, in plaats van het bredere gesprek te negeren.

Dit betekent waarschijnlijk het nemen van enkele lastige stappen, zoals het publiceren van de modelgewichten voor kleine ULM-varianten. Dit betekent noodzakelijkerwijs dat we enige controle over onze modellen moeten opgeven.

Maar deze inzet is onvermijdelijk.

We kunnen niet verwachten dat we innovatie net zo stimuleren als beheersen.”

Open source loopt weg met AI-vuur

Vorige week zinspeelde ik op de Griekse mythe van de menselijke held Prometheus die het vuur steelt van de goden op Olympus, waarbij hij de open source Prometheus uitzet tegen de “Olympische goden” van Google en OpenAI:

mij hij twitterde:

“Terwijl Google, Microsoft en Open AI elkaar bevechten en elkaar de rug toekeren, loopt Open Source dan weg met zijn vuur?”

Het lek van de Google-memo bevestigt deze observatie, maar wijst ook op een mogelijke verschuiving in strategie bij Google om zich aan te sluiten bij de open source-beweging en deze daardoor te coöpteren en te domineren op dezelfde manier als ze deden met Chrome en Android.

Lees hier de gelekte Google-memo:

Google “We hebben geen slotgracht en OpenAI ook niet”





Source link

More To Explore

Bing AI voicechat komt naar de desktop
Marketing Nieuwtjes

Bing AI voicechat komt naar de desktop

Bing heeft een update aangekondigd voor Bing AI Chat die voicechat-mogelijkheden toevoegt aan de gebruikersinterface voor zoeken op desktops. Spraakinteractie is tweerichtingsverkeer en beschikbaar in

WACHT! VOORDAT JE GAAT...

Geef me jouw E-mail Address, en dan stuur ik je een GRATIS kopie van mijn boek, waarin ik je laat zien hoe je jouw inkomen kan verdubbelen in 90 dagen!