Andreas Braun, CTO van Microsoft Duitsland, bevestigde dat GPT-4 binnen een week na 9 maart 2023 zal arriveren en dat het multimodaal zal zijn. Multimodale AI betekent dat het op meerdere soorten input kan werken, waaronder video, afbeeldingen en geluid.
Multimodale modellen van grote talen
De grote conclusie van de aankondiging is dat GPT-4 multimodaal is (SEJ voorspelde dat GPT-4 in januari 2023 multimodaal zal zijn).
De modaliteit is een verwijzing naar het invoertype dat (in dit geval) een groot taalmodel afhandelt.
Multimodaal kan tekst, spraak, afbeeldingen en video omvatten.
GPT-3 en GPT-3.5 werken maar in één modus, tekst.
Volgens het Duitse nieuwsbericht kan GPT-4 in ten minste vier modi werken: beeld, geluid (auditief), tekst en video.
dr. Andreas Braun, CTO van Microsoft Duitsland wordt geciteerd:
“Volgende week introduceren we GPT-4, daar hebben we multimodale modellen die totaal andere mogelijkheden gaan bieden, bijvoorbeeld video’s…”
De rapporten bevatten geen specifieke informatie over GPT-4, dus het is onduidelijk of wat er werd gedeeld over multimodaliteit specifiek was voor GPT-4 of alleen in het algemeen.
De directeur bedrijfsstrategie van Microsoft, Holger Kenn, legde multimodaliteit uit, maar het rapport was onduidelijk of hij verwees naar GPT-4-multimodaliteit of multimodaliteit in geslacht.
Ik denk dat zijn verwijzingen naar multimodaliteit specifiek waren voor GPT-4.
Het gedeelde nieuws:
“Kenn legde uit wat multimodale AI inhoudt, die tekst niet alleen dienovereenkomstig in afbeeldingen kan vertalen, maar ook in muziek en video.”
Een ander interessant feit is dat Microsoft werkt aan “vertrouwensstatistieken” om zijn AI op feiten te baseren om het betrouwbaarder te maken.
Microsoft Kosmos-1
Een ding dat in de VS blijkbaar niet werd gemeld, is dat Microsoft begin maart 2023 een multimodaal taalmodel met de naam Kosmos-1 heeft uitgebracht.
Dat meldt de Duitse nieuwssite Heise.de:
“…het team onderwierp het vooraf getrainde model aan verschillende tests, met goede resultaten op het gebied van beeldclassificatie, het beantwoorden van vragen over beeldinhoud, geautomatiseerde beeldlabeling, optische tekstherkenning en spraakgenererende taken.
… Visueel redeneren, dat wil zeggen conclusies trekken over beelden zonder taal als tussenstap te gebruiken, lijkt hier een sleutel te zijn…”
Kosmos-1 is een multimodale mod die de modaliteiten van tekst en afbeeldingen integreert.
GPT-4 gaat verder dan Kosmos-1 doordat het een derde modaliteit, video, toevoegt en ook de geluidsmodaliteit lijkt te bevatten.
Werkt in meerdere talen
GPT-4 lijkt in alle talen te werken. Hierin wordt beschreven hoe u een vraag in het Duits kunt ontvangen en in het Italiaans kunt beantwoorden.
Het is een vreemd voorbeeld, want wie zou een vraag in het Duits stellen en antwoord in het Italiaans willen krijgen?
Dit is wat werd bevestigd:
“…technologie is zo ver gekomen dat het in principe “in alle talen werkt” – u kunt een vraag stellen in het Duits en antwoord krijgen in het Italiaans.
Met multimodaliteit zal Microsoft (-OpenAI) “modellen compleet maken”.
Ik denk dat het punt van de doorbraak is dat het model de taal overstijgt met zijn vermogen om kennis via verschillende talen te benaderen. Dus als het antwoord in het Italiaans is, weet u het en kunt u het antwoord geven in de taal waarin de vraag is gesteld.
Dit zou het vergelijkbaar maken met het doel van de multimodale AI van Google, MUM genaamd. De moeder zou antwoorden in het Engels kunnen geven waarvoor alleen gegevens in een andere taal, zoals Japans, bestaan.
GPT-4-toepassingen
Er is momenteel geen aankondiging over waar GPT-4 zal worden getoond. Maar Azure-OpenAI werd specifiek genoemd.
Google probeert Microsoft in te halen door concurrerende technologie in zijn eigen zoekmachine te integreren. Deze ontwikkeling verergert de perceptie dat Google achterloopt en geen leiderschap heeft op het gebied van consumentgerichte AI.
Google integreert AI al in verschillende producten zoals Google Lens, Google Maps en andere gebieden waar consumenten interactie hebben met Google.
Het is alleen zo dat de manier waarop Microsoft het implementeert beter zichtbaar is.
Lees hier het originele Duitse rapport:
GPT-4 komt volgende week en zal multimodaal zijn, zegt Microsoft Duitsland
Uitgelichte afbeelding door Shutterstock/Master1305

Hey, ik ben Brent, en ik speel al een lange tijd mee in de SEO scene. Ik ben vooral heel actief in de Amerikaanse markt, en hou dan ook wel van een uitdaging. Ik ben sinds kort aan het uitbreiden binnenin de Benelux, en besluit hier dan ook te oversharen!
Wil je meer leren, klik dan op lees meer!