fbpx

Bel nu: +32 468 11 25 93

Vraag het de expert: Demystificerende AI en Machine Learning in zoekopdrachten

Share This Post

Share on facebook
Share on linkedin
Share on twitter
Share on email

De wereld van AI en Machine Learning heeft veel lagen en kan behoorlijk complex zijn om te leren. Er zijn veel termen en tenzij je een basiskennis van het landschap hebt, kan het behoorlijk verwarrend zijn. In dit artikel introduceert expert Eric Enge de basisconcepten en probeert hij het allemaal voor je te demystificeren. Dit is ook de eerste van een vierdelige artikelenreeks die veel van de interessantere aspecten van het AI-landschap behandelt.

De andere drie artikelen in deze serie zijn:

  • Inleiding tot natuurlijke taalverwerking
  • GPT-3 : wat het is en hoe u er gebruik van kunt maken?
  • Huidige Google AI-algoritmen: Rankbrain, BERT, MUM en SMITH

Basisachtergrond over AI

Er zijn zoveel verschillende termen dat het moeilijk kan zijn om uit te zoeken wat ze allemaal betekenen. Dus laten we beginnen met enkele definities:

  • Kunstmatige intelligentie – Dit verwijst naar intelligentie die wordt bezit/getoond door machines, in tegenstelling tot natuurlijke intelligentie, wat we zien bij mensen en andere dieren.
  • Kunstmatige algemene intelligentie (AGI) – Dit is een intelligentieniveau waarbij machines elke taak kunnen uitvoeren die een mens kan. Het bestaat nog niet, maar velen streven ernaar het te creëren.
  • Machine Learning – Dit is een subset van AI die gegevens en iteratief testen gebruikt om te leren hoe specifieke taken moeten worden uitgevoerd.
  • Deep Learning – Dit is een subset van machine learning die gebruikmaakt van zeer complexe neurale netwerken om complexere machine learning-problemen op te lossen.
  • Natural Language Processing (NLP) – Dit is het gebied van AI dat specifiek is gericht op het verwerken en begrijpen van taal.
  • Neurale netwerken – Dit is een van de meer populaire soorten algoritmen voor machine learning die de manier proberen te modelleren waarop neuronen in de hersenen interageren.

Deze zijn allemaal nauw verwant en het is handig om te zien hoe ze allemaal bij elkaar passen:

Samengevat, kunstmatige intelligentie omvat al deze concepten, deep learning is een subset van machine learning en natuurlijke taalverwerking maakt gebruik van een breed scala aan AI-algoritmen om taal beter te begrijpen.

Voorbeeldillustratie van hoe een neuraal netwerk werkt

Er zijn veel verschillende soorten machine learning-algoritmen. De meest bekende hiervan zijn neurale netwerkalgoritmen en om je een beetje context te bieden, zal ik het hierna bespreken.

Denk aan het probleem van het bepalen van het salaris voor een werknemer. Wat betalen we bijvoorbeeld aan iemand met 10 jaar ervaring? Om die vraag te beantwoorden kunnen we wat gegevens verzamelen over wat anderen krijgen en hun jarenlange ervaring, en dat kan er als volgt uitzien:

Met gegevens als deze kunnen we eenvoudig berekenen wat deze specifieke werknemer betaald zou moeten krijgen door een lijngrafiek te maken:

Voor deze specifieke persoon suggereert het een salaris van iets meer dan $ 90.000 per jaar. We kunnen echter allemaal snel inzien dat dit niet echt voldoende is, omdat we ook rekening moeten houden met de aard van het werk en het prestatieniveau van de werknemer. De introductie van deze twee variabelen leidt ons naar een gegevensdiagram dat meer lijkt op deze:

Het is een veel moeilijker probleem om op te lossen, maar een probleem dat machinaal leren relatief gemakkelijk kan oplossen. Toch zijn we nog niet echt klaar met het toevoegen van complexiteit aan de factoren die van invloed zijn op salarissen, want waar je je bevindt heeft ook een grote impact. Zo betalen banen in de San Francisco Bay Area in de technologie aanzienlijk meer dan dezelfde banen in veel andere delen van het land, grotendeels vanwege de grote verschillen in de kosten van levensonderhoud.

Vector geïsoleerde illustratie van vereenvoudigde administratieve kaart van de V.S. (Verenigde Staten van Amerika). Grenzen en namen van de staten (regio's). Grijze silhouetten. Witte omtrek.

De basisbenadering die neurale netwerken zouden gebruiken, is om de juiste vergelijking te raden met behulp van de variabelen (baan, jaren ervaring, prestatieniveau) en het potentiële salaris te berekenen met behulp van die vergelijking en te zien hoe goed deze overeenkomt met onze real-world gegevens. Dit proces is hoe neurale netwerken worden afgestemd en het wordt "gradiëntafdaling" genoemd. De eenvoudige Engelse manier om het uit te leggen zou zijn om het "opeenvolgende benadering" te noemen.

De oorspronkelijke salarisgegevens zijn wat een neuraal netwerk zou gebruiken als 'trainingsgegevens', zodat het kan weten wanneer het een algoritme heeft gebouwd dat overeenkomt met de praktijkervaring. Laten we een eenvoudig voorbeeld doornemen, te beginnen met onze originele dataset met alleen de jarenlange ervaring en de salarisgegevens.

Om ons voorbeeld eenvoudiger te houden, laten we aannemen dat het neurale netwerk dat we hiervoor gebruiken begrijpt dat 0 jaar ervaring gelijk staat aan $ 45.000 aan salaris en dat de basisvorm van de vergelijking zou moeten zijn: Salaris = dienstjaren * X + $ 45.000 . We moeten de waarde van X berekenen om de juiste vergelijking te bedenken die we kunnen gebruiken. Als eerste stap zou het neurale netwerk kunnen raden dat de waarde van X $ 1.500 is. In de praktijk doen deze algoritmen deze initiële schattingen willekeurig, maar voorlopig is dit voldoende. Dit is wat we krijgen als we een waarde van $ 1500 proberen:

Zoals we uit de resulterende gegevens kunnen zien, zijn de berekende waarden te laag. Neurale netwerken zijn ontworpen om de berekende waarden te vergelijken met de echte waarden en die als feedback te geven, die vervolgens kan worden gebruikt om een tweede keer te raden wat het juiste antwoord is. Laten we voor onze illustratie $ 3.000 hebben als onze volgende schatting als de juiste waarde voor X. Dit is wat we deze keer krijgen:

Zoals we kunnen zien, zijn onze resultaten verbeterd, wat goed is! We moeten echter nog steeds opnieuw gissen omdat we niet dicht genoeg bij de juiste waarden zitten. Dus laten we deze keer een schatting van $ 6000 proberen:

Interessant is dat we nu zien dat onze foutmarge iets is toegenomen, maar we zitten nu te hoog! Misschien moeten we onze vergelijkingen een beetje naar beneden bijstellen. Laten we $4500 proberen:

Nu zien we dat we heel dichtbij zijn! We kunnen aanvullende waarden blijven proberen om te zien hoeveel we de resultaten kunnen verbeteren. Dit brengt een andere belangrijke waarde in het spel bij machine learning, namelijk hoe nauwkeurig we willen dat ons algoritme is en wanneer we stoppen met itereren. Maar voor ons voorbeeld hier zijn we dichtbij genoeg en hopelijk heb je een idee van hoe dit allemaal werkt.

Onze voorbeeldoefening voor machine learning had een uiterst eenvoudig algoritme om te bouwen, omdat we alleen een vergelijking in deze vorm hoefden af te leiden: Salaris = dienstjaren * X + $ 45.000 (ook bekend als y = mx + b). Als we echter zouden proberen een echt salarisalgoritme te berekenen dat rekening houdt met alle factoren die van invloed zijn op de salarissen van gebruikers, hebben we het volgende nodig:

  • een veel grotere dataset om te gebruiken als onze trainingsgegevens
  • om een veel complexer algoritme te bouwen

U kunt zien hoe modellen voor machine learning snel zeer complex kunnen worden. Stel je de complexiteit voor als we te maken hebben met iets op de schaal van natuurlijke taalverwerking!

Andere soorten basisalgoritmen voor machine learning

Het hierboven gedeelde voorbeeld van machine learning is een voorbeeld van wat we 'supervised machine learning' noemen. We noemen het gesuperviseerd omdat we een trainingsgegevensset hebben geleverd met doeluitvoerwaarden en het algoritme kon die gebruiken om een vergelijking te produceren die dezelfde (of bijna dezelfde) uitvoerresultaten zou genereren. Er is ook een klasse van machine learning-algoritmen die 'unsupervised machine learning' uitvoeren.

Met deze klasse van algoritmen bieden we nog steeds een invoergegevensset, maar geven we geen voorbeelden van de uitvoergegevens. De machine learning-algoritmen moeten de gegevens beoordelen en zelf betekenis vinden in de gegevens. Dit klinkt misschien eng als menselijke intelligentie, maar nee, we zijn er nog niet helemaal. Laten we dit illustreren met twee voorbeelden van dit type machine learning in de wereld.

Een voorbeeld van onbewaakte machine learning is Google Nieuws. Google heeft de systemen om artikelen te ontdekken die het meeste verkeer krijgen van populaire nieuwe zoekopdrachten die lijken te worden aangedreven door nieuwe gebeurtenissen. Maar hoe weet het dat alle artikelen over hetzelfde onderwerp gaan? Hoewel het traditionele relevantie kan matchen met de manier waarop ze dat doen bij reguliere zoekopdrachten in Google Nieuws, wordt dit gedaan door algoritmen die hen helpen overeenkomsten tussen stukken inhoud te bepalen.

Zoals te zien is in de bovenstaande voorbeeldafbeelding, heeft Google met succes talloze artikelen gegroepeerd over de goedkeuring van de infrastructuurwet op 10 augustus 2021. Zoals je zou verwachten, heeft elk artikel dat is gericht op het beschrijven van het evenement en het wetsvoorstel zelf waarschijnlijk substantiële overeenkomsten in inhoud. Het herkennen van deze overeenkomsten en het identificeren van artikelen is ook een voorbeeld van onbewaakte machine learning in actie.

Een andere interessante klasse van machine learning is wat we 'aanbevelingssystemen' noemen. We zien dit in de echte wereld op e-commercesites zoals Amazon, of op filmsites zoals Netflix. Op Amazon zien we mogelijk 'Vaak samen gekocht' onder een vermelding op een productpagina. Op andere sites kan dit worden gelabeld als 'Mensen die dit kochten, kochten dit ook'.

Filmsites zoals Netflix gebruiken vergelijkbare systemen om u filmaanbevelingen te doen. Deze kunnen gebaseerd zijn op opgegeven voorkeuren, films die je hebt beoordeeld of je filmselectiegeschiedenis. Een populaire benadering hiervoor is om de films die je hebt bekeken en die je hoog hebt gewaardeerd te vergelijken met films die door andere gebruikers op dezelfde manier zijn bekeken en beoordeeld.

Als u bijvoorbeeld 4 actiefilms vrij hoog hebt beoordeeld, en een andere gebruiker (die we John noemen) ook actiefilms hoog beoordeelt, kan het systeem u andere films aanbevelen die John heeft bekeken, maar die u nog niet heeft bekeken. . Deze algemene benadering is wat "collaborative filtering" wordt genoemd en is een van de verschillende benaderingen voor het bouwen van een aanbevelingssysteem.

Opmerking: met dank aan Chris Penn voor het lezen van dit artikel en het geven van advies.


De meningen in dit artikel zijn die van de gastauteur en niet noodzakelijkerwijs Search Engine Land. De auteurs van het personeel worden hier vermeld.


Over de auteur

Eric Enge is General Manager van Perficient Digital, een full-service, bekroond digitaal bureau. Voorheen was Eric de oprichter en CEO van Stone Temple, ook een bekroond digitaal marketingbureau, dat in juli 2018 door Perficient werd overgenomen. Hij is de hoofdco-auteur van The Art of SEO, een boek van meer dan 900 pagina's dat bekend is in de industrie als ‘de bijbel van SEO’. In 2016 ontving Enge de Landy Award van Search Engine Land voor Search Marketer of the Year en US Search Awards Search Personality of the Year. Hij is een productief schrijver, onderzoeker, docent en een veelgevraagd keynote spreker en panellid op grote industrieconferenties.

More To Explore