Als we het hebben over het ophalen van informatie, hebben we als SEO-professionals de neiging om ons veel te concentreren op de fase van het verzamelen van informatie: crawlen.
Tijdens deze fase zou een zoekmachine de URL’s ontdekken en crawlen waartoe het toegang heeft (volume en breedte op basis van andere factoren die in de volksmond crawlbudget worden genoemd).
De crawlfase is niet iets waar we ons in dit artikel op zullen concentreren, en ik zal ook niet ingaan op hoe indexeren werkt.
Als u meer wilt weten over crawlen en indexeren, kunt u dat hier doen.
In dit artikel zal ik enkele basisprincipes van het ophalen van informatie behandelen die, wanneer begrepen, u kunnen helpen uw webpagina’s beter te optimaliseren voor rangschikkingsprestaties.
Het kan u ook helpen om wijzigingen en updates van het algoritme van de zoekmachineresultaten (SERP) beter te analyseren.
Om te begrijpen en waarderen hoe de huidige zoekmachines het ophalen van praktische informatie verwerken, moeten we de geschiedenis van het ophalen van informatie op internet begrijpen, vooral als het gaat om de processen van zoekmachines.
Wat betreft het digitaal ophalen van informatie en de fundamentele technologieën die door zoekmachines worden gebruikt, kunnen we teruggaan naar de jaren zestig en de Cornell University, waar Gerard Salton een team leidde dat het SMART-systeem voor het ophalen van informatie ontwikkelde.
Salton wordt gecrediteerd met het ontwikkelen en gebruiken van vectorruimtemodellering voor het ophalen van informatie.
Vector ruimtelijke modellen
Ruimtelijke vectormodellen worden in de datawetenschapsgemeenschap geaccepteerd als een sleutelmechanisme in hoe zoekmachines “zoeken” en platforms zoals Amazon aanbevelingen doen.
Met deze methode kan een verwerker, zoals Google, verschillende documenten vergelijken met zoekopdrachten wanneer de zoekopdrachten worden weergegeven als vectoren.
Google heeft dit in zijn documenten aangeduid als zoeken op vectorovereenkomsten, of “nearest-buur zoeken”, gedefinieerd door Donald Knuth in 1973.
Bij een traditionele zoekopdracht op trefwoorden zou de processor trefwoorden, tags, tags, enz. In de database gebruiken om relevante inhoud te vinden.
Dit is vrij beperkt omdat het het zoekveld binnen de database vernauwt omdat het antwoord een binair ja of nee is. Deze methode kan ook worden beperkt bij het verwerken van synoniemen en gerelateerde entiteiten.
Hoe dichter de twee entiteiten qua nabijheid bij elkaar liggen, hoe minder ruimte tussen de vectoren en hoe meer gelijkenis/nauwkeurigheid ze geacht worden te hebben.
Om dit tegen te gaan en resultaten te leveren voor zoekopdrachten met meerdere gemeenschappelijke interpretaties, gebruikt Google vectorovereenkomst om meerdere betekenissen, synoniemen en entiteiten samen te voegen.
Een goed voorbeeld hiervan is wanneer je mijn naam googled.
google, [dan taylor] misschien:
Ik, de SEO-persoon. Britse sportjournalist. Een lokale journalist. Luitenant Dan Taylor van Forrest Gump. Een fotograaf Een modelmaker
Als u traditioneel zoeken op trefwoord gebruikt met binaire ja/nee-criteria, krijgt u deze spreiding van resultaten niet op de eerste pagina.
Met vector zoeken kan de processor een pagina met zoekresultaten produceren op basis van de gelijkenis en relaties tussen verschillende entiteiten en vectoren binnen de database.
U kunt de blog van het bedrijf hier lezen voor meer informatie over hoe Google het in verschillende producten gebruikt.
overeenkomst overeenkomst
Bij het op deze manier vergelijken van documenten gebruiken zoekmachines waarschijnlijk een combinatie van weging van zoektermen (QTW) en overeenkomstcoëfficiënt.
QTW past een weging toe op specifieke zoektermen, die vervolgens wordt gebruikt om een overeenkomstcoëfficiënt te berekenen met behulp van het vectorruimtemodel en berekend met behulp van de cosinuscoëfficiënt.
Cosinusovereenkomst meet de overeenkomst tussen twee vectoren en wordt in tekstanalyse gebruikt om documentovereenkomst te meten.
Dit is een waarschijnlijk mechanisme in hoe zoekmachines dubbele inhoud en waardeproposities op een website bepalen.
Cosinus wordt gemeten tussen -1 en 1.
Traditioneel, in een cosinus-overeenkomstgrafiek, zal deze tussen 0 en 1 meten, waarbij 0 de maximale ongelijkheid is, of orthogonaal, en 1 de maximale overeenkomst is.
De rol van een index
In SEO praten we veel over indexeren, indexeren en indexeren, maar we praten niet actief over de rol van indexeren in zoekmachines.
Het doel van een index is om informatie op te slaan, wat Google doet door gelaagde en gefragmenteerde indexeringssystemen te gebruiken om als gegevensopslagplaats te fungeren.
Dit komt omdat het onrealistisch, kosteneffectief en een slechte ervaring is voor de eindgebruiker om toegang te krijgen tot (crawl) webpagina’s, hun inhoud te analyseren, deze te scoren en in realtime een SERP in te dienen.
Gewoonlijk bevat een moderne zoekmachine-index niet een volledige kopie van elk document, maar eerder een database met belangrijke punten en gegevens die zijn getokeniseerd. Dan zal het document zelf in een andere cache leven.
Hoewel we niet precies weten welke processen zoekmachines zoals Google zullen doorlopen als onderdeel van hun systeem voor het ophalen van informatie, zullen ze waarschijnlijk stadia hebben van:
Structurele analyse – Opmaak en structuur van de tekst, lijsten, tabellen, afbeeldingen, etc.
Uitgang – Reduceer de variaties van een woord tot de wortel. “Zoeken” en “zoeken” worden bijvoorbeeld afgekort tot “zoeken”.
Lexicale analyse – Het document omzetten in een woordenlijst en het vervolgens analyseren om belangrijke factoren zoals datums, auteurs en frequentie van termen te identificeren. Merk op dat dit niet hetzelfde is als TF*IDF.
We verwachten ook dat er tijdens deze fase rekening wordt gehouden met andere overwegingen en gegevenspunten, zoals backlinks, brontype, of het document al dan niet voldoet aan de kwaliteitsdrempel, interne links, hoofdinhoud/ondersteunende inhoud, enz.
Nauwkeurigheid en post-herstel
In 2016 gaf Paul Haahr goed inzicht in hoe Google het ‘succes’ van zijn proces meet en ook hoe het aanpassingen na herstel toepast.
Zijn presentatie kan je hier bekijken.
In de meeste systemen voor het ophalen van informatie zijn er twee primaire maatstaven voor het succes van het systeem bij het retourneren van een goede reeks resultaten.
Dit zijn precisie en terugroepactie.
nauwkeurigheid
Het aantal geretourneerde documenten dat relevant is ten opzichte van het totaal aantal geretourneerde documenten.
Veel websites hebben de afgelopen maanden een daling gezien in het totale aantal zoekwoorden waarop ze ranken (zoals rare en trending zoekwoorden waarvoor ze waarschijnlijk niet in aanmerking kwamen). We kunnen speculeren dat zoekmachines het systeem voor het ophalen van informatie verfijnen voor een grotere nauwkeurigheid.
herinneren
Het aantal relevante documenten ten opzichte van het totaal aantal geretourneerde relevante documenten.
Zoekmachines zijn meer gericht op nauwkeurigheid dan op terugroepen, omdat nauwkeurigheid leidt tot betere pagina’s met zoekresultaten en een hogere gebruikerstevredenheid. Ook is het systeem minder intensief om meer documenten terug te sturen en meer gegevens te verwerken dan nodig is.
conclusie
De praktijk van informatieherstel kan complex zijn vanwege de verschillende formules en mechanismen die worden gebruikt.
Bijvoorbeeld:
Aangezien we niet volledig weten of begrijpen hoe dit proces werkt in zoekmachines, moeten we ons meer concentreren op de basis en de richtlijnen die worden gegeven in plaats van te proberen statistieken zoals TF*IDF te spelen die al dan niet worden gebruikt (en variëren in gewicht ). in het totaalresultaat).
Meer middelen:
Uitgelichte afbeelding: BRO.vector/Shutterstock

Hey, ik ben Brent, en ik speel al een lange tijd mee in de SEO scene. Ik ben vooral heel actief in de Amerikaanse markt, en hou dan ook wel van een uitdaging. Ik ben sinds kort aan het uitbreiden binnenin de Benelux, en besluit hier dan ook te oversharen!
Wil je meer leren, klik dan op lees meer!