Het internet is een steeds evoluerend virtueel universum met meer dan 1,1 miljard websites.
Denk je dat Google elke website ter wereld kan crawlen?
Zelfs met alle middelen, geld en datacenters die Google heeft, kan het niet eens het hele web doorzoeken, en dat wil het ook niet.
Wat is het crawlbudget en is het belangrijk?
Het crawlbudget verwijst naar de hoeveelheid tijd en middelen die Googlebot besteedt aan het crawlen van webpagina’s voor een domein.
Het is belangrijk om uw site te optimaliseren, zodat Google uw inhoud sneller vindt en uw inhoud indexeert, wat u kan helpen meer zichtbaarheid en verkeer te genereren.
Als u een grote site heeft met miljoenen webpagina’s, is het vooral belangrijk om uw crawlbudget te beheren om Google te helpen uw belangrijkste pagina’s te crawlen en uw inhoud beter te begrijpen.
Google beweert dat:
Als uw site geen groot aantal snel veranderende pagina’s heeft, of als pagina’s lijken te worden gecrawld op dezelfde dag dat ze worden gepubliceerd, is het voldoende om uw sitemap up-to-date te houden en uw indexdekking regelmatig te controleren. Google stelt ook dat elke pagina moet worden beoordeeld, geconsolideerd en geëvalueerd om te bepalen waar deze zal worden geïndexeerd zodra deze is gecrawld.
Het kruipbudget wordt bepaald door twee hoofdelementen: limiet voor kruipcapaciteit en kruipvraag.
Crawlvraag is hoeveel Google uw website wil crawlen. De meest populaire pagina’s, dat wil zeggen een populair CNN-verhaal en pagina’s die aanzienlijke wijzigingen ondergaan, zullen meer worden gecrawld.
Googlebot wil uw site crawlen zonder uw servers te overbelasten. Om dit te voorkomen, berekent Googlebot een limiet voor de crawlcapaciteit. Dit is het maximale aantal gelijktijdige parallelle verbindingen dat Googlebot kan gebruiken om een site te crawlen, evenals de vertragingstijd tussen ophaalacties.
Rekening houdend met de crawlcapaciteit en de crawlvraag, definieert Google het crawlbudget van een site als de set URL’s die Googlebot kan en wil crawlen. Zelfs als de limiet voor de crawlcapaciteit niet wordt bereikt, zal Googlebot uw site minder crawlen als de crawlvraag laag is.
Hier zijn de 12 beste tips voor het beheren van uw crawlbudget voor grote en middelgrote sites met 10.000 tot miljoenen URL’s.
1. Bepaal welke pagina’s belangrijk zijn en welke niet gecrawld mogen worden
Bepaal welke pagina’s belangrijk zijn en welke minder belangrijk zijn om te crawlen (en dus minder vaak worden bezocht door Google).
Nadat u dit via analyses heeft bepaald, kunt u zien welke pagina’s op uw site het waard zijn om gecrawld te worden en welke pagina’s op uw site het niet waard zijn om gecrawld te worden en uit te sluiten van crawlen.
Macys.com heeft bijvoorbeeld meer dan 2 miljoen pagina’s geïndexeerd.
Screenshot van de zoektocht naar [site: macys.com]Google, juni 2023Beheer uw crawlbudget door Google te vertellen bepaalde pagina’s op uw site niet te crawlen omdat u Googlebot hebt beperkt voor het crawlen van bepaalde URL’s in uw robots.txt-bestand.
Googlebot kan besluiten dat het niet de moeite waard is om naar de rest van uw site te kijken of om uw crawlbudget te verhogen. Zorg ervoor dat facetnavigatie en sessie-ID’s: worden geblokkeerd via robots.txt
2. Beheer dubbele inhoud
Hoewel Google geen boete uitdeelt voor het hebben van dubbele content, wil je Googlebot voorzien van originele en unieke informatie die aansluit bij de informatiebehoefte van de eindgebruiker en relevant en bruikbaar is. Zorg ervoor dat u het robots.txt-bestand gebruikt.
Google verklaarde dat het geen enkele index zal gebruiken, omdat het nog steeds zal vragen maar dan stopt.
3. Blokkeer het crawlen van onbelangrijke URL’s met Robots.txt en vertel Google welke pagina’s moeten worden gecrawld
Voor een bedrijfssite met miljoenen pagina’s raadt Google aan om het crawlen van onbelangrijke URL’s te blokkeren met behulp van robots.txt.
U wilt er ook voor zorgen dat Googlebot en andere zoekmachines het crawlen van uw belangrijke pagina’s, mappen die uw gouden inhoud bevatten en geldpagina’s toestaan.
Screenshot door de auteur, juni 2023
4. Lange omleidingsketens
Houd uw aantal omleidingen tot een klein aantal als u kunt. Het hebben van te veel omleidingen of omleidingslussen kan Google in de war brengen en uw crawllimiet verlagen.
Google beweert dat lange omleidingsreeksen een negatief effect kunnen hebben op het crawlen.
5. Gebruik HTML
Het gebruik van HTML verhoogt de kans dat een crawler van een zoekmachine uw website bezoekt.
Hoewel de bots van Google zijn verbeterd als het gaat om het crawlen en indexeren van JavaScript, zijn andere crawlers van zoekmachines niet zo geavanceerd als Google en kunnen ze problemen hebben met andere talen dan HTML.
6. Zorg ervoor dat uw webpagina’s snel laden en een goede gebruikerservaring bieden
Laat uw site optimaliseren voor Core Web Vitals.
Hoe sneller uw inhoud laadt, dus minder dan drie seconden, hoe sneller Google informatie kan verstrekken aan eindgebruikers. Als ze het leuk vinden, blijft Google uw inhoud indexeren omdat uw site de crawlstatus van Google laat zien, wat uw crawllimiet kan verhogen.
7. Zorg voor nuttige inhoud
Volgens Google wordt inhoud gerangschikt op kwaliteit, ongeacht leeftijd. Creëer en update uw inhoud indien nodig, maar het heeft geen toegevoegde waarde om pagina’s er kunstmatig als nieuw uit te laten zien door triviale wijzigingen aan te brengen en de paginadatum bij te werken.
Als uw inhoud voldoet aan de behoeften van eindgebruikers en nuttig en relevant is, maakt het niet uit of deze oud of nieuw is.
Als gebruikers uw inhoud niet nuttig en relevant vinden, raad ik u aan de inhoud te vernieuwen en bij te werken om deze fris, relevant en nuttig te maken en deze via sociale media te promoten.
Koppel uw pagina’s ook rechtstreeks aan de startpagina, die mogelijk als belangrijker wordt beschouwd en vaker wordt gecrawld.
8. Pas op voor volgfouten
Als je enkele pagina’s van je site hebt verwijderd, zorg er dan voor dat de URL een 404- of 410-status retourneert voor permanent verwijderde pagina’s. Een 404-statuscode is een sterk signaal om die URL niet opnieuw te crawlen.
Geblokkeerde URL’s blijven echter veel langer deel uitmaken van uw crawlwachtrij en worden opnieuw gecrawld wanneer de blokkering wordt verwijderd.
Ook claimt Google alle zachte 404-pagina’s te verwijderen, die nog steeds wordt gecrawld en uw crawlbudget verspilt. Om dit te testen, gaat u naar GSC en bekijkt u uw indexdekkingsrapport voor zachte 404-fouten.
Als uw site veel HTTP 5xx-antwoordstatuscodes (serverfouten) heeft of time-outs van de verbinding iets anders aangeven, vertraagt het crawlen. Google raadt aan om aandacht te besteden aan het rapport Crawlstatistieken in Search Console en het aantal serverfouten tot een minimum te beperken.
Trouwens, Google respecteert of houdt zich niet aan de niet-standaard robots.txt “crawl delay”-regel.
Zelfs als u het nofollow-kenmerk gebruikt, kan de pagina nog steeds worden gecrawld en wordt uw crawlbudget verspild als een andere pagina op uw site of een andere pagina op internet de link niet tagt als nofollow.
9. Houd je sitemaps up-to-date
XML-sitemaps zijn belangrijk om Google te helpen uw inhoud te vinden en kunnen dingen versnellen.
Het is uiterst belangrijk om uw sitemap-URL’s up-to-date te houden, gebruik
Neem alleen de URL’s op die zoekmachines moeten indexeren. Neem alleen URL’s op die een 200-statuscode retourneren. Zorg ervoor dat een enkel sitemapbestand kleiner is dan 50 MB of 50.000 URL’s, en als je besluit om meerdere sitemaps te gebruiken, maak dan een sitemap-index die ze allemaal zal opsommen. Zorg ervoor dat uw sitemap is Gecodeerd UTF-8. Om op te nemen koppelingen naar gelokaliseerde versies van elke URL. (Zie de documentatie van Google.)
Houd je sitemap up-to-date, d.w.z. werk je sitemap bij elke keer dat er een nieuwe URL is of een oude URL is bijgewerkt of verwijderd.
10. Bouw een goede sitestructuur
Het hebben van een goede sitestructuur is belangrijk voor uw SEO-prestaties voor indexering en gebruikerservaring.
De structuur van de site kan de resultaten van de zoekresultatenpagina (SERP) op een aantal manieren beïnvloeden, waaronder crawlen, klikfrequentie en gebruikerservaring.
Als uw site een duidelijke, lineaire structuur heeft, kunt u uw crawlbudget efficiënt gebruiken, waardoor Googlebot nieuwe of bijgewerkte inhoud kan vinden.
Onthoud altijd de regel van drie klikken, dat wil zeggen dat elke gebruiker met maximaal drie klikken van elke pagina op uw site naar een andere moet kunnen gaan.
11. Interne link
Hoe gemakkelijker het voor zoekmachines is om uw site te crawlen en te navigeren, hoe gemakkelijker het voor crawlers is om uw structuur, context en belangrijke inhoud te identificeren.
Het hebben van interne links die naar een webpagina verwijzen, kan Google laten weten dat die pagina belangrijk is, kan helpen bij het opzetten van een hiërarchie van informatie voor de betreffende website en kan helpen bij het verspreiden van link equity op uw site.
12. Controleer altijd de crawlstatistieken
Controleer en controleer altijd GSC om te zien of uw site problemen ondervindt tijdens het crawlen en zoek naar manieren om het crawlen efficiënter te maken.
U kunt het rapport Crawlstatistieken gebruiken om te zien of Googlebot problemen heeft met het crawlen van uw site.
Als er fouten of beschikbaarheidswaarschuwingen worden gerapporteerd aan het GSC voor uw site, zoek dan naar gevallen op beschikbaarheid hosten grafieken waar Googlebot-verzoeken de rode grenslijn overschrijden, klikt u op de grafiek om te zien welke URL’s niet werkten en probeert u ze te koppelen aan problemen op uw site.
U kunt ook de URL-inspectietool gebruiken om enkele URL’s op uw site te testen.
Als de URL-inspecteur waarschuwingen voor hostbelasting retourneert, betekent dit dat Googlebot niet zoveel URL’s op uw site kan crawlen als hij heeft ontdekt.
inpakken
Het optimaliseren van uw crawlbudget is cruciaal voor grote sites vanwege hun enorme omvang en complexiteit.
Met talloze pagina’s en dynamische inhoud staan crawlers van zoekmachines voor uitdagingen om site-inhoud efficiënt en effectief te crawlen en te indexeren.
Door uw crawlbudget te optimaliseren, kunnen site-eigenaren prioriteit geven aan het crawlen en indexeren van belangrijke en up-to-date pagina’s, zodat zoekmachines hun middelen verstandig en effectief besteden.
Dit optimalisatieproces omvat technieken zoals het verbeteren van de site-architectuur, het beheren van URL-parameters, het instellen van crawlprioriteiten en het verwijderen van dubbele inhoud, wat leidt tot betere zichtbaarheid in zoekmachines, een betere gebruikerservaring en meer organisch verkeer voor grote websites.
Meer middelen:
Uitgelichte afbeelding: BestForBest/Shutterstock

Hey, ik ben Brent, en ik speel al een lange tijd mee in de SEO scene. Ik ben vooral heel actief in de Amerikaanse markt, en hou dan ook wel van een uitdaging. Ik ben sinds kort aan het uitbreiden binnenin de Benelux, en besluit hier dan ook te oversharen!
Wil je meer leren, klik dan op lees meer!