fbpx

Alles wat u moet weten over de X-Robots-Tag HTTP-header

Alles wat u moet weten over de X-Robots-Tag HTTP-header

Share This Post


Zoekmachineoptimalisatie, in de meest elementaire zin, berust vooral op één ding: de spiders van zoekmachines die uw site doorzoeken en indexeren.

Maar bijna elke website heeft pagina’s die u niet in deze scan wilt opnemen.

Wilt u bijvoorbeeld echt dat uw privacybeleid of interne zoekpagina’s in Google-resultaten verschijnen?

In het beste geval doen deze niets om actief verkeer naar uw site te leiden, en in het slechtste geval leiden ze verkeer weg van belangrijkere pagina’s.

Gelukkig staat Google webmasters toe om bots van zoekmachines te vertellen welke pagina’s en inhoud ze moeten crawlen en welke ze moeten negeren. Er zijn verschillende manieren om dit te doen, de meest gebruikelijke is het gebruik van een robots.txt-bestand of de robots-metatag.

We hebben een uitstekende en gedetailleerde uitleg van de details van robots.txt, die u zeker moet lezen.

Maar op hoog niveau is het een eenvoudig tekstbestand dat in de hoofdmap van uw website staat en het Robot Exclusion Protocol (REP) volgt.

Robots.txt geeft crawlers instructies over de site als geheel, terwijl robot-metatags instructies voor specifieke pagina’s bevatten.

Sommige meta-robottags die u kunt gebruiken, omvatten index, die zoekmachines vertelt om de pagina aan hun index toe te voegen; niet indexeren, die u vertelt om geen pagina aan de index toe te voegen of op te nemen in zoekresultaten; volgen, wat een zoekmachine vertelt om links op een pagina te volgen; nofollow, dat u vertelt om geen links te volgen, en een aantal andere.

Zowel robots.txt- als metarobottags zijn handige hulpmiddelen om in je gereedschapskist te bewaren, maar er is ook een andere manier om zoekmachinerobots te vertellen dat ze niet moeten indexeren of volgen: X-Robots-Tag.

Wat is de X-Robots-tag?

De X-Robots-tag is een andere manier om te bepalen hoe spiders uw webpagina’s crawlen en indexeren. Als onderdeel van het HTTP-headerantwoord op een URL, regelt het de indexering van een hele pagina en specifieke elementen op die pagina.

En hoewel het gebruik van meta-robottags vrij eenvoudig is, is de X-Robots-tag een beetje lastiger.

Maar dit roept natuurlijk de vraag op:

Wanneer moet u de X-Robots-tag gebruiken?

Volgens Google: “Elke richtlijn die in een robots-metatag kan worden gebruikt, kan ook worden gespecificeerd als een X-Robots-tag.”

Hoewel u robots.txt-gerelateerde richtlijnen kunt instellen in de headers van een HTTP-antwoord met zowel de robots-metatag als de X-Robots-tag, zijn er bepaalde situaties waarin u de X-Robots-tag wilt gebruiken, de twee meest voorkomende. zijn wanneer:

U wilt bepalen hoe uw niet-HTML-bestanden worden gecrawld en geïndexeerd. U wilt richtlijnen op de hele site plaatsen in plaats van op paginaniveau.

Als u bijvoorbeeld wilt voorkomen dat een specifieke afbeelding of video wordt gevolgd, maakt de HTTP-antwoordmethode dit gemakkelijk.

De X-Robots-Tag-header is ook handig omdat u hiermee meerdere tags kunt combineren binnen een HTTP-antwoord of een door komma’s gescheiden lijst met richtlijnen kunt gebruiken om richtlijnen te specificeren.

Misschien wil je niet dat een bepaalde pagina in de cache wordt opgeslagen en wil je dat deze na een bepaalde datum niet meer beschikbaar is. U kunt een combinatie van de tags “noarchive” en “unavailable_after” gebruiken om bots van zoekmachines te vertellen dat ze deze instructies moeten volgen.

In wezen is de kracht van de X-Robots-tag dat deze veel flexibeler is dan de robots-metatag.

Het voordeel van het gebruik van een X-Robots-tag met HTTP-antwoorden is dat u hiermee reguliere expressies kunt gebruiken om crawlrichtlijnen in niet-HTML uit te voeren en parameters op een groter wereldwijd niveau kunt toepassen.

Om u te helpen het verschil tussen deze richtlijnen te begrijpen, is het handig om ze op type te categoriseren. Dat wil zeggen, zijn het crawler-richtlijnen of indexer-richtlijnen?

Hier is een handig spiekbriefje om uit te leggen:

Tracker-richtlijnen
Indexer richtlijnen
Robots.txt – gebruikt de user-agent, allow, disallow en sitemap-richtlijnen om aan te geven waar bots van sitezoekmachines mogen crawlen en waar ze niet mogen crawlen.
Tag Meta-robots – hiermee kunt u opgeven en voorkomen dat zoekmachines bepaalde pagina’s van een site in zoekresultaten weergeven.

Niet volgen – hiermee kunt u links specificeren die geen autoriteit of PageRank mogen overbrengen.

X-Robots-label – hiermee kunt u bepalen hoe de opgegeven bestandstypen worden geïndexeerd.

Waar plaats je de X-Robots-tag?

Stel dat u specifieke bestandstypen wilt blokkeren. Een ideale benadering zou zijn om de X-Robots-tag toe te voegen aan een Apache-configuratie of .htaccess-bestand.

De X-Robots-tag kan worden toegevoegd aan de HTTP-antwoorden van een site in een Apache-serverconfiguratie met behulp van een .htaccess-bestand.

Voorbeelden uit de praktijk en gebruik van de X-Robots-tag

Dus dat klinkt in theorie geweldig, maar hoe ziet het er in de echte wereld uit? Laten we kijken.

Stel dat we willen dat zoekmachines geen .pdf-bestandstypen indexeren. Deze configuratie op Apache-servers ziet er als volgt uit:

X-Robots-Tag-headerset “noindex, nofollow”

In Nginx zou het er als volgt uitzien:

locatie ~* \.pdf$ { add_header X-Robots-Tag “noindex, nofollow”; }

Laten we nu eens naar een ander scenario kijken. Stel dat we de X-Robots-tag willen gebruiken om het indexeren van afbeeldingsbestanden zoals .jpg, .gif, .png, etc. te blokkeren. U kunt dit doen met een X-Robots-Tag die er als volgt uitziet:

X-Robots-Tag kopset “noindex”

Merk op dat het cruciaal is om te begrijpen hoe deze richtlijnen werken en welke impact ze op elkaar hebben.

Wat als bijvoorbeeld zowel de X-Robots-tag als een robots-metatag worden gevonden wanneer crawlers een URL ontdekken?

Als deze URL wordt geblokkeerd in robots.txt, kunnen bepaalde indexerings- en publicatierichtlijnen niet worden ontdekt en worden deze niet gevolgd.

Als de richtlijnen moeten worden gevolgd, kunnen URL’s die deze richtlijnen bevatten, niet worden uitgeschakeld voor crawlen.

Controleer op een X-Robots-tag

Er zijn een paar verschillende methoden die kunnen worden gebruikt om te controleren op een X-Robots-tag op de site.

De gemakkelijkste manier om dit te controleren, is door een browserextensie te installeren die u de X-Robots-Tag-informatie over de URL vertelt.

Checker voor robotuitsluitingenScreenshot Robots Exclusion Checker, december 2022

Een andere plug-in die u kunt gebruiken om te bepalen of er bijvoorbeeld een X-Robots-Tag wordt gebruikt, is de Web Developer-plug-in.

Als u in uw browser op de plug-in klikt en naar “Toon responsheaders” navigeert, kunt u de verschillende HTTP-headers zien die worden gebruikt.

plug-in voor webontwikkelaars

Een andere methode die kan worden gebruikt om te schalen om problemen op websites met een miljoen pagina’s te identificeren, is Screaming Frog.

Nadat u een site via Screaming Frog heeft uitgevoerd, kunt u naar de kolom “X-Robots-Tag” navigeren.

Dit laat zien welke delen van de site de tag gebruiken, samen met welke specifieke richtlijnen.

Schreeuwende Kikker Verslag.  X-Robot-TagScreenshot van het Screaming Frog-rapport. X-Robot-tag, december 2022

Gebruik van X-Robots-Tags op uw site

Inzicht in en controle over hoe zoekmachines omgaan met uw website is de hoeksteen van zoekmachineoptimalisatie. En de X-Robots-Tag is een krachtige tool die u daarvoor kunt gebruiken.

Let op: het is niet zonder gevaren. Het is heel gemakkelijk om een ​​fout te maken en je hele site te laten de-indexeren.

Dat gezegd hebbende, als je dit stuk leest, ben je waarschijnlijk geen SEO-beginner. Zolang je het verstandig gebruikt, de tijd neemt en je werk controleert, zul je merken dat de X-Robots-tag een nuttige aanvulling is op je arsenaal.

Meer middelen:

Uitgelichte afbeelding: Song_about_summer/Shutterstock



Source link

More To Explore

WACHT! VOORDAT JE GAAT...

Geef me jouw E-mail Address, en dan stuur ik je een GRATIS kopie van mijn boek, waarin ik je laat zien hoe je jouw inkomen kan verdubbelen in 90 dagen!