Het jaarlijkse spamrapport van Google over 2022 belichtte alle manieren waarop het SpamBrain-antispamsysteem bedrevener werd in het opvangen van meerdere vormen van spam. Hoewel het rapport vooral gaat over het rapporteren hoeveel meer spam ze hebben opgevangen in vergelijking met vorig jaar, leken de stukjes over hoe SpamBrain werkt net zo belangrijk.
Google SpamBrain-platform
SpamBrain is de naam die Google gaf aan zijn machine learning-systeem dat Google een platform noemt van waaruit algoritmen kunnen worden gestart die meerdere vormen van ongewenste inhoud detecteren.
Machine learning is een vorm van kunstmatige intelligentie die gegevens gebruikt om te leren om steeds vaardiger te worden in de taak waarvoor ze zijn ontworpen.
Er is niet veel bekend over SpamBrain, behalve dat het een machine learning-platform is en “centraal” staat in de initiatieven van Google om te voorkomen dat spam wordt gerangschikt.
Het Webspam-rapport van Google merkt dit op over SpamBrain:
“We hebben SpamBrain ook verbeterd als een robuust en veelzijdig platform, door meerdere oplossingen uit te brengen om onze dekking van verschillende soorten misbruik te verbeteren.”
Verbeteringen aan SpamBrain
In het Webspam-rapport werd opgemerkt dat verbeteringen aan het systeem resulteerden in het vastleggen van 500% meer spamsites dan het voorgaande jaar.
De aanvullende training resulteerde in een vertienvoudiging van het vermogen van SpamBrain om gehackte websites te identificeren.
Link voor spamdetectie
In het rapport werd opgemerkt dat een speciale training over linkspam leidde tot het vastleggen van vijftig keer meer sites die linkspam creƫerden in vergelijking met het voorgaande jaar, waarbij het leervermogen van SpamBrain als sleutel tot het succes werd genoemd.
“Dankzij het leervermogen van SpamBrain hebben we 50x meer link-spamsites gedetecteerd in vergelijking met de vorige link-spam-update.”
Indexerende poortwachter
Een interessant feit over SpamBrain is hoe het spam tijdens het crawlen identificeert.
Als een gecrawlde pagina spam blijkt te zijn, wordt deze onmiddellijk geblokkeerd, waardoor wordt voorkomen dat deze in de zoekindex van Google terechtkomt en er geen middelen worden verspild aan het crawlen van ongewenste webpagina’s.
Blokkeren van spam tijdens het crawlen is een mogelijkheid die werd aangekondigd in 2021, waarbij werd opgemerkt dat indexering niet alleen wordt geblokkeerd wanneer spam wordt gecrawld, maar ook wanneer het probeert door de zoekconsole en sitemaps te sluipen.
Ze schreven in 2021:
“…we hebben systemen die spam kunnen detecteren wanneer we pagina’s of andere inhoud crawlen. Crawlen is wanneer onze automatische systemen inhoud bezoeken en deze overwegen voor opname in de index die we gebruiken om zoekresultaten te leveren. Sommige inhoud die als spam wordt gedetecteerd, wordt niet toegevoegd naar de index.
Deze systemen werken ook voor inhoud die we ontdekken via sitemaps en Search Console.
Search Console heeft bijvoorbeeld een functie voor het indexeren van verzoeken, zodat makers ons kunnen vertellen over nieuwe pagina’s die snel moeten worden toegevoegd. We zagen spammers hacken op kwetsbare sites, doen alsof ze de eigenaar van die sites zijn, zichzelf verifiĆ«ren in Search Console en de tool gebruiken om Google te vragen de vele spampagina’s die ze hebben gemaakt te crawlen en te indexeren.
Met behulp van AI konden we verdachte verificaties identificeren en op die manier voorkomen dat spam-URL’s onze index binnenkwamen.”
Het is dus redelijk om te zeggen dat een van de vele functies van SpamBrain is om op te treden als poortwachter en spam te blokkeren voordat het de kans krijgt om in de index van Google te komen.
Bescherming tegen zwendel is nu meertalig
Iets nieuws voor SpamBrain is dat het identificatiesysteem voor zwendel nu meertalig is, waardoor het aantal klikken op zwendelsites met 50% is gedaald in vergelijking met vorig jaar.
Hoe zit het met spam?
Het rapport van dit jaar was gericht op het opsporen van link-spam, het identificeren van gehackte sites en het verbeteren van spamdetectie tijdens het crawlen.
Wat hij niet vermeldde, had iets te maken met het identificeren van spam.
Is dit omdat de inhoud wordt afgehandeld door het nuttige inhoudsalgoritme en niet door SpamBrain?
Lees het webspamrapport van Google:
Hoe we in 2022 spam hebben bestreden op Google Zoeken
Uitgelichte afbeelding door Shutterstock/Asier Romero

Hey, ik ben Brent, en ik speel al een lange tijd mee in de SEO scene. Ik ben vooral heel actief in de Amerikaanse markt, en hou dan ook wel van een uitdaging. Ik ben sinds kort aan het uitbreiden binnenin de Benelux, en besluit hier dan ook te oversharen!
Wil je meer leren, klik dan op lees meer!