maart 10, 2024

Robots Exclusion Protocol | wat je robots.txt met SEO te maken heeft

Het Robots Exclusion Protocol is een standaard (ofwel conventie) die web spiders en zoekrobots begeleid op je website. In dit txt tekstbestand definieer je tot welke pagina’s (officiële) web crawlers toegang hebben tot delen van je website. Ondanks de robots.txt geen officiële standaard is, is het zinvol om het bestand te optimaliseren voor search engines. Zo luisteren veel crawl/web bots namelijk naar de instructies die erin staan. Dat stukje is weer cruciaal voor zoekmachine optimalisatie (SEO) strategieën die websites inzetten om te ranken[1][2]. Het webprotocol, dat gebruikmaakt van het robots.txt bestand in de rootdirectory van een website, geeft instructies aan ‘user-agents’, specificeert welke delen van de site ze wel of niet mogen bezoeken, en speelt daardoor een sleutelrol in het managen van web scraping en het beschermen van website-inhoud[1]. Let op! Want enkel een robots.txt hebben is géén goede beveiliging van je website.

Voor webmasters is de robots.txt een handige tool om te bepalen hoe zoekmachine crawlers hun websites doorzoeken en indexeren. Je kan je voorstellen dat dat handig is, niet alleen vanuit een basis security perspectief, maar ook voor UX en SEO. Andere alternatieven zoals de ‘robots meta tag’ hebben echter een meer verfijnde controle. Zo bieden ze de mogelijkheid om efficiënter in te stellen hoe  individuele pagina’s moeten worden behandeld in de zoekresultaten (SERP). Hoewel het Robots Exclusion Protocol geen absolute beveiligingsgarantie biedt, aangezien niet alle robots zich eraan houden, volgen de meeste respectabele bots, zoals die van Google, deze richtlijnen (over het algemeen) wel, wat de zichtbaarheid en veiligheid van je website dus zeker ten goede kan komen[2][4].

Geschiedenis en evolutie van de Robots.txt

Het Robots Exclusion Protocol ken je waarschijnlijk beter als robots.txt. Het tekstbestand lijkt klein en nietszeggend, maar is een essentieel onderdeel van zo ongeveer elke website die je kan vinden op het web sinds zijn creatie in juni 1994. Hij werd ontwikkeld door de leden van de WWW Robots Mailing List. Fun fact: Het Robots Exclusion Protocal werd oorspronkelijk voorgesteld door de Nederlandse ingenieur Martijn Koster in februari van datzelfde jaar [1][6]. Dit protocol werd snel de (de-facto) standaard voor alle webcrawlers die zouden volgen (en dat zijn er helaas meer dan je denkt). Gelukkig zijn er ook erkende crawlers zoals die van voorheen best bekende zoekmachines zoals WebCrawler, Lycos en AltaVista [6].

  1. Belangrijk data met betrekking tot het ontstaan en de ontwikkeling van het Robots Exclusion Protocol:
    • Juni 1994: Introductie van het Robots Exclusion Protocol door de WWW Robots Mailing List zonder officiële standaard of RFC [1].
    • Februari 1994: Voorstel door Martijn Koster, bedoeld om dubbele indexering van pagina’s te voorkomen en de SEO-ranking te beheersen [5][6].
  2. De evolutie van de Robots.txt standaarden:
    • 1997: Uitbreiding van de oorspronkelijke REP met crawlerdirectieven (crawler directives) voor robots.txt [8].
    • 1996: Toevoeging van indexeringsdirectieven (REP-tags) voor gebruik in het robots meta element of als X-Robots-Tag in HTTP-headers van niet-HTML bronnen [8].
    • 2005: Implementatie van het sitemaps-protocol en de Microformat rel-nofollow (het commando voor niet volgen of beter gezegd niet vertrouwen waar ik nu naar link), die bijdragen aan de massa-indiening van content en linkbehandeling door zoekmachines [8].
  3. Robots Exclusion Protocol als officiële Standaard:
    • 1 juli 2019: Google kondigt aan het Robots Exclusion Protocol (robots.txt) voor te stellen als officiële standaard bij de Internet Engineering Task Force [6].
    • September 2022: Publicatie van de voorgestelde standaard als RFC 9309, waarmee het protocol officieel gestandaardiseerd wordt [6][7].

Als je naar de ontwikkelingen van het Robots Exclusion Protocol kijkt is het best bijzonder dat het wel 28 jaar geduurd heeft om van van een informele afspraak te veranderen in een bijna-erkende standaard. Zeker als je je bedenkt dat in tussentijd de robots.txt door bijna elke (beetje technisch aangelegde) webmaster werd gebruikt om te ‘sturen’ hoe hun content werd (en wordt) geïndexeerd en benaderd door crawlers [7][9]. Een aankondiging is mooi natuurlijk, maar we zijn inmiddels al weer 2 jaar verdere, hopelijk worden er dat niet 28 😉

De kracht van het Robots Exclusion Protocol is voor veel website-en webshopeigenaren net zo onbekend als het toepassen van Schema voor SEO  voor veel website- en webshop. Daar gaan we nu verandering in brengen!

Hoe werkt een Robots.txt?

  • Gebruikersagenten en directieven (user-agents en directives):
    1. Een robots.txt-bestand start met een gebruikersagent-directief (user-agent directive), die aangeeft op welke crawler de regels van toepassing zijn, zoals “User-agent: Googlebot” voor Google’s crawler [13] of “User-agent: Bingbot” voor de crawler van Bing. Zo zijn er nog zeker 12 bekende crawlers zoals bijvoorbeeld Duckduck bot, Apple bot en Baidu bot.
    2. Na de gebruikersagent volgen de Allow of Disallow directieven, die respectievelijk toestemming geven of verbieden om bepaalde URL’s of mappen wel/niet te crawlen [13].
    3. Als een regel begint met “User-agent: *”, is deze van toepassing op alle bots, wat een algemene instructie oplevert [16].
  • Elke crawler hanteert andere regels. Daarom krijgen iedere crawler andere instructies:
    1. Het is mogelijk om individuele crawler-gebruikersagenten te specificeren. Dat moet ook wel, want alleen zo kan je verschillende crawlers aangepaste instructies geven [2].
    2. De locatie van de XML-sitemap kan ook worden opgenomen in het robots.txt-bestand, wat zoekmachines helpt om de website efficiënter te indexeren [2]. Dit is een belangrijk punt voor je zoekmachine-optimalisatie (SEO) om rekening mee te houden wanneer je jouw robots.txt instelt.
  • Andere info die handig is om te weten:
    1. Hoewel robots.txt geen beveiligingsmaatregel is, omdat crawlers het bestand kunnen negeren, volgen de meeste gerespecteerde zoekmachinebots (zoals de Googlebot en Bingbot) de instructies wel op [14].
    2. Exclusie van pagina’s door robots.txt voorkomt niet dat deze in zoekmachine-indexen verschijnen als er externe links naar ze toe linken, wat betekent dat zorgvuldigheid geboden is bij het gebruik van Disallow-directieven [16]. Check vooral bij de lancering van je site en daarna regelmatig of er dus niet per ongeluk linkjes naar de pagina verwijzen.
    3. Het is belangrijk de robots.txt heel zorgvuldig samen te stellen, een klein foutje, zoals het uitsluiten van de gehele website van de zoekindex, kan ernstige gevolgen hebben [16]. En geloof me.. Dit foutje is wel vaker voorgekomen, ook bij hele grote bekende websites!
    4. Google’s Webmaster Tools biedt een Robots.txt Tester-tool om het bestand te testen op fouten en de impact ervan op zoekmachine-indexering te controleren [16].

Hoe helpt een Robots.txt SEO te verbeteren?

Je robots.txt bestand kan zoekmachines helpen. Waar veel mensen niet bij stilstaan is dat het crawlen van websites letterlijk geld kost. Dus wat zou jou doen als zoekmachine? Geef je de voorkeur aan een website waarbij je met zo min mogelijk geld al je informatie kan ophalen? Of kies je voor een website die je drie keer zoveel kost om te bekijken, maar minder info oplevert? Precies. Je krijgt een “crawl budget”, zie het als Google centjes 😉 en die kunnen tijdens het crawlen maar 1x uitgegeven worden. Als je allerlei pagina’s hebt die perongeluk 3x bestaan, dan krijg ook jij dus minder waar voor je geld. Reden genoeg dus om te optimaliseren!

  • Optimalisatie van je robots.txt betekent dat je het maximale haalt uit je crawl budget:
    1. De robots.txt file is letterlijk cruciaal voor het benutten van jouw crawl budget dat je krijgt van zoekmachines. Zorg dat je ze snel en met weinig crawlkosten leidt naar de belangrijkste pagina’s van je website en ver weg van alle onnodige filterpagina’s [12].
    2. Door crawlers te verhinderen toegang te krijgen tot irrelevante of pagina’s met weinig waarde, kan een robots.txt bestand je helpen om je crawl budget te optimaliseren en hierdoor serverruimte te besparen [13][2].
    3. Het is ook belangrijk om te controleren of belangrijke pagina’s niet per ongeluk worden uitgesloten in de robots.txt [13].
  • Verbetering van je SEO en een betere (pagina)indexering:
    1. Door een sitemap in te dienen via Google Search Console of Bing Webmaster Tools, kunnen crawlers de cruciale pagina’s van de site vinden en indexeren [13].
    2. Een goed geconfigureerde robots.txt leidt crawlers naar de sitemap en sluit irrelevante pagina’s uit, waardoor nieuwe pagina’s sneller en efficiënter kunnen worden geïndexeerd [15].
    3. De correcte implementatie van het Robots Exclusion Protocol kan irrelevante pagina’s uitsluiten, waardoor zoekmachinebots nieuwe pagina’s efficiënter kunnen indexeren, wat kan leiden tot hogere rangschikkingen voor die pagina’s [3].
  • Voorkomen van dubbele content en serverbelasting:
    1. Het Robots Exclusion Protocol helpt bij het beheren van het crawl budget en voorkomt problemen met dubbele content, wat een belangrijk onderdeel is van de SEO-strategie [17].
    2. Het gebruik van Google’s Robots.txt Tester tool zorgt dat jij zeker weet of het bestand goed is geconfigureerd en geen essentiële pagina’s blokkeert [13].
    3. Het verminderen van de serverbelasting door webcrawlers en het verbeteren van SEO zijn bijkomende voordelen van het juist instellen van een robots.txt bestand [3][15].

Wat zijn best practices voor je Robots Exclusion Protocol instellingen?

  • Vermijd het uitsluiten van CSS-, JS- of afbeeldingsbestanden: Dit kan voorkomen dat Google de website volledig kan renderen en begrijpen, wat kan leiden tot lagere rankings. Zorg ervoor dat deze bestanden toegankelijk zijn voor een volledige analyse van de site [12].
  • Gebruik specifieke tools voor het testen van de robots.txt: Controleer met webmaster dashboards van zoekmachines of het robots.txt-bestand correct werkt. Dit helpt problemen te voorkomen die de zichtbaarheid van de website kunnen beïnvloeden [12].
  • Houd je robots.txt bestand eenvoudig en georganiseerd: Voorkom tegenstrijdige regels en maak gebruik van commentaar om de leesbaarheid te verbeteren. Dit maakt het voor webmasters makkelijker om het bestand te beheren en te actualiseren [12]. Als je net begint met robots.txt kan je het beter goed instellen met minder regels, dan te snel gaan en per ongeluk al je SEO efforts verpesten.
  • Houd je robots.txt up-to-date: Zorg ervoor dat het robots.txt-bestand up-to-date blijft en overeenkomt met de behoeften van de website, vooral als de website verandert [12][13].
  • Inclusie van XML-sitemapreferentie: Voeg een verwijzing naar de XML-sitemap toe in het robots.txt-bestand om zoekmachines efficiënt naar belangrijke pagina’s te leiden. Zorg ervoor dat de sitemap zelf niet geblokkeerd wordt door het robots.txt-bestand [12][19]. Want anders.. Yikes!
  • Investeer in extra beveiliging: Het robots.txt-bestand biedt geen garantie voor beveiliging. Hoe goed je het ook instelt. Gevoelige gegevens mogen niet via URL’s toegankelijk zijn, omdat kwaadwillende bots de instructies kunnen negeren [12]. Andere dingen die je kan doen is: de url’s van bijvoorbeeld je /wp-admin aanpassen. Check je .htacces bestand en maak gebruik van andere serverside en CMS of HTML beveiligingsmaatregelen. Houd ook altijd je plugins up-to-date als je werkt met bijvoorbeeld WordPress of Shopify. Vermijd plugins die je niet nodig hebt en vermijd zekerrrr gratis plugins met weinig gebruikers. Lakse security van derde partijen kan een grote invloed hebben op de security van jouw website!
  • Plaats je robots.txt in de rootdirectory: Het robots.txt-bestand moet in de rootdirectory van het domein staan (bijvoorbeeld www.voorbeeld.com/robots.txt) en correct benoemd zijn als “robots.txt” [19]. Anders heb je een heel mooi bestand dat zoekmachines niet vinden (oh, the irony!)
  • Gebruik van ‘Allow’-directieven: Hiermee kan specifieke toegang worden verleend tot bestanden of pagina’s binnen een geblokkeerde directory [19].
  • Vermijd het blokkeren van inhoud die geïndexeerd moet worden: Zorg ervoor dat de robots.txt geen secties blokkeert die door zoekmachines gecrawld moeten worden [19].
  • Uitsluiten van parameter-gedreven URL’s: Dit helpt duplicatie van inhoud te voorkomen, wat cruciaal is voor SEO [20].
  • Blokkeer bepaalde bestanden zoals .xls en .pdf: Dit voorkomt dat ze in zoekresultaten verschijnen als dit niet gewenst is [20].
  • Gebruik robots.txt tijdens website migraties: Om ontwikkelomgevingen te blokkeren van zoekmachines en zo de integriteit van de live site te behouden [20].
  • Let op fouten: Een fout in het robots.txt-bestand kan leiden tot onbedoelde gevolgen, zoals het blokkeren van belangrijke pagina’s of het toestaan van toegang tot gevoelige gebieden [15].
  • ‘Noindex,nofollow’-tag: Voor pagina’s die niet geïndexeerd mogen worden, gebruik deze tag in combinatie met of als aanvulling op robots.txt [15].
  • Bestandsgrootte: Houd rekening met de limiet van 500 KB voor robots.txt-bestanden die door Google wordt opgelegd [15].

Robots Exclusion Protocol en websitebeveiliging

  • Misverstanden over Robots.txt en de veiligheid van je website:
    1. Het Robots Exclusion Protocol (REP) communiceert aan webcrawlers welke pagina’s niet gecrawld moeten worden, maar dit is geen beveiligingsmaatregel [2]. Vervelende web-spinnetjes kunnen gewoon keihard negeren wat jij tegen hen zegt. Hen moet je plattrappen met andere ijzersterke veiligheidsmaatregelen.
    2. Voor het beveiligen van gevoelige informatie moeten websitebeheerders andere methoden toepassen, zoals authenticatie of IP-blokkering [21].
  •  Robots Exclusion Protocol in de context van website-beveiliging:
    1. Hoewel de robots.txt bestanden zoekmachines kunnen vertellen om bepaalde pagina’s niet te indexeren, voorkomt het niet dat ongeautoriseerde gebruikers toegang krijgen tot de geblokkeerde content [15].
    2. Het protocol dient als advies en is afhankelijk van de medewerking van webrobots; het kan niet de toegang tot bestanden of mappen beperken [1].
    3. Security.txt is een opkomende standaard die delen van het REP zou kunnen aanvullen of vervangen, gericht op het verbeteren van de communicatie over beveiligingskwesties [1].
  • Aanbevelingen voor het gebruik van Robots.txt:
    1. Gebruik robots.txt om te sturen welke inhoud door zoekmachines moet worden genegeerd, maar vertrouw niet op het bestand als een veiligheidsmaatregel [2].
    2. Bescherm gevoelige informatie door middel van daarvoor bedoelde security methoden en programma’s, zorg er ook voor dat de belangrijkste ‘gevoelige URL’s’ van je website niet toegankelijk zijn [21] en dat er niet naar gelinkt wordt door andere pagina’s.

Robots en REP’s

  • Google’s streeft naar standaardisatie van security:
    1. Google zet zich in om het Robots Exclusion Protocol (REP) te transformeren tot een officiële internet standaard, wat zou bijdragen aan een meer gestroomlijnde en uniforme benadering van crawlers door webmasters [22].
    2. Door het REP als standaard voor te stellen aan de Internet Engineering Task Force, beoogt Google duidelijkheid te scheppen en problemen aan te pakken die momenteel spelen rond de implementatie van robots.txt bestanden [22].
  • Uitdagingen en verbeteringen:
    1. Een veelvoorkomend probleem met REP is de onzekerheid die webdevelopers ervaren bij het omgaan met grote robots.txt bestanden en het onbedoeld toevoegen van Byte Order Mark (BOM) karakters door teksteditors [22].
    2. Google’s initiatief om het REP te standaardiseren beoogt ook de inconsistenties in interpretatie door ontwikkelaars weg te nemen, wat zou moeten leiden tot meer voorspelbare resultaten van crawlers [11]. Daar zouden veel SEO-specialisten maar al te blij mee zijn 🙂
  • Toepassing van machine learning en Artificial Intelligence (AI):
    1. Met de vooruitgang van machine learning en kunstmatige intelligentie (AI) is er een potentieel om de efficiëntie van zoekmachines verder te verbeteren. Met miljoenen robots.txt bestandjes op het internet waar ze doorheen crawlen leren ze in een hoog tempo beter te begrijpen wat webmasters hen proberen uit te leggen in de txt-file, door die analyses zal de noodzaak voor expliciete instructies in de toekomst mogelijk minder worden [1].

Hoe kan ik de SEO van mijn website verbeteren?

Om de zoekmachine-optimalisatie (SEO) van je website of webshop een boost te geven kun je deze 10 stappen volgen:

  1. Zorg voor een optimale gebruikerservaring (UX) op je website.
  2. Produceer hoogwaardige en relevante content die aansluit op de behoeften van je (potentiële) klanten.
  3. Gebruik long-tail zoekwoorden om makkelijker bezoekers naar je site te trekken die al gericht naar je product of dienst zoeken.
  4. Implementeer Google Analytics en Search Console om je SEO-prestaties te meten en te verbeteren.
  5. Optimaliseer je website voor voice search. Spraakgestuurde zoekopdrachten worden steeds populairder.
  6. Bouw kwalitatieve backlinks naar je website om de autoriteit en geloofwaardigheid van je website te verhogen.
  7. Zorg dat je website snel laadt.
  8. Pas schema toe op je website zoals Organization, Author, Product en Reviews.
  9. Optimaliseer je interne links en website hierarchië.
  10. Volg een SEO training bij De Maandelijkse Marketeer.

Klik hier voor meer informatie

Geraadpleegde bronnen voor dit Robots Exclusion Protocol artikel

[1] – https://nl.wikipedia.org/wiki/Robots_Exclusion_Protocol [2] – https://onlinemarketingagency.nl/marketingtermen/robots-exclusion-standard/ [3] – https://ralfvanveen.com/begrippenlijst/robots-exclusion-standard/ [4] – https://www.onlinemarketingmonkey.be/blog/robots-txt [5] – https://ralfvanveen.com/begrippenlijst/robots-txt/ [6] – https://en.wikipedia.org/wiki/Robots.txt [7] – https://www.rfc-editor.org/rfc/rfc9309.html [8] – https://moz.com/blog/robots-exclusion-protocol-101 [9] – https://www.seo-snel.nl/robots-txt/ [10] – https://developers.google.com/search/blog/2019/07/rep-id [11] – https://www.techzine.nl/nieuws/devops/424768/google-wil-dat-zijn-decennia-oude-robots-exclusion-protocol-een-internetstandaard-wordt/ [12] – https://puredigital.nl/zoekmachine-optimalisatie-seo/wat-is-een-robots-txt/ [13] – https://seo.london/nl/hoe-robots-tekst-te-gebruiken-voor-seo/ [14] – https://www.webton.nl/blog/robots-txt/ [15] – https://tobefound.nl/blog/wat-is-robots-txt/ [16] – https://blog.rankingcoach.com/nl/wat-is-een-robots.txt-bestand [17] – https://www.doublesmart.nl/hub/seo/robots-txt/ [18] – https://www.seobrein.nl/robotstxt [19] – https://onder.nl/blog/robots-txt-optimaal-gebruiken/ [20] – https://grp-digital.com/technische-seo/wat-is-robots-txt-en-hoe-kan-je-het-toepassen/ [21] – https://solutionairs.nl/wat-is-robots-txt/ [22] – https://itdaily.be/nieuws/devops/google-wil-dat-zijn-robots-exclusion-protocol-een-internetstandaard-wordt/

Maak je netwerk blij, deel mij!

TAGS:

0 reacties

Een reactie versturen

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *