Meta tags en SEO (1/2)

Meta tags en SEO (1/2)

Wat is Robots.txt?
Robots.txt is een tekstbestand dat gebruikt wordt om zoekmachinebots (ook bekend als crawlers, robots of spinnen ) te instrueren hoe ze websites moeten te indexeren. Idealiter wordt een robots.txt-bestand in de header van jouw website geplaatst, zodat robots direct toegang hebben tot de instructies van het bestand.

Waarom is Robots.txt belangrijk?
De juiste werking van robots.txt zorgt ervoor dat zoekmachinebots naar de vereiste pagina’s worden gerouteerd, zodat er geen dubbele inhoud wordt toegestaan die tot een daling van de positie leidt. Daarom moet je ervoor zorgen dat jouw site een zorgvuldig gemaakt robot.txt- bestand heeft. Als een robots.txt-bestand verkeerd is ingesteld, kan dit meerdere indexeringsfouten veroorzaken.

Dus, elke keer als je een nieuwe SEO-campagne start, controleer dan jouw robots.txt- bestand met Google’s robots texting tool.
Vergeet niet: Als alles correct is ingesteld, zal een robots.txt-bestand het indexeringsproces versnellen.

Robots.txt op het web
Vergeet echter niet dat elk robots.txt-bestand publiek beschikbaar is op het web. Om toegang te krijgen tot een robots.txt-bestand, typ je simpelweg: www.website-example.com/robots.txt.

Deze beschikbaarheid betekent dat:
– Je kunt er geen gegevens in beveiligen of verbergen.
– Slechte robots en kwaadwillende crawlers kunnen gebruik maken van een txt-bestand dat als een gedetailleerde kaart wordt gebruikt om door jouw meest waardevolle webpagina’s te navigeren.

Houd er rekening mee dat robots.txt-commando’s eigenlijk richtlijnen zijn. Dit betekent dat zoekrobots jouw site kunnen crawlen en indexeren, zelfs als je ze dat niet opdraagt. Het goede nieuws is dat de meeste zoekmachines (zoals Google, Bing, Yahoo en Yandex) de robots.txt-richtlijnen naleven.

Robots.txt bestanden hebben zeker nadelen.
Toch raad ik je ten zeerste aan om een integraal onderdeel te maken van elke SEO campagne. Google herkent en eert de robots.txt-richtlijnen en in de meeste gevallen is het meer dan voldoende om Google onder jouw aandacht te brengen.

Robots.txt basisprincipes
Het robots.txt bestand:
– Bevat de gebruikelijke tekst in de UTF-8 codering, die bestaat uit records (regels), gedeeld door symbolen.
– Moet zich bevinden aan de basis van de host van de website waarop het van toepassing is.
– Moet uniek zijn.
– Bevat niet meer dan 1.024 regels.
– Moet onder de 500KB blijven.

Google-bots vinden alle inhoud die beschikbaar is voor indexering wanneer:
– Er is geen robots.txt bestand.
– Een robots.txt-bestand wordt niet in het tekstformaat weergegeven.
– Ze ontvangen geen 200 OK antwoord. Opmerking:
– U kunt, maar mag dat niet, het byte-orderteken (BOM) aan het begin van het robots.txt-bestand vermelden, omdat het door bots genegeerd zal worden. De standaard adviseert het gebruik van een nieuwe regel voor elke User-agent richtlijn.
– Als jouw codering symbolen bevat die verder gaan dan de UTF-8, kunnen bots het bestand verkeerd analyseren.

Ze zullen alleen de geldige invoer uitvoeren, waarbij ze de rest van jouw inhoud negeren zonder je op de hoogte te stellen van de fout.

Robots.txt Structuur Structuur
Het Robots.txt Bestand bestaat uit:
– Een of meerdere User-agent richtlijnen, bedoeld voor robots van verschillende zoekmachines.
– Verbied en laat richtlijnen toe die indexering toestaan of beperken.

Sitemap-richtlijnen

Disallow richtlijnen verbieden indexering, richtlijnen staan indexering toe.
Elk record bestaat uit het directory-veld (toestaan, weigeren, host of user-agent), twee-spot en een waarde. Lege spaties zijn niet nodig, maar worden aanbevolen voor een betere leesbaarheid. Je kunt overal in het bestand opmerkingen plaatsen en deze markeren met het #-symbool. “#” is het symbool dat bedoeld is voor commentaar beschrijvingen.

Google bots tellen niet alles wat tussen het #-symbool en de volgende nieuwe regel staat.
– Het algemene formaat is:
:<#commentaar (optioneel)>.
Lege spaties aan het begin en het einde worden genegeerd.

– Letter case voor element maakt niet uit.
– Letter case kan belangrijk zijn voor het element, afhankelijk van het element.

Wat om te verbergen met Robots.txt
Het spreekt voor zich dat je niet wilt dat zoekmachines jouw privé technische pagina, de persoonlijke gegevens van klanten en dubbele inhoud tonen.

Robots.txt-bestanden kunnen worden gebruikt om bepaalde mappen, categorieën en pagina’s uit te sluiten van zoekopdrachten. Gebruik hiervoor de ‘’verboden richtlijn’’. Hier zijn enkele pagina’s die je moet verbergen met behulp van een robots.txt- bestand:

– Pagina’s met dubbele inhoud
– Paginas met paginas
– Zoekpagina’s ter plaatse
– Dynamische product- en dienstenpagina’s
– Accountpagina’s
– Admin pagina’s
– Winkelwagen
– Chats
– Bedankt pagina’s

Hoe Robots.txt te gebruiken
Robots.txt bestanden zijn vrij flexibel en kunnen op vele manieren worden gebruikt. Het belangrijkste voordeel is echter dat SEO-experts meerdere pagina’s tegelijk kunnen “toestaan” of “verbieden” zonder dat ze pagina voor pagina de code van de pagina’s moeten raadplegen.

Typische Robots.txt Fouten
1. De bestandsnaam bevat hoofdletters en kleine letters. De enige mogelijke bestandsnaam is robots.txt, noch Robots.txt of ROBOTS. TXT.
2. Robot.Txt gebruiken in plaats van Robots.txt Nogmaals, het bestand moet robots.txt worden genoemd.
3. Onjuist geformatteerde instructies Bijvoorbeeld: Niet toestaan: Googlebot De enige juiste optie is: User-agent: Googlebot Niet toestaan: /
4. Vermelding van meerdere catalogi in één enkele “Verwerping” van de instructies. Plaats niet alle catalogi die je wilt verbergen in één regel, zoals deze:
Verwerp:/CSS//CGI-bin//afbeeldingen /CSS//CGI-bin//images/ De enige juiste optie is: Niet toestaan: /css/ Niet toestaan: /cgi-bin/ Niet toestaan: /afbeeldingen/
5. Lege lijn in “Gebruikers -Agent” Verkeerde optie: Gebruiker-agent: Niet toestaan: De enige juiste optie is: Gebruiker-agent: * Niet toestaan:
6. Hoofdletters en kleine letters in het bestand gebruiken Dit is verkeerd en wordt behandeld als een slechte stijl: GEBRUIKER-AGENT: GOOGLEBOT NIET TOESTAAN:
7. Spiegel websites & URL in de gastheerrichtlijn Om aan te geven welke website de belangrijkste is en welke de spiegel (replica), gebruiken specialisten 301 redirect voor Google en ‘host’ richtlijn voor Yandex.

Hoewel de links naar http://www.site. com, http://site. com, https://www.site. com en https://site. com identiek lijken voor mensen, behandelen zoekmachines ze als vier verschillende websites. Wees voorzichtig met het vermelden van ‘host’-richtlijnen, zodat zoekmachines je goed begrijpen:

Verkeerd Gebruiker-agent: Googlebot Verbied het niet toe te staan: /cgi-bin Verhuurder: http://www.site. com/ Juiste Gebruiker-agent: Googlebot Verbied het niet toe te staan: /cgi-bin Host: www.site. com Als jouw site https heeft, is de juiste optie

Gebruiker-agent:
Googlebot Verbied het niet toe te staan: /cgi-bin Verhuurder: https://www.site. com 8. Alle bestanden in het telefoonboek opnemen Verkeerd Gebruiker-agent: * Niet toestaan: /AL/Alabama.html Niet toestaan: /AL/AR.html Niet toestaan: /Az/AZ.html Niet toestaan: /Az/bali.html Niet toestaan: /Az/bed-breakfast.html Juiste Verberg gewoon de hele map:

Gebruiker-agent: * Niet toestaan: /AL/ Niet toestaan: /Az/ 9. Afwezigheid van instructies voor het weigeren van toestemming De instructies voor het niet toestaan van de instructies zijn vereist, zodat zoekmachinebots jouw bedoelingen begrijpen. Verkeerd Gebruiker-agent: * Niet toestaan: /AL/Alabama.html Niet toestaan: /AL/AR.html Niet toestaan: /Az/AZ.html Niet toestaan: /Az/bali.html Niet toestaan: /Az/bed-breakfast.html Juiste Verberg gewoon de hele map: Gebruiker-agent: * Niet toestaan: /AL/ Niet toestaan: /Az/ 10. Omleiden 404

Zelfs als je geen robots.txt. bestand voor jouw website gaat maken en invullen, kunnen zoekmachines nog steeds proberen het bestand te bereiken. Overweeg om ten minste een lege robots.txt. te maken om teleurstellende zoekmachines met 404 niet gevonden pagina’s te voorkomen.

Met behulp van aanvullende richtlijnen in het * gedeelte van de richtlijn Als je aanvullende richtlijnen heeft, zoals ‘host’ bijvoorbeeld, moet je aparte secties aanmaken. Verkeerd Gebruiker-agent: * Niet toestaan: /css/ Verhuurder: www.example .com Juiste Gebruiker-agent: * Niet toestaan: /css/ Gebruiker-agent: Googlebot Verbied het niet toe te staan: /css/ Verhuurder: www.example .com