Oönskad indexering – kan man lita på robots.txt?
Robots.txt är bekant för de flesta som arbetar med SEO och webbutveckling. Det är en enkel textfil som placeras i webbplatsens root, ex www.domän.se/robots.txt, vilken ger sökmotorerna instruktioner om vilka mappar den har rätt att söka igenom. Där har du också möjlighet att ange var sökmotorn hittar din sitemap.xml för att underlätta indexering av sidor […]
Robots.txt är bekant för de flesta som arbetar med SEO och webbutveckling. Det är en enkel textfil som placeras i webbplatsens root, ex www.domän.se/robots.txt, vilken ger sökmotorerna instruktioner om vilka mappar den har rätt att söka igenom. Där har du också möjlighet att ange var sökmotorn hittar din sitemap.xml för att underlätta indexering av sidor djupare i strukturen. Men det finns saker du bör tänka på när textfilen används.
Ett vanligt misstag är att använda robots.txt som ett enkelt sätt av avindexera samt förhindra att t.ex Google indexerar vissa sidor som man inte vill ska dyka upp i sökresultatet, t.ex kassan, utvecklingsmiljöer, interna sökresultat etc.
Exempel:
User-agent:*
Disallow: /kassan/
Sitemap:https://www.domän.se/sitemap.xml
Detta är inte fel, men det är viktigt att skilja på att ge Google rätt att söka igenom och indexera sidor. För även om Google inte ska söka igenom så kan sidorna indexeras på andra sätt, t.ex om en extern webbplats länkar till den sidan. Det kan leda till att sidor presenteras mot din vilja eller att t.ex utvecklingsmiljöer indexeras och som i sin tur leder till duplicerat innehåll som kan påverka din ranking negativt.
Direktiven i robots.txt är ingen lag, så mindre seriösa sökmotorer och botar kan ignorera, medan Google däremot hävdar sig alltid följa dessa, men:
”Detta innebär inte att sidan inte kan indexeras på annat sätt. Sidan kan fortfarande indexeras om Google hittar annan information om den utan att läsa in den.” – Google
I och med den nya versionen av Google Search Console har varningar börjat skickas ut för sidor som är blockerade i robots men ändå indexerade, de kan hjälpa dig att identifiera dessa problem.
Vill du istället vara säker på att sidor inte indexeras bör du istället använda dig av meta noindex i koden på berörda sidor:
<meta name=”robots” content=”noindex”>
Det är då viktigt att även ta bort blockeringen i robots.txt för att Googles ens ska släppas in och läsa noindex-direktivet.
En annan lösning för t.ex utvecklingsmiljöer är att sätta lösenordsskydd på allt för att hålla nyfikna borta och se till att sökmotorer inte indexerar av misstag.
Text: Max Zetterqvist