Robots.txt

2

Publicerad 27 maj 2009, 16:05 av Tommy Skålberg

Filen robots.txt används för att ge instruktioner till sökrobotar som besöker en webbplats. Detta kallas för The Robots Exclusion Protocol.

När en sökrobot besöker en webbsida letar de efter filen robots.txt, om den finns kontrollerar de vilka instruktioner som filen innehåller.

Instruktioner i robots.txt:

  • User-agent
  • Disallow
  • Allow
  • Sitemap

User-agent

User-agent talar om för ‘vem’, som dessa regler gäller. Man kan specificera vissa regler för vissa typer av robotar genom att ange deras namn, alternativt ange en asterisk (*) som talar om att reglerna gäller för samtliga robotar.

Exempel:

User-agent: *
User-agent: en-speciell-robot

Disallow

Instruktionen Disallow används för att instruera sökrobotarna om vilka delar på webbplatsen som man ej vill skall genomsökas / indexeras.

Exempel:

Disallow: /en-privat-sektion/

Man skall även komma ihåg att robotar inte måste tillämpa dessa regler, det är endast riktlinjer. Innehållet kan fortfarande hittas av skadliga robotar som letar efter exempelvis e-postadresser eller brister i säkerheten. Disallow kommer alltså inte att dölja delar av webbplatsen.

Allow

Allow är standard och kan användas för att vara extra tydlig när man vill indexera vissa delar av webbplatsen.

Exempel:

Allow: /senaste-nytt/

Sitemap

I robots.txt finns även en instruktion som heter sitemap, den visar sökvägen till en webbplats xml-sitemap (webbplatskarta för sökrobotar).

Exempel:

Sitemap: http://www.mediaanalys-newsroom.se/sitemap.xml

Placering av robots.txt

Filen robots.txt skall placeras direkt i roten på webbservern, så att den kan nås via http://www.mediaanalys-newsroom.se/robots.txt.

Det är även mycket viktigt att filnamnet står i gemener för att säkerställa att samtliga robotar kan hitta och läsa från filen.

‘Utför ditt arbete helhjärtat och du kommer att lyckas – det är så liten konkurrens.

Gilla
Gilla Älska Haha! Wow! Sad Angry

Mer Viva i din inkorg!

Vivas integritetspolicy