Begränsning av indexering

2012-07-17

Indexering

SiteSeeker indexerar normalt alla webbsidor och dokument på en webbplats, med start från webbplatsens startsida. Om det på webbplatsen finns länkar till objekt som inte ska indexeras kan dessa exkluderas – här visar vi hur.

I detta dokument kommer vi i detalj att beskriva hur du kan undanta sidor som inte bör indexeras samt hur du undantar sidor som inte skall indexeras men där länkar behöver följas.

Begränsning med hjälp av robots.txt-fil och robots-metataggar används då:

  • Inställningen skall vara generell och gälla både för SiteSeeker och för globala sökmotorer, t.ex Google.

För att exkludera webbsidor och dokument från sidhämtning (crawlning) kan du använda en robots.txt-fil placerad i webbplatsens rotmapp. Utöver detta kan du använda robots-metataggar för att begränsa indexering och i vissa fall sidhämtning.

Instruktioner i en robots.txt-fil kan gälla alla eller endast specifika sökmotorer.

En robots.txt-fil är lämpligare än robots-metaelement om många sidor ska undantas från indexering, då en robots.txt-fil begränsar sidhämtningen som annars kan ta lång tid. För att läsa robots-metataggar måste SiteSeeker först hämta sidan för att sedan kunna undersöka robots-metataggen.

Undantag söksidan från indexering genom att använda robots.txt

Exempel: Webbplatsen innehåller tre söksidor som ej bör indexeras, varken av SiteSeeker eller av globala sökmotorer, för att undvika att statistiken blir korrupt. Se Statistikunderlag för mer information om hur listningssidor och sökmotorer kan påverka sökstatistiken.

Lösning: Skapa, alternativt uppdatera, robots.txt-filen i webbserverns rotkatalog och undanta söksidorna från indexering av alla user-agents. Observera att URL:en är skiftlägeskänslig.

User-agent: *
Disallow: /sv/Sok/
Disallow: /en/Search2/
Disallow: /sv/Meny/bokhandeln/Publikationssok/

Robots-metataggar

Du kan i varje enskilt HTML-dokument styra huruvida dokumentet ska indexeras eller inte, och om länkar i det ska följas eller inte. Det gör du genom att i dokumentets <HEAD>-avsnitt lägga till någon av följande taggar:

<META name="ROBOTS" content="NOINDEX"> Indexera inte sidan, men följ länkar
<META name="ROBOTS" content="NOFOLLOW"> Indexera sidan, men följ inte länkar
<META name="ROBOTS" content="NOINDEX,NOFOLLOW"> Indexera inte sidan och följ inte länkar

Metataggen <META name="ROBOTS" content="NOINDEX"> lämpar sig väl för dokument med bara länkar och inget egentligt innehåll, t.ex. navigationssidor eller länksidor. <META name="ROBOTS" content="NOINDEX,NOFOLLOW"> är lämplig för söksidor, komplettera med robots.txt för att undvika missvisande sökstatistik och onödig belastning av servrar.

Alla sökmotorer, inklusive SiteSeeker, tar hänsyn till robots-metataggarna. Läs gärna mer om robots-metataggen.