Begränsning av indexering
2011-08-09SiteSeeker indexerar normalt alla webbsidor och dokument som länkas, med start från webbserverns rot. Om det på sajten finns länkar till objekt som inte ska indexeras kan dessa exkluderas, här visar vi hur.
I detta dokument kommer vi i detalj att beskriva hur du kan undanta sidor som inte bör indexeras samt hur du undantar sidor som inte skall indexeras men där länkar behöver följas.
- Robots.txt & robots-metataggar
- Inställningar för begränsning i SiteSeeker Admin
Begränsning med hjälp av robots.txt-fil och robots-metataggar används då:
- Inställningen skall vara generell och gälla både för SiteSeeker och för globala sökmotorer, t.ex Google.
För att styra vilka webbsidor och dokument som skall indexeras kan antingen robots-metataggar användas, begränsningen gäller då för alla sökmotorer, alternativt en robots.txt-fil i webbserverns rotkatalog. Det senare alternativet kan gälla alla eller endast specifika sökmotorer.
Om många webbsidor skall undantas från indexering rekommenderas i första hand en lösning med robots.txt och ej metataggar i och med att den senare lösningen kräver att webbsidorna först hämtas av sökmotorn innan metataggen kan läsas och sidan exkluderas.
Undantag söksidan från indexering i robots.txt
Exempel: Webbplatsen innehåller tre söksidor som ej bör indexeras, varken av SiteSeeker eller av globala sökmotorer, för att undvika att statistiken blir korrupt. Se Statistikunderlag för mer information om hur listningssidor och sökmotorer kan påverka sökstatistiken.
Lösning: Skapa, alternativt uppdatera, robots.txt-filen i webbserverns rotkatalog och undanta söksidorna från indexering av alla user-agents. Observera att URL:en är skiftlägeskänslig.
User-agent: * Disallow: /sv/Sok/ Disallow: /en/Search2/ Disallow: /sv/Meny/bokhandeln/Publikationssok/
Robots-metataggar
Du kan i varje enskilt HTML-dokument styra huruvida dokumentet ska indexeras eller inte, och om länkar i det ska följas eller inte. Det gör du genom att i dokumentets <HEAD>-avsnitt lägga till någon av följande taggar:
<META name="ROBOTS" content="NOINDEX"> Indexera inte sidan, men följ länkar
<META name="ROBOTS" content="NOFOLLOW"> Indexera sidan, men följ inte länkar
<META name="ROBOTS" content="NOINDEX,NOFOLLOW"> Indexera inte sidan och följ inte länkar
Metataggen <META name="ROBOTS" content="NOINDEX"> lämpar sig väl för dokument med bara länkar och inget egentligt innehåll, t.ex. navigationssidor eller länksidor. <META name="ROBOTS" content="NOINDEX,NOFOLLOW"> är lämplig för söksidor, komplettera med robots.txt för att undvika missvisande sökstatistik och onödig belastning av servrar.
Alla sökmotorer, inklusive SiteSeeker, tar hänsyn till robots-metataggarna. Läs gärna mer om robots-metataggen.
