Begränsning av indexering
2012-07-17SiteSeeker indexerar normalt alla webbsidor och dokument på en webbplats, med start från webbplatsens startsida. Om det på webbplatsen finns länkar till objekt som inte ska indexeras kan dessa exkluderas – här visar vi hur.
I detta dokument kommer vi i detalj att beskriva hur du kan undanta sidor som inte bör indexeras samt hur du undantar sidor som inte skall indexeras men där länkar behöver följas.
- Robots.txt & robots-metataggar
- Inställningar för begränsning i SiteSeeker Admin
Inställningar för begränsning av indexering i SiteSeeker Admin används då:
- Du inte har möjlighet att enkelt ange robots-metataggar eller ändra i robots.txt
- Du har flera SiteSeeker-klienter som indexerar olika delar av en och samma webbplats och du inte vill använda robots-metataggar eller robots.txt eftersom det skulle påverka de andra klienterna
- Uttrycksfullheten i robots.txt inte möjliggör den avgränsning du vill göra
- Du endast vill påverka hur SiteSeeker indexerar sajten, men ej hur globala sökmotorer indexerar
Belastningen på webbservern blir mindre med detta sätt jämfört med att ange robots-metataggar i de oönskade dokumenten, eftersom sidorna i det senare fallet måste hämtas för att SiteSeeker ska kunna läsa metataggen.
Observeraatt dessa inställningar inte påverkar globala sökmotorer och därmed bör kompletteras med en robots.txt-fil för att exempelvis undanta söksidan från indexering.
Inställningarna för begränsning av indexering hittas under Server -> Avancerade inställningar -> Begränsning av indexering i SiteSeekers administrationsgränssnitt.
Undantag sökvägar
Här anger du sökvägar eller delar av URL:er till sidor på webbplatsen som inte ska hämtas eller indexeras. Om du exempelvis undantar bilder/*
så kommer inga objekt i mappen bilder att hämtas, och om du undantarbilder/b*
så kommer inga objekt i katalogen bilder som börjar på b att hämtas.
De angivna sökvägarna räknas från webbserverns rotkatalog. Om du vill undanta alla sidor som ligger i en katalog som heter old, oavsett var i katalogstrukturen den ligger, kan du ange */old/*
som undantagen sökväg.
Exempel: På webbplatser finns webbsidor ofta i särskilda versioner som är anpassade för utskrift. Normalt vill man inte att dessa utskriftsversioner av webbsidorna ska vara sökbara.
Lösning: Vi tänker oss att URL:erna till de utskriftsanpassade sidorna ser ut som något av exemplen nedan:
http://www.foretag.se/avd/print.asp?id=10088 http://www.foretag.se/avd/index.asp?id=10088&printMode=yes.
Genom att lägga till uttrycket*printMode=*
i fältet Undantag sökvägar ser du till att SiteSeeker helt bortser från dessa sidor.
Inställningar i SiteSeeker Admin för att undanta sökvägar
För att säkerställa att de globala sökmotorerna inte indexerar utskriftsversionerna behöver du använda robots.txt-filen eller robotsmetataggar.
Undantag sökvägar men följ länkar
Sidor som inte ska vara sökbara, men där SiteSeeker behöver kunna följa länkar, specificeras i detta avsnitt. Det kan typiskt vara fallet med webbserverns startsida. Denna inställning motsvarar metataggen <META name="ROBOTS" content="NOINDEX">
, men med skillnaden att globala sökmotorer fortfarande kan indexera sidan. Detta är önskvärt då webbserverns startsida bör indexeras av de globala sökmotorerna.
Exempel: Sidor som innnehåller listor, som A-Ö-sidor, FAQ-listor eller nyhetslistningar, bör hämtas av SiteSeeker men inte visas i träfflistan. Man vill istället endast visa de underliggande sidorna som användaren länkas till från listningssidan.
A-Ö sidan kan undantas från indexering
Lösning: Specificera sökvägen till din listningssida i fältet "Undantag sökvägar, men följ länkar".
Inställningar i SiteSeeker Admin för att undanta sökvägar, men följa länkar
För att säkerställa att globala sökmotorer inte indexerar listningssidan behöver du använda robots.txt-filen eller robotsmetataggar.
Undanta vissa dokumenttyper från indexering
Inställningarna för dokumenttyper hittas under Server -> Avancerade inställningar -> Dokumenttyper i SiteSeekers administrationsgränssnitt.
SiteSeeker indexerar i sin standardinställning webbsidor, textdokument, PDF- och RTF-dokument samt Microsoft Office dokument. Bilder indexeras inte och länkar följs endast från webbsidor. Dessa inställningar kan ändras i SiteSeeker Admin.
Specificera metaattribut som krävs för indexering
Inställningarna för metaattribut hittas under Server -> Avancerade inställningar -> Metainformation i SiteSeekers administrationsgränssnitt.
Metaattribut som krävs för att sidan skall indexeras kan specificeras i SiteSeeker Admin. Dessa attribut kan användas om du bara vill indexera vissa sidor på en webbplats. Notera dock att icke-HTML-dokument och bilder indexeras även om de saknar detta metaattribut i de fall då det finns länkar till dem från HTML-sidor med attributet.
Vi rekommenderar dock att att denna metod för selektiv indexering av effektivitetsskäl kompletteras med någon av de tidigare nämnda metoderna då alla webbplatsens sidor annars kommer att undersökas vid varje indexering.
Inställningar i SiteSeeker Admin för metataggar som krävs för indexering
Indexera endast vissa sidor eller kataloger
Du kan enkelt se till att endast utvalda delar av webbplats indexeras genom en kombination av inställningar i SiteSeeker Admin för motsvarande server.
Exempel: På webbplatsen exempel.siteseeker.se finns de enda sidor som ska indexeras i katalogen nytt/
. Förstasidan bland dessa sidor är nytt/index.html
.
Lösning 1: Indexera endast sidorna som finns i nytt/
och som länkas till från sidor i nytt/
:
Ange * under Begränsning av indexering » Undantag sidor och kataloger
Ange nytt/*
under Begränsning av indexering » Tillåt sidor och kataloger
Ange nytt/index.html
under Startpunkter
Kryssa inte för Hämta webbplatsrot under Startpunkter
Lösning 2: Indexera endast sidorna som finns i nytt/ och som länkas till från alla sidor på webbplatsen:
Ange * under Begränsning av indexering » Undantag sidor och kataloger, men följ länkar
Ange nytt/*
under Begränsning av indexering » Tillåt sidor och kataloger
Ange nytt/index.html
under Startpunkter
Kryssa för Hämta webbplatsrot under Startpunkter
Lösning 1 är ekonomisk eftersom SiteSeeker bara kommer att undersöka sidor som ska indexeras. Med Lösning 2 är du säker på att SiteSeeker hittar alla sidor som finns i nytt
, även dem som endast har länkar till sig från sidor som inte finns i nytt
. Om webbplatsen är stor och nytt
bara omfattar en liten del, kommer dock många webbsidor som inte indexeras att ändå hämtas och undersökas av SiteSeeker, vilket innebär ökat bandbreddsnyttjande och större last på servern vid indexering och långsammare indexeringar.
Om webbplatsen inte har någon katalogstruktur
Om webbplatsen inte har någon katalogstruktur kan du göra på motsvarande sätt genom att ange önskade startpunkter och begränsa länkdjupet under Begränsning av indexering.
Om du kan identifiera delsträngar av URL:er som du vill ska indexeras respektive inte indexeras, kan du ange dessa med omgivande * under motsvarande fält i Begränsning av indexering. Om en URL matchar både ett uttryck under undantagna och ett uttryck under tillåtna kataloger, så "vinner" fältet med det längsta matchande uttrycket.