Begränsning av indexering

2012-07-17

Indexering

SiteSeeker indexerar normalt alla webbsidor och dokument på en webbplats, med start från webbplatsens startsida. Om det på webbplatsen finns länkar till objekt som inte ska indexeras kan dessa exkluderas – här visar vi hur.

I detta dokument kommer vi i detalj att beskriva hur du kan undanta sidor som inte bör indexeras samt hur du undantar sidor som inte skall indexeras men där länkar behöver följas.

Inställningar för begränsning av indexering i SiteSeeker Admin används då:

  • Du inte har möjlighet att enkelt ange robots-metataggar eller ändra i robots.txt
  • Du har flera SiteSeeker-klienter som indexerar olika delar av en och samma webbplats och du inte vill använda robots-metataggar eller robots.txt eftersom det skulle påverka de andra klienterna
  • Uttrycksfullheten i robots.txt inte möjliggör den avgränsning du vill göra
  • Du endast vill påverka hur SiteSeeker indexerar sajten, men ej hur globala sökmotorer indexerar

Belastningen på webbservern blir mindre med detta sätt jämfört med att ange robots-metataggar i de oönskade dokumenten, eftersom sidorna i det senare fallet måste hämtas för att SiteSeeker ska kunna läsa metataggen.

Observeraatt dessa inställningar inte påverkar globala sökmotorer och därmed bör kompletteras med en robots.txt-fil för att exempelvis undanta söksidan från indexering.

Inställningarna för begränsning av indexering hittas under Server -> Avancerade inställningar -> Begränsning av indexering i SiteSeekers administrationsgränssnitt.

Undantag sökvägar

Här anger du sökvägar eller delar av URL:er till sidor på webbplatsen som inte ska hämtas eller indexeras. Om du exempelvis undantar bilder/* så kommer inga objekt i mappen bilder att hämtas, och om du undantarbilder/b* så kommer inga objekt i katalogen bilder som börjar på b att hämtas.

De angivna sökvägarna räknas från webbserverns rotkatalog. Om du vill undanta alla sidor som ligger i en katalog som heter old, oavsett var i katalogstrukturen den ligger, kan du ange */old/* som undantagen sökväg.

Exempel: På webbplatser finns webbsidor ofta i särskilda versioner som är anpassade för utskrift. Normalt vill man inte att dessa utskriftsversioner av webbsidorna ska vara sökbara.

Lösning: Vi tänker oss att URL:erna till de utskriftsanpassade sidorna ser ut som något av exemplen nedan:

http://www.foretag.se/avd/print.asp?id=10088
http://www.foretag.se/avd/index.asp?id=10088&printMode=yes.

Genom att lägga till uttrycket*printMode=* i fältet Undantag sökvägar ser du till att SiteSeeker helt bortser från dessa sidor.

undantag sökvägarInställningar i SiteSeeker Admin för att undanta sökvägar

För att säkerställa att de globala sökmotorerna inte indexerar utskriftsversionerna behöver du använda robots.txt-filen eller robotsmetataggar.

Undantag sökvägar men följ länkar

Sidor som inte ska vara sökbara, men där SiteSeeker behöver kunna följa länkar, specificeras i detta avsnitt. Det kan typiskt vara fallet med webbserverns startsida. Denna inställning motsvarar metataggen <META name="ROBOTS" content="NOINDEX">, men med skillnaden att globala sökmotorer fortfarande kan indexera sidan. Detta är önskvärt då webbserverns startsida bör indexeras av de globala sökmotorerna.

Exempel: Sidor som innnehåller listor, som A-Ö-sidor, FAQ-listor eller nyhetslistningar, bör hämtas av SiteSeeker men inte visas i träfflistan. Man vill istället endast visa de underliggande sidorna som användaren länkas till från listningssidan.

A-Ö sidan kan undantas från indexering

Lösning: Specificera sökvägen till din listningssida i fältet "Undantag sökvägar, men följ länkar".

undantag men följ länkarInställningar i SiteSeeker Admin för att undanta sökvägar, men följa länkar

För att säkerställa att globala sökmotorer inte indexerar listningssidan behöver du använda robots.txt-filen eller robotsmetataggar.

Undanta vissa dokumenttyper från indexering

Inställningarna för dokumenttyper hittas under Server -> Avancerade inställningar -> Dokumenttyper i SiteSeekers administrationsgränssnitt.

SiteSeeker indexerar i sin standardinställning webbsidor, textdokument, PDF- och RTF-dokument samt Microsoft Office dokument. Bilder indexeras inte och länkar följs endast från webbsidor. Dessa inställningar kan ändras i SiteSeeker Admin.

Specificera metaattribut som krävs för indexering

Inställningarna för metaattribut hittas under Server -> Avancerade inställningar -> Metainformation i SiteSeekers administrationsgränssnitt.

Metaattribut som krävs för att sidan skall indexeras kan specificeras i SiteSeeker Admin. Dessa attribut kan användas om du bara vill indexera vissa sidor på en webbplats. Notera dock att icke-HTML-dokument och bilder indexeras även om de saknar detta metaattribut i de fall då det finns länkar till dem från HTML-sidor med attributet.

Vi rekommenderar dock att att denna metod för selektiv indexering av effektivitetsskäl kompletteras med någon av de tidigare nämnda metoderna då alla webbplatsens sidor annars kommer att undersökas vid varje indexering.

Krävs för indexeringInställningar i SiteSeeker Admin för metataggar som krävs för indexering

Indexera endast vissa sidor eller kataloger

Du kan enkelt se till att endast utvalda delar av webbplats indexeras genom en kombination av inställningar i SiteSeeker Admin för motsvarande server.

Exempel: På webbplatsen exempel.siteseeker.se finns de enda sidor som ska indexeras i katalogen nytt/. Förstasidan bland dessa sidor är nytt/index.html.

Lösning 1: Indexera endast sidorna som finns i nytt/ och som länkas till från sidor i nytt/:

Ange * under Begränsning av indexering » Undantag sidor och kataloger
Ange nytt/* under Begränsning av indexering » Tillåt sidor och kataloger
Ange nytt/index.html under Startpunkter
Kryssa inte för Hämta webbplatsrot under Startpunkter

Lösning 2: Indexera endast sidorna som finns i nytt/ och som länkas till från alla sidor på webbplatsen:

Ange * under Begränsning av indexering » Undantag sidor och kataloger, men följ länkar
Ange nytt/* under Begränsning av indexering » Tillåt sidor och kataloger
Ange nytt/index.html under Startpunkter
Kryssa för Hämta webbplatsrot under Startpunkter

Lösning 1 är ekonomisk eftersom SiteSeeker bara kommer att undersöka sidor som ska indexeras. Med Lösning 2 är du säker på att SiteSeeker hittar alla sidor som finns i nytt, även dem som endast har länkar till sig från sidor som inte finns i nytt. Om webbplatsen är stor och nytt bara omfattar en liten del, kommer dock många webbsidor som inte indexeras att ändå hämtas och undersökas av SiteSeeker, vilket innebär ökat bandbreddsnyttjande och större last på servern vid indexering och långsammare indexeringar.

Om webbplatsen inte har någon katalogstruktur

Om webbplatsen inte har någon katalogstruktur kan du göra på motsvarande sätt genom att ange önskade startpunkter och begränsa länkdjupet under Begränsning av indexering.

Om du kan identifiera delsträngar av URL:er som du vill ska indexeras respektive inte indexeras, kan du ange dessa med omgivande * under motsvarande fält i Begränsning av indexering. Om en URL matchar både ett uttryck under undantagna och ett uttryck under tillåtna kataloger, så "vinner" fältet med det längsta matchande uttrycket.