Felsökning – Varför indexeras inte vissa sidor eller dokument?

2014-07-06

Indexering, Installation, Sökning

Om vissa sidor eller dokument inte har indexerats kan du använda denna felsökningsguide för att hitta problemet.

Hur vet man om sidan är indexerad?

Du kan enkelt kontrollera om ett visst dokument indexerats eller inte med en sökning med operatorn url:. Med sökfrågan url:www.abc.se/info/index.html (eller bara url:info/index.html) får du träff på just det dokumentet om det är indexerat. Får du ingen träff är dokumentet inte indexerat.

Du kan även söka efter alla dokument vars URL börjar på en viss teckenföljd. Exempelvis ger sökfrågan url:info/* träff på samtliga dokument vars URL (efter domännamnet) börjar på info/.

Med operatorn link: kan du på motsvarande sätt söka efter alla indexerade dokument som länkar till ett visst (eller vissa) dokument. Om inte ditt gränssnitt tillåter frågor med t.ex. kolon kan du använda Min mallsöksida alternativt URL-inspektören i SiteSeeker Admin.

Om sidan eller dokumentet har indexerats, men du ändå inte får träff på det, läs mer på denna sida: Varför får jag INTE träff på dokument/webbsidor som innehåller ordet jag sökte efter?

Felsökning indexering

Om en webbsida som du vill ska indexeras inte kommer med vid sökning kan det bero på någon eller några av följande anledningar:

  • Maximalt antal indexerade sidor för webbservern eller maximalt länkdjup har överskridits
    Kontrollera om säkerhetsgränsen för maximalt antal indexerade sidor eller maximalt länkdjup har överskridits i rapporten Indexeringsöversikt och ändra om nödvändigt i Inställningar för server» Indexering » Säkerhetsgräns för indexering och Maximalt länkdjup. Sätt säkerhetsgränsen för indexering minst tre gånger så högt som förväntat antal sidor/dokument.
  • Sidan har tillkommit eller ändrats efter att den senaste sidhämtningen och indexeringen gjordes
    Se tidpunkten för senaste sidhämtningen i rapporten Indexeringsöversikt. Prova att göra en indexering med full sidhämtning i SiteSeeker Start » Starta en indexering om sidan har tillkommit nyligen. Du kan alltid göra en indexering när något på webbplatsen ändrats och du vill att det ska komma med i sökningen direkt.
  • Sidan finns på en server som ej indexeras av SiteSeeker
    Kontrollera att den server som sidan finns på finns angiven i listan på servrar i SiteSeeker Admin. Notera att www.foretag.se och avdelning.foretag.se betraktas som två olika servar, även om webbplatserna rent fysiskt finns på samma server.
  • Det finns bara JavaScript-länkar till sidan
    JavaScript-länkar kan normalt inte följas av SiteSeeker och inte av globala sökmotorer heller. Sådana länkar kan därför vara ett problem som försämrar webbplatsens exponeringsmöjligheter och användbarhet utöver att sidorna inte indexeras av SiteSeeker. Se en utförligare beskrivning av problemet med JavaScript-länkar och hur du avhjälper problemet.
  • Sidan länkas till endast från sidor som har metataggen <META name="ROBOTS" content="NOFOLLOW">
    En sådan tagg i ett länkande dokument förbjuder SiteSeeker att följa länkarna i det, se beskrivning av robots-metataggarna. Om du vill att sidan ska indexeras kan du antingen ta bort metataggen i det länkande dokumentet eller göra en länk till sidan i en annan sida som inte har en sådan metatagg.
  • Det finns ingen länk till sidan på någon av de indexerade sidorna
    Om det inte ska finnas någon länk till sidan, men sidan ändå bör indexeras kan du ange sidan som en Startpunkt i Indexering » Servrar. Det är dock ovanligt att en sida saknar länkar till sig, eftersom besökare normalt hittar sidor genom att följa länkar på webbplatsen, precis som SiteSeeker gör.
  • Sidan är förbjuden att indexera enligt webbserverns robots.txt
    Se vilka sidor som inte får hämtas enligt filen robots.txt under Indexeringspremisser i SiteSeeker Start » Indexeringskontroll. Om du inte har möjlighet att ändra i robots.txt kan du flytta eller kopiera sidan till en katalog som inte är förbjuden. Det finns också möjlighet att i yttersta nödfall låta SiteSeeker ignorera robots.txt-filen i serverinställningarna i SIteSeeker Admin.
  • Sidan har metataggen <META name="ROBOTS" content="NOINDEX">
    Denna tagg instruerar alla sökmotorer inklusive SiteSeeker att inte indexera sidan, se beskrivning av robots-metataggarna. Kontrollera om sidan förekommer i rapporten Ej indexerade sidor. Om sidan ska indexeras kan du ta bort metataggen eller göra en kopia av sidan utan metatagg och göra en länk till kopian.
  • Sidan får inte indexeras enligt inställningarna för den webbservern i Admin
    Se rapporten Indexeringsöversikt och ändra om nödvändigt Undantagna kataloger i Indexering » Servrar. Om övriga sidor i den undantagna katalogen inte ska indexeras kan du flytta sidan till en ej undantagen katalog och sedan göra en indexering.
  • Länkar i webbsidor får ej följas enligt inställningar för dokumenttyper för webbservern i Admin
    Se rapporten Indexeringspremisser och kontrollera att webbsidor finns med efter Följ HTTP-länkar i dokument av typ. Om inte, ändra inställningen för dokumenttyper för webbservern i SiteSeeker Admin, så att länkar följs.
  • Sidan är en duplikatsida
    Kontrollera om sidan finns med i rapporten Duplikat i Statistik/Status » Indexering. Om duplikatklassificeringen inte verkar korrekt kan det bero på att HTML-koden är felaktig i sidorna, se punkten Sidan har felaktig HTML-kod nedan. Om sidan klassificeras som duplikat trots korrekt HTML-kod kan det bero på att sidan har precis samma textinnehåll som en annan sida, men har olika bilder eller JavaScript. Då kan du ändra någon del av texten för att göra sidan unik och sedan göra en indexering.
  • Sidan är av ett format som inte indexeras
    Se vilka dokumentformat som indexeras för webbservern i rapporten Indexeringsöversikt. Ändra om nödvändigt tillåtna format i Indexering » Servrar. Om sidan är av ett format som inte indexeras, men du har möjlighet att spara det i ett format som indexeras, så går det naturligtvis bra.
  • Konverteringen från annat format än HTML misslyckades
    Kontrollera om sidan finns med i rapporten Ej indexerade sidor i Statistik/Status » Statistik indexering. Vissa PDF-filer är lösenordsskyddade och får ej konverteras. Om dokumentet är skapat med ett okänt verktyg eller med en tidig version av ett verktyg, kan du prova att spara om dokumentet med ett verktyg som du vet ger konverterbara dokument.
  • Sidan har felaktig HTML-kod
    Om sidan har felaktig HTML-kod kan innehållet i sidan ibland inte tolkas av SiteSeeker trots att det går att läsa i din webbläsare (men kanske inte i alla webbläsare). Du kan kontrollera om sidan har korrekt HTML-kod med W3C:s HTML-validerare. Vanliga fel är att både </HEAD>och <BODY>-taggarna saknas eller att det fattas en " runt en textsträng. Ett annat exempel på felaktig HTML-kod som vissa webbläsare tillåter, men inte SiteSeeker, är otillåtna strängar i JavaScript, i synnerhet strängar som innehåller </script>.
  • Sidorna som länkar till sidan har felaktig HTML-kod
    Om de länkande sidorna har felaktig HTML-kod kan SiteSeeker inte alltid hitta länkarna även om de fungerar i din webbläsare (men kanske inte i alla webbläsare). Du kan kontrollera om den länkande sidan har korrekt HTML-kod med W3C:s HTML-validerare.
  • Webbservern vill inte skicka sidan med rätt innehåll eftersom den tror att SiteSeeker inte kan läsa HTML
    I detta fall brukar inga sidor alls indexeras. Om det går att rätta detta fel, kan du prova att låta SiteSeeker presentera sig som en webbläsare när sidorna ska hämtas, se rapporten Indexeringsöversikt under Admin Start » Indexering och ändra om nödvändigt HTTP-agent för webbservern i Indexering » Servrar » Hämtningsinställningar. Detta är dock inte en bra lösning, eftersom det försvårar filtrering av sökmotorns sidfrågningar i din webbserverlogg och besöksstatistiken kan bli missvisande.
  • Webbservern omdirigerar startsidan till en annan webbsida
    I detta fall brukar inga sidor alls indexeras. Prova att ange den sida som webbläsaren omdirigeras till när du besöker webbserverns startsida som en Startpunkt i Indexering » Servrar. Exempel: om du går till www.server.se/ och webbläsaren automatiskt visar sidan www.server.se/sv/start.html kan du ange sv/start.html som Startpunkt.

Fungerar inte länkarna i indexeringsrapporterna?

I SiteSeekers indexeringsrapporter förekommer ofta länkar till sökningar som illustrerar olika aspekter av det indexerade materialet och eventuella detekterade problem. Som standard går dessa länkar till det mallbaserade sökgränssnittet. Om detta gränssnitt inte fungerar (om du t.ex. använder behörighetskontroll), kan du i SiteSeeker Admin ange vilken URL som ska användas för söklänkarna i rapporterna. Inställningen finns på sidan Söksidor » Alla söksidor: Sökning.