Hur fungerar SiteSeekers duplikatkontroll?

2011-06-22

Kunskapsdatabasen, Indexering

För att undvika flera likadana träffar i träfflistan kontrollerar SiteSeeker automatiskt om något par av webbsidor har samma innehåll, och sparar i så fall bara den ena av sidorna.

På en webbplats finns ofta många "duplikatsidor". Duplikatsidor uppstår när en och samma webbsida eller dokument kan nås från två eller fler olika URL:er. SiteSeeker kontrollerar automatiskt om något par av webbsidor har samma innehåll, och indexerar i dessa fall bara den ena av sidorna. På så sätt slipper användarna se flera likadana träffar i träfflistan.

Duplikatkontrollens jämförelser görs på själva textinnehållet i sidorna; metainformation och layout beaktas inte. Det innebär att många fler verkliga duplikat hittas, jämfört med vad som hittas med enklare metoder.

Det kan dock hända att två webbsidor har samma text, men ser olika ut ändå, tack vare JavaScript, bilder eller dylikt i sidorna. Om så är fallet med sidor på er webbplats och du vill att SiteSeeker ska indexera båda sidorna kan du ändra texten i en av sidorna. Efter nästa indexering kommer sedan båda sidorna att vara indexerade.

I rapporten Duplikat i SiteSeeker Admin hittar du en lista på alla sidor SiteSeeker klassificerat som duplikat.

Den vanligaste anledningen till att det förekommer duplikat på en webbplats är då en URL till en och samma webbsida kan formuleras på flera olika sätt. Exempelvis kan man förmoda att URL:erna www.foretag.se/index.asp?pid=4711&mid=3 och www.foretag.se/index.asp?mid=3&pid=4711 refererar till samma webbsida.

När duplikat detekteras använder SiteSeeker den kortaste URL:en, och om det finns fler som är lika korta, den första URL:en i alfabetisk ordning. Om duplikaten har olika kategorier kommer den sida som visas i sökningen att tilldelas samtliga dessa kategorier.

Duplikatkontrollen görs som standard, men kan stängas i inställningarna för varje server i Admin.

Undvik många duplikat

Ett rimligt krav på ett publiceringsverktyg är att det inte ska orsaka duplikat – det är viktigt ur tillgänglighetssynpunkt och för rankningen hos globala sökmotorer att en och samma webbsida eller dokument endast har en URL.

Duplikatkontrollen kan filtrera bort hur många duplikat som helst, men om de är väldigt många kan sidhämtningen ta onödigt lång tid. Därför finns flera sätt att låta SiteSeeker bortse från eller manipulera URL:er före sidhämtningen. För fallet ovan kan du sannolikt och med fördel ställa in att argumenten i URL:en ska sorteras. Du kan även se till att argument tas bort helt och hållet, exempelvis sortmode= för att bortse från varianter av webbsidor då det räcker att en variant undersöks.

Ibland beror duplikat på symboliska länkar i filsystemet som avspeglar sig i att väldigt många webbsidor finns i två utgåvor med två olika URL:er. Om samma katalog har två eller flera sökvägar, kan det därför vara bra att ta bort alla utom en. På så sätt reducerar du antalet HTTP-förfrågningar som SiteSeeker och andra sökmotorer gör hos din webbserver, vilket minskar bandbreddsåtgången.

Länkar i sidor som klassificerats som duplikat

Som standard följer SiteSeeker länkar i sidor som klassificerats som duplikat. Anledningen till detta är att bland sidor som klassificeras som duplikat förekommer ofta listningssidor som ser likadana ut, men som har olika länkar.

Av effektivitetsskäl eller andra skäl, kan man vilja att länkar från duplikatsidor inte ska följas. I sådana fall går det att låta SiteSeeker bortse från länkar i duplikatsidor. Inställningen görs individuellt per indexerad server och finns under Redigera server, Indexering, Duplikat.

Felsökning

Två sidor med till synes samma innehåll indexeras

  1. Kolla att duplikatkontrollen är aktiv: inställningen för duplikat i serverinställningarna i Admin ska vara "identifiera och exkludera".
  2. Kolla att verkligen all text i sidorna är lika; brödsmulor och tidsangivelser kan skilja. Jämför HTML-koden i de två sidorna med något lämpligt program som identifierar skillnader.
  3. Kolla att det inte finns dold text i sidorna som skiljer, exempelvis identifierare, utskriftsinformation eller text avsedd för andra verktyg än den webbläsare du använder.

Om du upptäcker att det finns text som skiljer sig i två sidorna, men som inte borde inverka vid duplikatkontrollen, använd markörer för navigation eller brödsmulor.

Två sidor med olika innehåll klassas som duplikat

Kontrollera med specialsökfrågan url:URL:en-till-sidan-som-indexeras OR navigation:identified vilka ord i sidan som indexerats (sidan som indexeras är den vänstra i rapporten Duplikatkontroll). Ord som indexeras och som ligger till grund för duplikatkontrollen markeras med gul/lila bakgrundsfärg. Ord som inte indexeras och som duplikatkontrollen inte beaktar har grön/blå eller röd/orange bakgrundsfärg. Om inte tillräckligt med unik text indexeras (gul/lila) är det sannolikt skälet till att sidorna klassats som duplikat. Observera att text för "särskilt textutdrag" som är inom <!--eri-desc-->-markörer och som markeras med grön/blå bakgrund inte beaktas av duplikatkontrollen.