Varför kan man ibland vilja censurera argument i URL:er?

2011-06-22

Kunskapsdatabasen, Indexering

Om webbsidornas argumenten inte har någon inverkan på sidans innehåll, t. ex. tidsstämplar och sessionsvariabler, kan man låta SiteSeeker rensa bort dessa.

Webbsidor som skapas dynamiskt från en databas har ofta URL:er som innehåller argument av olika slag. Bland argumenten finns säkert sidans ID-nummer, men det förekommer ofta också sessionsvariabler, tidsstämplar och liknande som inte har någon inverkan på sidans innehåll. I de senare fallet kan det vara bra att låta SiteSeeker ta bort dessa argument av flera skäl:

  • Det blir ofta effektivare indexeringar, eftersom "nya" webbsidor (med andra sessionsvariabelvärden) inte behöver hämtas varje gång
  • Det kan bli mycket färre duplikat som måste hanteras och därmed också effektivare indexering
  • Det blir kortare och snyggare URL:er i träfflistan

Det är en väsentlig skillnad mellan att ange uttryck för URL:er som inte ska indexeras och att ange argument som ska censureras. Om du t.ex upptäcker i duplikatrapporten att många URL:er på formen www.x.se/page.asp?ID=765&sessionID=874213587 uppträder, men där bara sessionID-värdet skiljer, är det förmodligen rätt att angesessionID som ett argument som ska censureras. Då kommer endast en variant av dessa webbsidor att undersökas, i detta fall www.x.se/page.asp?ID=765. Du bör först kontrollera i webbläsaren att argumentet kan tas bort utan att webbsidan förstörs.

Om du istället skulle ange *sessionID* som ett URL-matchningsuttryck för att undanta dessa webbsidor, är det stor risk att inga webbsidor alls undersöks och indexeras. Detta eftersom alla länkar med URL:er som innehåller sessionID då helt ignoreras av SiteSeeker, och att det förmodligen inte finns länkar till alla eller ens någon av sidorna utan sessionID-variabel i URL:en.

Exempel: Du har ställt in att argument ska sorteras, att argumentet mode ska tas bort och att argument utan värden ska tas bort. Det innebär att samtliga URL:er nedan kommer att omvandlas till www.site.se/index.asp?id=317&pid=7788 före det att URL:er hämtas av SiteSeeker från webbservern:

  • www.site.se/index.asp?pid=7788&id=317
  • www.site.se/index.asp?pid=7788&mode=show&id=317
  • www.site.se/index.asp?pid=7788§ion=&mode=show&id=317
  • www.site.se/index.asp?id=317pid=7788§ion=