Varför kan man ibland vilja censurera argument i URL:er?
2011-06-22Om webbsidornas argumenten inte har någon inverkan på sidans innehåll, t. ex. tidsstämplar och sessionsvariabler, kan man låta SiteSeeker rensa bort dessa.
Webbsidor som skapas dynamiskt från en databas har ofta URL:er som innehåller argument av olika slag. Bland argumenten finns säkert sidans ID-nummer, men det förekommer ofta också sessionsvariabler, tidsstämplar och liknande som inte har någon inverkan på sidans innehåll. I de senare fallet kan det vara bra att låta SiteSeeker ta bort dessa argument av flera skäl:
- Det blir ofta effektivare indexeringar, eftersom "nya" webbsidor (med andra sessionsvariabelvärden) inte behöver hämtas varje gång
- Det kan bli mycket färre duplikat som måste hanteras och därmed också effektivare indexering
- Det blir kortare och snyggare URL:er i träfflistan
Det är en väsentlig skillnad mellan att ange uttryck för URL:er som inte ska indexeras och att ange argument som ska censureras. Om du t.ex upptäcker i duplikatrapporten att många URL:er på formen www.x.se/page.asp?ID=765&sessionID=874213587
uppträder, men där bara sessionID-värdet skiljer, är det förmodligen rätt att angesessionID
som ett argument som ska censureras. Då kommer endast en variant av dessa webbsidor att undersökas, i detta fall www.x.se/page.asp?ID=765
. Du bör först kontrollera i webbläsaren att argumentet kan tas bort utan att webbsidan förstörs.
Om du istället skulle ange *sessionID*
som ett URL-matchningsuttryck för att undanta dessa webbsidor, är det stor risk att inga webbsidor alls undersöks och indexeras. Detta eftersom alla länkar med URL:er som innehåller sessionID
då helt ignoreras av SiteSeeker, och att det förmodligen inte finns länkar till alla eller ens någon av sidorna utan sessionID-variabel i URL:en.
Exempel: Du har ställt in att argument ska sorteras, att argumentet mode
ska tas bort och att argument utan värden ska tas bort. Det innebär att samtliga URL:er nedan kommer att omvandlas till www.site.se/index.asp?id=317&pid=7788
före det att URL:er hämtas av SiteSeeker från webbservern:
- www.site.se/index.asp?pid=7788&id=317
- www.site.se/index.asp?pid=7788&mode=show&id=317
- www.site.se/index.asp?pid=7788§ion=&mode=show&id=317
- www.site.se/index.asp?id=317pid=7788§ion=