Indexering

Vilka timeouts använder sig Siteseeker av?

När Siteseeker crawlar och indexerar en server används timeouts för att avbryta anrop som tar för långt tid att initiera eller levererar data för långsamt. Detta för att hindra att Siteseeker spenderar för mycket tid på ett anrop som förmodligen inte kommer leverera det tänkta innehållet.

I det här dokumentet samlas de olika typerna av timeouts som används.

Vilka timeouts använder sig Siteseeker av?

När Siteseeker crawlar och indexerar en server används timeouts för att avbryta anrop som tar för långt tid att initiera eller levererar data för långsamt. Detta för att hindra att Siteseeker spenderar för mycket tid på ett anrop som förmodligen inte kommer leverera det tänkta innehållet.

I det här dokumentet samlas de olika typerna av timeouts som används.

Använda webbplatskartor (sitemaps)

SiteSeeker kan hantera webbplatskartor med välkända format som kan väljas genom att använda "robots.txt", konfiguration av startpunkter i SiteSeeker Admin eller filnamn.

Sidor i ramar

När ramar används på en webbplats är det oftast en eller flera ramar med menyval och en ram med själva innehållet. Du kan välja om SiteSeeker vid sökning ska visa de indexerade sidorna med omgivande ramverk eller utan ramverket.

SiteSeekerCrawler

När webbsidor hämtas vid indexering identifierar SiteSeeker sig som User-Agent SiteSeekerCrawler/1.0.

Indexera lösenordsskyddade sidor

SiteSeeker kan indexera lösenordsskyddade webbsidor med hjälp av HTTP-inloggning eller inloggning via formulär.

Censurera argument

Om webbsidornas argumenten inte har någon inverkan på sidans innehåll, t. ex. tidsstämplar och sessionsvariabler, kan man låta SiteSeeker rensa bort dessa.

Indexering av dokument på annan webbplats

Hur indexerar jag de dokument på en annan webbplats som vi länkar till från vår webbplats, men inga andra dokument på den webbplatsen?

Vilka ord i webbsidor och dokument indexeras?

För att ge så bra sökresultat som möjligt indexerar SiteSeeker all relevant text i dokumenten, metainformation och även text som på andra sätt kan associeras med dokumenten. SiteSeeker använder inte stoppordlistor utan indexerar alla ord, även funktionsord som "på" och "i" och även tal och vissa tecken som §, # och %.

Duplikatkontroll

För att undvika flera likadana träffar i träfflistan kontrollerar SiteSeeker automatiskt om något par av webbsidor har samma innehåll, och sparar i så fall bara den ena av sidorna.

Sidhämtningslägen vid manuell indexering

När du manuellt startar en indexering i SiteSeeker Admin kan du välja mellan tre olika sidhämtningslägen: full, minimal och ingen. Här beskrivs i detalj vad som skiljer de olika lägena så att du kan välja det läge som passar bäst.

Hur fungerar filen robots.txt?

Precis som andra sökmotorer undersöker SiteSeeker filen robots.txt om en sådan finns i webbserverns rotkatalog.

Bilder i ImageVault

Med SiteSeeker är det möjligt att söka i metainformation som lagras för bilder och dokument i bildhanteringsverktyget ImageVault från Meridium. Detta bygger på en särskild integration som finns mellan ImageVault och SiteSeeker. Integrationen kräver inte att man installerar någon ytterligare programvara. Integrationen fungerar med ImageVault version 2.2 och senare.

Hur indexeras bilder?

SiteSeeker kan förutom HTML-dokument och vanligt förekommande övriga dokumenttyper också indexera bilder.

Hur kommer jag runt JavaScript-länkar?

Länkar som är inbäddade i JavaScript följs inte alltid av SiteSeeker och de globala sökmotorerna. Har webbplatsen uteslutande JavaScript-länkar kan webbplatsen därför bli osynlig för omvärlden.

Vad krävs för indexering?

Följande krav måste respektive bör vara uppfyllda för att ett dokument ska kunna indexeras av SiteSeeker

Gammal sida i index

Om SiteSeeker har indexerat en gammal version av ett dokument beror det antingen på att SiteSeeker inte indexerat webbservern sedan ändringen av dokumentet eller att webbservern inte vet, eller lyckats informera SiteSeeker, att dokumentet ändrats.

Ta bort cachade sidor

Du behöver normalt aldrig tömma SiteSeekers cache eftersom den uppdateras med automatik vid varje schemalagd indexering.

Notifierad indexering

Det snabbaste och mest effektiva sättet att se till att sökmotorns index uppdateras när innehållet på webbplatsen ändrats kallas notifierad indexering.

Hämta extern metadata

SiteSeeker använder metadata (titel, beskrivning, kategori, etc.) i PDF-, Word-, Excel-, PowerPoint- och RTF-dokument. Dessvärre är det inte ovanligt att inbäddad metainformation är bristfällig, ofta är titlarna dåliga. Finns det extern metainformation kan SiteSeeker hämta denna.