Datumhantering i SiteSeeker

2011-08-09

SiteSeeker Admin, Indexering, Söksidan, EPiServer, Sökning

Detta dokument beskriver de olika sätt du kan indexera datum med SiteSeeker, vilken betydelse de har vid rankning och sortering, och hur du definierar egna datumattribut.

Dokumentet beskriver också hur SiteSeeker i kombination med webbservern kan effektivisera sidhämtningen och optimera resursanvändningen på webbservern.

Så utformar du ett datumattribut

För att SiteSeeker ska kunna registrera ett datumattribut krävs att informationen som ska indexeras är taggad med detta datum. Hur taggningen går till beror på vilken typ av attribut det är, och vilken typ av dokument det handlar om.

Själva datumsträngen måste formateras enligt standarden RFC822, med uppdateringar i RFC1123, exempelvis som följer:

Thu, 09 Mar 2006 17:39:57 GMT

Om du använder SiteVision måste du tillse att datumet inte lokaliseras, dvs. att veckodagarnas namn ej skrivs ut på svenska. Det är också viktigt att tidszonen formateras på det sätt som anges i standarden.

Last-Modified (tekniskt modifieringsdatum), för webbsidor och dokument

Last-Modified kan skickas antingen i HTTP-huvudet eller anges i en metatagg i webbsidan. Om datumet skickas i HTTP-huvudet ska det se ut som följer:

Last-Modified: Thu, 09 Mar 2006 17:39:57 GMT

I ASP.Net kan man t.ex. använda Response.AddHeader("Last-Modified", moddate.ToString("R")), eller i fallet med EPiServer 4.60 och senare, Response.Cache.SetLastModified(moddate), där moddate är ett objekt av typen System.DateTime.

Om Last-Modified ej skickas i HTTP-huvudet (detta kan kontrolleras t.ex. med Firefox-tillägget LiveHTTPHeaders) och inte kan skickas som i exemplet ovan kan det också anges i webbsidan, i en metatagg. Denna funktion aktiveras i SiteSeeker Admin, och där anger du också namnet på metataggen (vanliga namn är "Last-Modified", eller "EPi.Modified" för EPiServer). Metataggen i webbsidan kan då se ut så här:

<meta name="Last-Modified" content="Thu, 09 Mar 2006 17:39:57 GMT" />

För dokument (filer) skickas datumet ofta med automatik i HTTP-huvudet, och datumet är i regel ändringsdatumet som är angivet i det filsystem som dokumentet är sparat i. Om detta datum saknas eller är felaktigt kan man för dokument skicka datumet som extern metadata – metataggen formuleras då på samma sätt som ovan. Oberservera att funktionen måste aktiveras i SiteSeeker Admin också i detta fall.

Notera! Det är mycket viktigt att modifieringsdatumet som anges som Last-Modified verkligen är det datum då sidan senast ändrades. Vissa verktyg uppdaterar inte det vanliga ändringsdatumet om man bara rättar stavfel, men Last-Modified måste uppdateras även då. Uppdateras inte Last-Modified korrekt kan SiteSeeker komma att cache-lagra gamla versioner av sidor och dokument, och ändringar kommer inte att synas i sökmotorn.

Alla typer av inbyggda datum, för webbsidor

I en webbsida kan publiceringsdatum, ändringsdatum och Last-Modified anges i metataggar. Datumen kan inte anges i HTML-kod, dvs. mikroformat kan inte användas. För att datum angivna i webbsidor ska registreras av SiteSeeker krävs att respektive datumfunktion är aktiverad i SiteSeeker Admin, och att namnet för metataggen är angivet.

Exempel:

För att SiteSeeker ska registrera ändringsdatumet för webbsidor, gör så här:

  1. Logga in i SiteSeeker Admin (som administratör)
  2. Klicka på Servrar, och sedan på den server som sidan finns på
  3. Klicka på Metainformation i menyn
  4. I fältet Ändringsdatum, ange "På" och namnet "Modified"
  5. Lägg in en metatagg i webbsidorna som ska indexeras, enligt följande format: <meta name="Modified" content="Thu, 09 Mar 2006 17:39:57 GMT" />
    (Vanligen lägger man inte metataggen i sidmallen eller i ramverksfilen, och hämtar datumet dynamiskt från publiceringsverktyget.)
  6. Spara inställningarna i Admin, aktivera dessa och starta en ny indexering i sidhämtningsläge full.

Alla typer av inbyggda datum, för dokument

Datum för dokument (filer) kan anges som extern metadata. Extern metadata innebär i korthet att sökmotorn för varje påträffat dokument anropar ett skript på webbservern som returnerar metadata för givet dokument. Denna metadata, som alltså kan inkludera datum, formateras på samma sätt som i en webbsida, dvs. som metataggar i ett HTML-dokument. Metataggarna för datum ser då ut på samma sätt som motsvarande metataggar för webbsidor, och har samma namn. Se föregående punkt för mer information.

Typad metadata, för webbsidor och dokument

Vid sidan av ovan beskrivna inbyggda datumattribut kan du också ange godtyckliga egna datumattribut. Dessa har ingen specifik betydelse för SiteSeeker, men kan efter konfiguration användas för sortering och filtrering.

Precis som inbyggda datum anges typad metadata i metataggar i webbsidor, eller i extern metadata för dokument. Formateringen är densamma, skillnaden är att namnen på taggarna anges i fältet Övriga metaattribut och typade metaattribut.

Exempel:

För att kunna filtrera på och sortera efter lanseringsdatum inför man följande metatagg i de indexerade sidorna:

<meta name="Lanseringsdatum" content="2010-01-13" />

Notera att datum kan anges på ovanstående sätt, som ett komplement till formatet som anges i RFC822 (se ovan). Ange därefter följande i fältet Övriga metaattribut och typade metaattribut i SiteSeeker Admin, under Metainformation för aktuell server:

date:Lanseringsdatum

För att filtrera på ett datumintervall kan man sedan ange följande i sökfrågan (för att söka på objekt vars lanseringsdatum var under januari 2010):

meta:lanseringsdatum >= 2010-01-01 meta:lanseringsdatum < 2010-02-01

För att sortera objekten efter lanseringsdatum kan man lägga till en sorteringsoperator i sökfrågan:

meta:lanseringsdatum >= 2010-01-01 meta:lanseringsdatum < 2010-02-01 sort:meta:lanseringsdatum

Det går också att sortera i omvänd ordning:

meta:lanseringsdatum >= 2010-01-01 meta:lanseringsdatum < 2010-02-01 sort:reverse:meta:lanseringsdatum