Hur ser jag till att SiteSeeker använder mitt publiceringsverktygs metainformation för dokument eller bilder?

2013-02-25

Kunskapsdatabasen, Sökning, Lättviktsintegration

SiteSeeker använder metadata (titel, beskrivning, kategori, etc.) i PDF-, Word-, Excel-, PowerPoint- och RTF-dokument. Dessvärre är det inte ovanligt att inbäddad metainformation är bristfällig, ofta är titlarna dåliga. Finns det extern metainformation kan SiteSeeker hämta denna.

Om publiceringsverktyget eller dokumenthanteringssystemet som används externt lagrar metadata om dokumenten kan SiteSeeker hämta denna. Metoden, som kallas hämtning av extern metadata går ut på att SiteSeeker för varje icke-HTML-dokument som indexeras även ställer en begäran om metadata till ett skript (eller motsvarande) som läggs upp på webbservern. Som svar skickar skriptet en HTML-sida med metataggar för de metadata systemet har lagrat för dokumentet.

Exempel

  1. SiteSeeker hämtar dokumentet http://www.server.se/dok/rapport.pdf
  2. SiteSeeker hämtar därefter även URL:en
    http://www.server.se/skript/dokinfo.aspx?fil=dok/rapport.pdf
  3. Ovanstående sida innehåller metataggarna:
    <meta name="Title" content="Kvartalsrapport 2006">

    <meta name="Subject" content="Kvartalsrapport för Bolaget år 2006.">

Skriptet som i exemplet heter dokinfo.aspx och tar argumentet filnamn kan ha ett godtyckligt namn, och likaså är argumentets namn godtyckligt. URL:en till skriptet anges på formen skript/dokinfo.aspx?fil={PATH} i Admin, under Servrar »Servernamn » Metainformation.

Hämta extern metadataHämta extern metadata i SiteSeeker Admin

Sökvägen/URL:en infogas URL-kodad, exempelvis kodas & som %26. Detta följer standarden för kodning av argument, och fungerar helt transparent med de flesta utvecklingsverktyg.

HTML-sidan som skriptet matar ut kan ha metataggar med namn motsvarande de som är angivna för servern i SiteSeeker Admin i inställningarna för metadata. Se vilka namn som gäller i rapporten Indexeringspremisser. Exempelvis kan en bättre titel sättas med <meta name="DC.Title" content="En bättre titel än den i dokumentet">, om namnet på metaattributet för titel är inställt till DC.Title.

Tips