Indexera externa system

2013-02-25

Indexering, Lättviktsintegration

Hitta all information i en och samma sökruta! Du vet väl att du kan använda SiteSeeker till att söka på annan information än den som traditionellt finns publicerad på webbplatsen?

Hjälp besökarna hitta information som kanske inte ligger inom ramarna för den "vanliga" webbplatsen t.ex. kontaktkort och information ur externa databaser eller register av olika slag.

För att SiteSeeker ska kunna tillgodogöra sig informationen i externa system behöver den vara nåbar via en webbläsare. Det finns dock några ytterligare krav för indexering:

Krav för indexering

  • Dokumentet måste ha en URL som är unik för dokumentet.
  • Om dokumentet är en del av en webbplats, måste man via vanliga länkar kunna klicka sig fram till dokumentet, dvs:
  • JavaScript får inte användas för visning av eller som enda navigationsväg till dokumentet,
  • formulär får inte användas för visning av eller som enda navigationsväg till dokumentet, och
  • kakfiler (cookies) får inte krävas för visning av dokumentet (men får användas för inloggning).
  • Dokumentet måste vara tillåtet för SiteSeeker att indexera enligt webbserverns robots.txt-fil.
  • Dokumentet måste vara tillåtet för sökmotorer att indexera enligt eventuella robots-metataggar i detsamma.

Indexera databaser och register

För information som finns i databaser eller register går det i många fall att indexera informationen rakt av, om det går att peka ut en URL som innehåller en komplett listning av databasens innehåll. Om dokumenten däremot inte har länkar till sig, utan endast nås genom formulär eller sökfunktioner måste du se till att det finns länkar till dokumenten för att de ska indexeras.

Ett sätt att göra detta är att genom en "uttömmande sökning" i databasen skapa en sida med länkar till alla dokument i databasen. Genom att publicera denna länksida på webbplatsen och antingen länka till sidan från någon indexerad sida eller i SiteSeeker Admin ange länksidan som en startpunkt för webbservern, ser du till att SiteSeeker följer länkarna och indexerar databasdokumenten.

SiteSeeker betraktar alla former av informationsobjekt som "dokument". Databasposter som produkt- och personuppgifter, visitkort eller protokoll kan därför indexeras på samma sätt som ovan genom att de via HTTP(S) presenteras i HTML-format.

SiteSeeker skickar alltså inte in några SQL-frågor direkt till databasen, men med ett mellanliggande abstraktionslager så går det i de allra flesta fall att indexera information som finns i en SQL-databas. Konkret så kan ett sådant abstraktionslager vara t.ex. ett PHP-skript, en ASP.NET-sida, en användarkontroll eller web part i Sharepoint. Ett sådant skript kan t.ex. kopplas mot en LDAP-katalog.

Du kan skapa egna URL-listningar och ange dessa som startpunkter i SiteSeeker Admin enligt nedan:

Skapa egna URL-listningar

När det av olika skäl inte finns länkar till alla webbsidor/objekt som man vill indexera, kan man vilja göra "listningssidor" med URL:er som man ser till att SiteSeeker undersöker. Så här utformar du sådana listningssidor:

  1. Gör enkla "vanliga" HTML-sidor med länkar (<a href="...">) till URL:erna i fråga. Ett tusental länkar i varje sida är lagom; SiteSeeker undersöker högst 50 000 länkar i en sida.
  2. Kontrollera att länksidorna fungerar i en webbläsare; det är praktiskt om länksidorna är möjliga att undersöka manuellt.
  3. Gör en särskild sida med länkar till alla ovanstående listningsssidor.
  4. Ange denna sida som en startpunkt för servern i SiteSeeker Admin.
  5. Ange eventuell startpunkt för nya/ändrade sidor. Om de senast tillkomna/ändrade sidorna kan listas för sig i en av listningssidorna (eller även i en särskild listningssida) är det lämpligt att ange även denna sida som en startpunkt eftersom det möjliggör effektivare indexeringar: SiteSeeker kommer då att hitta alla nya sidor vid indexering även med sidhämtningsläge minimal (utöver med läget full).
  6. Undantag listningssidorna från indexering. Listningssidorna vill man typiskt inte ska komma med i träfflistan vid sökning. Förse dem i sådant fall med metataggen <meta name="ROBOTS" content="NOINDEX, FOLLOW">; alternativt, ange ett lämpligt URL-matchningsuttryck i fältet Undantag sidor, men följ länkar för servern i Admin.

Det går även att lista URL:erna i en sitemap.xml som man antingen lägger in som startpunkt i SiteSeeker admin eller länkar till i robots.txt.

Windowsbaserad filserver

För en Windowsbaserad filserver kan man installera webbservern Internet Information Server (IIS), och peka dess webbrot mot filträdets rotkatalog. Eftersom IIS kan använda NTLM-autentisering, kan man för webbservern använda samma användarnamn och lösenord som vid normal åtkomst till filservern.

Visa ett särskilt avsnitt av webbsidan direkt i träfflistan

Du kan använda särskilda taggar för att lyfta ut ett visst avsnitt ur de indexerade sidorna och visa upp detta direkt i träfflistan. Detta är oftast det snabbaste sättet att t ex visa upp kontaktinformation från en katalog eller strukturerad information från en databaslistning. Infoga eri-desc-taggar kring informationen du vill lyfta fram på de indexerade sidorna, det är samma teknik som används för att visa brödsmulor i träfflistan.

Hur du sedan får ut informationen i träfflistan skiljer sig lite åt beroende på vilket gränssnitt du använder. För SiteSeekers mallsöksida behöver du ange "Visa speciellt textutdrag" i SiteSeeker Admin, medan du i EPiServermodulen behöver visa egenskapenhit.specialText för varje träff.