Vilka ord i webbsidor och dokument indexeras?

2011-05-13

Kunskapsdatabasen, Indexering

För att ge så bra sökresultat som möjligt indexerar SiteSeeker all relevant text i dokumenten, metainformation och även text som på andra sätt kan associeras med dokumenten. SiteSeeker använder inte stoppordlistor utan indexerar alla ord, även funktionsord som "på" och "i" och även tal och vissa tecken som §, # och %.

Text som alltid indexeras:

  • Dokumenttitel, dvs. ord inom <TITLE> och </TITLE> (eller via extern metadata)
  • Ord i länktexter från andra dokument som länkar till dokumentet, dvs. text mellan <A HREF="…"> och </A>
  • Alla ord mellan taggar inom <BODY> och </BODY>, utom markerad eller identifierad navigationstext (se nedan)

Text som kan indexeras (ställs in per server i Admin):

  • Beskrivning, dvs. ord i attributet content i taggen <meta name="Description" content="…">
  • Nyckelord, dvs. ord i attributet content i taggen <meta name="Keywords" content="…">
  • Godtycklig metadata enligt inställningarna för servern i Admin
  • Ord i dokumentets URL (måste aktiveras i Admin)

Text som inte indexeras:

  • Text inom <HEAD> och </HEAD> som inte är dokumenttitel eller annan metadata som ska indexeras enligt inställningarna
  • Text som finns mellan de speciella markörerna <!--eri-no-index--> och <!--/eri-no-index--> (länkar följs dock alltid)
  • Text som automatiskt identifierats som navigationstext
  • Text i HTML-kommentarer, dvs. allt mellan <!- och >
  • Text för webbläsare utan framesfunktion, dvs. allt mellan <NOFRAMES> och </NOFRAMES>
  • Text för webbläsare utan script, dvs. allt mellan <NOSCRIPT> och </NOSCRIPT> (länkar följs dock alltid)
  • Interpunktionstecken såsom (!?;-.,), etc, såvida de inte ingår i tal, numeriska uttryck eller underfundiga egennamn.