Hur ser jag till att textutdragen i träfflistan blir perfekta?

2011-05-19

Söksidan

Webbsidor innehåller nästan alltid navigationsavsnitt, menyer och fotnoter med text som inte är representativ för själva innehållet.

Att SiteSeeker ges möjlighet att skilja mellan det viktiga innehållet i webbsidor och navigationestext är en förutsättning för

  • maximalt precisa sökresultat,
  • informativa och relevanta textutdragen i träfflistan, och
  • fungerande duplikatkontroll.

Det finns två olika sätt för SiteSeeker att avgöra vad som är innehåll och vad som är navigation och kringverk på webbsidor: 1. genom automatisk analys av HTML-koden, eller 2. genom särskilda markörer i HTML-koden.

Automatisk navigationsdetektion

HTML-koden i webbsidorna ger nästan alltid för lite information om var det viktiga innehållet i en webbsida börjar och slutar. Att med automatik alltid korrekt avgöra vad som är det egentliga innehållet och vad som är navigation på varje webbsida är därför i de flesta fall mycket svårt. Dock analyserar SiteSeeker HTML-koden och innehållet i webbsidorna och gör en klassificerad gissning. Ofta blir SiteSeekers bedömning rätt, men om man vill försäkra sig om bästa möjliga prestanda rekommenderar vi nedanstående metod.

Markörer för navigationsavsnitt

Eftersom identifiering av navigationsavsnitt är så viktig för kvaliteten på sökningen finns möjlighet att markera för SiteSeeker vilka delar av texten som är navigation och som SiteSeeker ska hoppa över. Med markörerna garanterar du att bara relevanta ord indexeras och du får maximal träffsäkerhet vid sökning och alltid representativa textutdrag i träfflistan.

Denna anpassning kan ofta göras en gång för alla i mallarna för webbsidorna när ett publiceringsverktyg används. Anpassningen går då snabbt att utföra och du behöver inte redigera varje dokument på webbplatsen.

Markörerna utgörs av två speciella kommentarer som anger början och slut på det oönskade avsnittet. Här följer ett exempel där de blå kommentarerna gör så att endast de avsnitt som finns utanför kommentarerna indexeras av SiteSeeker:

Rubrik; inledning; brödtext...
<!--eri-no-index-->
menyval 1, menyval 2, etc
<!--/eri-no-index-->
brödtext...
<!--eri-no-index-->
fotnotstext...
<!--/eri-no-index-->

Observera att länkar som finns inom ett avsnitt med <!--eri-no-index--> följs som vanligt och att länktexterna associeras med de länkade dokumenten. Detta för att SiteSeekers länkstrukturanalys ska kunna bidra till så relevanta träffar som möjligt.

Observera att <!--eri-no-index--> och <!--/eri-no-index--> måste vara placerade i sidans BODY-avsnitt för att fungera. Ingen text från HEAD-avsnittet utom titel visas i textutdragen. Text i metabeskrivningen (Description) kan om önskvärt visas i träfflistan; inställningen finns i SiteSeeker Admin.

Om du i mallar i ditt publiceringsverktyg placerar markörerna runt textdelar som infogas i olika dokument är det bra att veta att det fungerar att nästla <!--eri-no-index-->-avsnitt.

Om en sida går att hitta vid sökning på ett ord som endast förekommer inom ett <!--eri-no-index-->-avsnitt, så kan det bero på att ordet även finns

  • i dold metainformation för dokumentet, t.ex. bland nyckelord eller beskrivning,
  • i länktexter i andra dokument som refererar till dokumentet,
  • som en del av dokumentets URL, eller
  • i en annan böjningsform i någon annan del av texten, i metainformationen, i en länktext eller i URL:en.

Om samtliga dessa fall kan uteslutas, vänligen kontakta Eurolings support.