Hur hanterar SiteSeeker webbplatskartor (sitemaps)

2012-12-21

Kunskapsdatabasen, Indexering

SiteSeeker kan hantera webbplatskartor med välkända format som kan väljas genom att använda "robots.txt", konfiguration av startpunkter i SiteSeeker Admin eller filnamn.

Vad är en webbplatskarta?

En webbplatskarta är en fil som används för att beskriva var information kan hittas på en webbplats. Webbplatskartor innehåller adresser (URL:ar) till dokument på webbplatser och är utformade på välkända sätt.

Utformning (protokoll)

SiteSeeker följer utformningen av webbplatskartor som beskrivs på sitemaps.org men stödjer även HTML-"webbplatskartor".

Vilka sidor är webbplatskartor?

Gäller fr.o.m. version 6.10.286 - Alla startpunkter behandlas som webbplatskartor eller som index för webbplatskartor. Startpunkterna tolkas och valideras enligt utformningsreglerna och om valideringen godkänns används informationen som webbplatskarta.

Sidor som inte är startpunkter, men som har "sitemap" + ".xml"/".xml.gz"/".ashx" i sina namn, liksom: "Sitemap.XML", "my_sitemap.xml.gz"...

Hur används webbplatskartorna?

Om en startpunkt är ett index för webbplatskartor kommer dess URL:ar att användas som nya startpunkter under samma hämtning.

URL:ar från webbplatskartor används som vanliga HTML-länkar under samma hämtning.

Komprimerade webbplatskartor (gzip) packas upp automatiskt.

Gäller fr.o.m. version 6.10.286 - Webbplatskartor som är startpunkter lagras inte efter att de har använts.

Begränsningar

SiteSeeker tillämpar inte de begränsningar som föreslås i reglerna för utformning av webbplatskartor. En webbplatskarta kan innehålla ett obegränsat antal URL:er, absoluta eller relativa, och begränsas bara av den konfigurerade maxstorleken för sidor.

För närvarande används bara webbplatskartornas URL:ar och SiteSeeker bortser från all annan information.