Základním problémem vyhledávače je zjistit, co má vlastně prohledávat.
Musí si proto nejdříve vytvořit seznam stránek. Jak to udělá?
Při vstupu na určitou webovou adresu se ocitneme na úvodní stránce
(nejčasteji index.html), která představuje vstupní bránu s odkazy
na další stránky a tyto stránky odkazují na další stránky a tyto .... a tak dále.
Těchto odkazů, na kterých je vlastně založen celý internet, právě vyhledávač
využívá, aby si vytvořil seznam stránek.
Od vstupního bodu se postupně "proplíží" přes jednotlivé odkazy všemi
dostupnými stránkami a vytvoří si tak seznam, podle kterého následně prohledává
a indexuje.
Co když ale nechci, aby prohlížeč některé stránky procházel?
Existuje více možností:
- Pokud vezmeme vyhledávače obecně, existují dvě základní metody jak ovlivnit
chování vyhledávačů.
- První metoda je použití META Tagu:
Vložením tohoto tagu do stránky říkáme prohledávačům, že tuto stránku nemají indexovat, ani v ní hledat odkazy na další stránky. Pokud použijeme: CONTENT="NOINDEX, FOLLOW" pak stránka nebude indexována, ale její odkazy budou použity na hledání dalších stránek (a naopak).<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
- Druhá metoda je umístění souboru "robots.txt" v kořenovém adresáři:
Vyhledávače v první řadě hledají v kořenovém adresáři soubor "robots.txt" (název musí být malými písmeny) a adresáře uvedené v tomto souboru neprohledávají.
Příklad:
V tomto případě vyhledávače vynechají při prohledávání tři adresáře.User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/
Podrobnější informace týkající se WEB vyhledávačů "robotů" nabízí zdroj: The WEB Robots Pages .
- První metoda je použití META Tagu:
- Při použití konkrétního vyhledávače (např. atomz) je možné v konfiguraci pro příslušné stránky zakázat dané soubory či adresáře.
