offline generátor HTML aplikací

Fulltextové vyhledávání podruhé

Pokud na naše stránky pustíme externí vyhledávač, je dobré vědět, jak většina těchto vyhledávačů pracuje.

Základním problémem vyhledávače je zjistit, co má vlastně prohledávat. Musí si proto nejdříve vytvořit seznam stránek. Jak to udělá?
Při vstupu na určitou webovou adresu se ocitneme na úvodní stránce (nejčasteji index.html), která představuje vstupní bránu s odkazy na další stránky a tyto stránky odkazují na další stránky a tyto .... a tak dále. Těchto odkazů, na kterých je vlastně založen celý internet, právě vyhledávač využívá, aby si vytvořil seznam stránek. Od vstupního bodu se postupně "proplíží" přes jednotlivé odkazy všemi dostupnými stránkami a vytvoří si tak seznam, podle kterého následně prohledává a indexuje.

Co když ale nechci, aby prohlížeč některé stránky procházel?
Existuje více možností:

Pokud vezmeme vyhledávače obecně, existují dvě základní metody jak ovlivnit chování vyhledávačů.
- První metoda je použití META Tagu:
```
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
```
  Vložením tohoto tagu do stránky říkáme prohledávačům, že tuto stránku nemají indexovat, ani v ní hledat odkazy na další stránky. Pokud použijeme: CONTENT="NOINDEX, FOLLOW" pak stránka nebude indexována, ale její odkazy budou použity na hledání dalších stránek (a naopak).
- Druhá metoda je umístění souboru "robots.txt" v kořenovém adresáři:
  Vyhledávače v první řadě hledají v kořenovém adresáři soubor "robots.txt" (název musí být malými písmeny) a adresáře uvedené v tomto souboru neprohledávají.
  Příklad:
```
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
```
  V tomto případě vyhledávače vynechají při prohledávání tři adresáře.
Podrobnější informace týkající se WEB vyhledávačů "robotů" nabízí zdroj: The WEB Robots Pages .
Při použití konkrétního vyhledávače (např. atomz) je možné v konfiguraci pro příslušné stránky zakázat dané soubory či adresáře.