Robots.txt 


Co je robots.txt?

Robots.txt je technický soubor, který se používá pro určení stránek, které mají být zapouzdřeny před webovými roboty. Toto soubor je uložen v kořenové složce a je viditelný veřejnosti, takže každý může vidět, co je v něm uloženo.

Jak funguje robots.txt?

Robots.txt umožňuje majitelům webu nakonfigurovat, jaké stránky webovým robotům umožňují prozkoumávat a jaké k nim mohou přistupovat – je to prostředek pro omezení přístupu. Tím je zajištěno, že robot prohledávající web je omezován na stránky, které majitel webu chce, aby s ním komunikoval. Webové roboty jsou lidmi vytvořené aplikace, které cvičí virtuální „prohlížení“ webových stránek pro účely indexace nebo vytváření průzkumných výsledků.

Příklady robots.txt

Níže jsou uvedeny některé příklady příkazů, které lze nakonfigurovat v souboru robots.txt:

  • User-agent: * – znamená všechny roboty. Například: User-agent: *
  • Disallow:/ url-adresa – znamená, že robot nemá přistupovat k dané stránce. Například: Disallow: /folder/file.html
  • Allow: url-adresa – znamená, že robot má přistupovat k dané stránce. Například: Allow: /folder/file.html

Závěr

Robots.txt slouží k omezení počtu robotů, které se dostanou na stránky vašeho webu. Můžete použít příkazy uvedené výše k nastavení omezení na cokoli chcete, od omezení celého webu až po povolení některých stránek k prohlížení.

Zdroj: Wikipedia.