Soubor robots.txt je obyčejný textový soubor, který vytvoříte např. v poznámkovém bloku. Název souboru musí být psán malými písmeny a musí být umístěn v kořenovém adresáři webu (hned za .cz/.sk/.com atp.), například takto https://www.zonercloud.cz/robots.txt
Na každém řádku je uvedeno, který robot (user-agent) kam nesmí. Vyhledávače pravidelně soubor robots.txt na webech kontrolují, aby zjistily, zda existují nějaké pokyny pro procházení webu. Tyto instrukce nazýváme direktivy. Pokud není přítomen žádný soubor robots.txt, nebo neexistují žádné použitelné příkazy, vyhledávače automaticky prohledají celý web.
Ačkoli všechny hlavní vyhledávače soubor robots.txt respektují, některé se mohou rozhodnout jej ignorovat (nebo jeho části). Zatímco příkazy v souboru robots.txt jsou silným signálem pro vyhledávače, je důležité si uvědomit, že tento soubor je pouze souhrn volitelných direktiv, nikoli příkazů.
UPOZORNĚNÍ: Nenechte se zmást na první pohled jednoduchým neškodným souborem. Při neodborném zacházení může natropit velkou škodu.
Soubor robots.txt je velmi důležitý i pro účely SEO. U větších webových stránek je robots.txt dokonce nezbytný. Zabraňuje duplicitnímu obsahu a poskytuje vyhledávačům užitečné tipy, jak mohou vaše webové stránky procházet efektivněji.
Při provádění změn v souboru robots.txt však buďte opatrní. Tento soubor může způsobit, že velké části vašeho webu budou pro vyhledávače nedostupné.
Výkonný a snadno použitelný server nejen pro WordPress s přehlednou administrací, pravidelnou zálohou a SSL certifikáty ZDARMA s automatickou instalací a následnou obnovou.
Vytvářejte si neomezený počet služeb již od 340 Kč měsíčně!
Každý vyhledávač by se měl identifikovat pomocí tzv. user-agenta:
Toto označení v souboru robots.txt vždy definuje začátek skupiny směrnic. Všechny direktivy mezi prvním user-agent a dalším user-agent záznamem jsou považovány za direktivy pro první záznam user-agent.
Direktivy se mohou vztahovat pouze na konkrétní vyhledávače, ale mohou být také použitelné na všechny user-agenty. V takovém případě se použije zástupný znak User-agent: *
.
Níže uvádíme několik příkladů zápisu robots.txt:
Existuje několik způsobů, jak sdělit vyhledávačům, že mají přístup ke všem souborům:
User-agent: *
Disallow:
Druhou možností je nechat soubor robots.txt prázdný nebo jej nemít vůbec.
Níže uvedený příklad robots.txt říká všem vyhledávačům, aby nevstupovaly na celý web:
User-agent: *
Disallow: /
Berte prosím na vědomí, že pouze JEDEN znak navíc může mít zásadní dopad.
User-agent: googlebot
Disallow: /
Upozorňujeme, že pokud Googlebota zakážete, platí to pro všechny Googleboty. To zahrnuje roboty Google, kteří hledají například zprávy (googlebot-news) a obrázky (googlebot-images).
User-agent: Slurp
User-agent: googlebot
Disallow: /
User-agent: *
Disallow: /admin/
Disallow: /private/
Níže uvedený soubor robots.txt je speciálně optimalizován pro WordPress za předpokladu, že nechcete, aby byly prohledávány:
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page
Sitemap: https://www.example.com/sitemap_index.xml
Vezměte prosím na vědomí, že tento soubor robots.txt bude ve většině případů fungovat, ale měli byste jej vždy upravit a otestovat, abyste se ujistili, že platí přesně pro vaši situaci.
TIP: V roce 2019 Google navrhl rozšíření protokolu Robots Exclusion Protocol a zpřístupnil svůj analyzátor robots.txt jako open source.
UPOZORNĚNÍ: Každá direktiva by měla být na samostatném řádku, jinak byste vyhledávače mohli při analýze souboru robots.txt zbytečně mást.
Příklad nesprávného souboru robots.txt:
User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/
Při implementaci souboru robots.txt mějte na paměti následující doporučené postupy:
crawl-delay
*