robots.txt

Robots.txt: Kompletní průvodce pro začátečníky i pokročilé

Úvod: Proč je robots.txt důležitý pro SEO?

Pokud se zajímáte o optimalizaci pro vyhledávače (SEO), určitě jste se setkali s pojmem robots.txt. Tento malý, ale mocný soubor hraje klíčovou roli v tom, jak vyhledávače (jako Google, Bing nebo Seznam) procházejí a indexují váš web.

Co když ale robots.txt nastavíte špatně?

  • Důležité stránky se nemusí objevit ve vyhledávání.
  • Vyhledávače mohou plýtvat časem procházením zbytečných stránek.
  • Některé části webu mohou být nechtěně skryty před uživateli.

V tomto článku se dozvíte: ✅ Co je robots.txt a jak fungujeJak správně vytvořit a nastavit robots.txtČasté chyby a jak se jim vyhnoutPokročilé tipy pro optimalizaci procházení webu



1. Co je robots.txt?

Robots.txt je textový soubor umístěný v kořenovém adresáři webu (např. https://vasedomena.cz/robots.txt). Slouží jako návod pro vyhledávací roboty (crawlery), kterým říká, které části webu mohou nebo nemají procházet a indexovat.

Jak robots.txt funguje?

  • Když robot (např. Googlebot) navštíví váš web, jako první se podívá na robots.txt.
  • Podle pravidel v tomto souboru rozhodne, které stránky procházet a které ignorovat.
  • Není to bezpečnostní nástroj – špatně nastavený robots.txt může odhalit citlivé cesty, ale nezabrání přístupu škodlivým botům.


2. Základní struktura robots.txt

Soubor robots.txt se skládá z bloků pravidel pro různé typy robotů. Každý blok obsahuje:

  • User-agent – Určuje, pro jakého robota pravidlo platí (např. Googlebot, Bingbot nebo * pro všechny).
  • Disallow – Zakazuje procházení určité cesty.
  • Allow – Povoluje procházení určité cesty (překonává Disallow).
  • SitemapOdkaz na XML sitemap (pomáhá robotům najít důležité stránky).

Příklad základního robots.txt

User-agent: *
Disallow: /admin/
Disallow: /temp/
Allow: /public/
Sitemap: https://vasedomena.cz/sitemap.xml

Vysvětlení:

  • User-agent: * → Platí pro všechny roboty.
  • Disallow: /admin/ → Zakazuje procházení adresáře /admin/.
  • Allow: /public/ → Povoluje procházení /public/ (i když je v /temp/).
  • Sitemap → Ukazuje robotům, kde najít strukturu webu.


3. Jak vytvořit a nahrát robots.txt?

Krok 1: Vytvoření souboru

  1. Otevřete textový editor (Notepad, VS Code, Sublime Text).
  2. Napište pravidla podle vašich potřeb (viz příklady níže).
  3. Uložte soubor jako robots.txt (bez diakritiky a mezer).

Krok 2: Nahraní na server

  • Soubor musí být umístěn v kořenovém adresáři (např. https://vasedomena.cz/robots.txt).
  • Pokud používáte WordPress, můžete soubor nahrát přes FTP (FileZilla) nebo správce souborů v hostingovém panelu.

Krok 3: Ověření funkčnosti

  • Zkontrolujte, zda je soubor dostupný na https://vasedomena.cz/robots.txt.
  • Použijte Google Search ConsoleTestovací nástroj robots.txt (v sekci "Procházení").


4. Praktické příklady robots.txt

Příklad 1: Zakázat procházení celého webu (není doporučeno!)

User-agent: *
Disallow: /

⚠️ Varování: Tento kód zablokuje všechny roboty a váš web nebude ve vyhledávání. Používejte pouze dočasně (např. při vývoji).

Příklad 2: Povolit vše kromě určitých adresářů

User-agent: *
Disallow: /private/
Disallow: /test/
Allow: /public/
Sitemap: https://vasedomena.cz/sitemap.xml

Výhoda: Roboti procházejí celý web, ale ignorují /private/ a /test/.

Příklad 3: Různá pravidla pro různé roboty

User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/

User-agent: *
Disallow: /common-block/

Výhoda: Můžete specificky řídit, které roboty mohou kam.

Příklad 4: Použití wildcards (zástupných znaků)

User-agent: *
Disallow: /*.pdf$  # Zakáže všechny PDF soubory
Disallow: /2023/*  # Zakáže všechny stránky v adresáři 2023

Výhoda: Flexibilní blokování podle vzorů.



5. Časté chyby v robots.txt a jak se jim vyhnout

Chyba Důsledek Řešení
Chybějící robots.txt Roboti procházejí vše, včetně zbytečných stránek. Vytvořte základní soubor.
Špatná syntaxe (např. Disallow:/admin místo Disallow: /admin/) Roboti pravidla nepochopí. Dodržujte formát Disallow: /cesta/.
Blokování důležitých stránek (např. Disallow: /blog/) Důležité obsahy nejsou indexovány. Používejte Disallow opatrně.
Použití robots.txt jako bezpečnostního opatření Citlivé stránky zůstávají přístupné. Použijte autentizaci nebo .htaccess.
Zapomenutí na sitemap Roboti nemusí najít všechny důležité stránky. Přidejte Sitemap: [URL].


6. Robots.txt vs. jiné metody řízení indexace

Metoda Funkce Kdy použít
robots.txt Řídí, které stránky procházet. Blokování duplicit, dočasných stránek.
Meta tag noindex Říká robotům, aby stránku neindexovali. Skryté stránky, které nechcete ve vyhledávání.
.htaccess / HTTP autentizace Zabezpečuje přístup k souborům. Citlivé stránky (admin, přihlášení).
Canonical tag Určuje preferovanou verzi stránky. Duplicitní obsah.

Kdy použít co?

  • Chcete zablokovat procházení?robots.txt
  • Chcete zabránit indexaci?meta name="robots" content="noindex"
  • Chcete stránku úplně skrýt?Zabezpečení přes .htaccess


7. Pokročilé tipy pro robots.txt

✅ Optimalizace crawl budgetu

  • Crawl budget = Kolik stránek robot prochází za určité období.
  • Problém: Pokud robot tráví čas procházením zbytečných stránek (např. /tag/, /category/), může vynechat důležité.
  • Řešení: Blokujte nepotřebné cesty v robots.txt.

Příklad:

User-agent: *
Disallow: /tag/
Disallow: /category/
Disallow: /?sort=

✅ Různá pravidla pro mobilní a desktopové roboty

Někteří roboti (např. Googlebot-Smartphone) procházejí web z pohledu mobilu.

User-agent: Googlebot
Disallow: /old-desktop-version/

User-agent: Googlebot-Smartphone
Disallow: /mobile-popups/

✅ Použití Crawl-delay (pro některé roboty)

Někteří roboti (např. Yandex) podporují Crawl-delay, který omezuje frekvenci procházení.

User-agent: Yandex
Crawl-delay: 5  # Počká 5 sekund mezi požadavky


8. Jak testovat a ladit robots.txt?

🔍 Nástroje pro kontrolu robots.txt

  1. Google Search ConsoleTestovací nástroj robots.txt
    • Zkontrolujte, zda váš soubor neblokuje důležité stránky.
  2. Screaming Frog SEO Spider
    • Analyzuje, které stránky jsou blokovány.
  3. Online validační nástroje (např. technicalseo.com/tools/robots-txt/)

🛠️ Jak opravit chyby?

  • Chyba: Disallow: / → Celý web je blokován. Řešení: Odstraňte nebo upravte na Disallow: /private/.
  • Chyba: Chybí Sitemap. Řešení: Přidejte Sitemap: https://vasedomena.cz/sitemap.xml.
  • Chyba: Roboti ignorují pravidla. Řešení: Zkontrolujte, zda soubor je v kořenovém adresáři a má správný formát.


9. Závěr: Jak správně používat robots.txt?

Důležité:

  • Nepoužívejte robots.txt jako bezpečnostní nástroj – citlivé stránky zabezpečte jinak.
  • Testujte změny před nasazením (použijte Google Search Console).
  • Optimalizujte crawl budget – blokujte zbytečné stránky.
  • Používejte sitemap – pomáhá robotům najít důležité obsahy.

Nedělejte:

  • Neblokujte důležité stránky (např. /blog/).
  • Nepište složitá pravidla – udržujte soubor čitelný.
  • Nezapomínejte na aktualizace – při změnách webu upravte i robots.txt.


10. Často kladené otázky (FAQ)

🔹 Co když robots.txt chybí?

→ Roboti procházejí všechny dostupné stránky. Pokud nemáte citlivé obsahy, není to problém.

🔹 Může robots.txt zlepšit SEO?

Ano, pokud správně optimalizujete crawl budget a blokujete zbytečné stránky.

🔹 Jak zjistit, zda robots.txt funguje?

→ Použijte Google Search ConsoleTestovací nástroj robots.txt.

🔹 Můžu blokovat obrázky a PDF?

Ano, pomocí:

User-agent: *
Disallow: /*.pdf$
Disallow: /images/private/

🔹 Co je lepší: robots.txt nebo noindex?

  • robots.txtZakazuje procházení (stránka se nemusí objevit ve vyhledávání).
  • noindexZakazuje indexaci (stránka se prochází, ale neukazuje ve výsledcích).


Zdroje


Autor: Michal Binka Datum poslední úpravy: 18. září 2025 Model: Mistral Large (AI aplikace OCTODEEP)