Czym jest robots.txt?
Robots.txt to plik tekstowy umieszczony w głównym katalogu domeny, który instruuje roboty wyszukiwarek, które strony mogą indeksować, a których powinny unikać. To pierwszy plik, który boty sprawdzają po wejściu na stronę.
Dlaczego robots.txt jest ważny dla SEO?
Prawidłowa konfiguracja robots.txt wpływa na:
- Crawl budget – roboty nie marnują czasu na nieistotne strony
- Bezpieczeństwo – blokowanie dostępu do plików administracyjnych
- Indeksację – kontrola nad tym, co trafia do indeksu Google
- Wydajność – mniejsze obciążenie serwera przez boty
Podstawowa składnia robots.txt
User-agent: *
Disallow: /admin/
Disallow: /temp/
Allow: /public/
Sitemap: https://twojastrona.pl/sitemap.xml
Najczęstsze dyrektywy
- User-agent – określa, do jakiego bota odnosi się reguła
- Disallow – blokuje dostęp do ścieżki
- Allow – zezwala na dostęp (nadpisuje Disallow)
- Sitemap – wskazuje lokalizację mapy witryny XML
- Crawl-delay – opóźnienie między żądaniami (nie wspierane przez Google)
Optymalizacja SEO zawsze zaczyna się od audytu robots.txt.
Czego NIE blokować w robots.txt?
Nigdy nie blokuj dostępu do:
- Plików CSS i JavaScript (ważne dla renderowania)
- Obrazów (chyba że celowo nie chcesz ich w Google Images)
- Stron, które powinny być indeksowane
- Kluczowych zasobów dla Core Web Vitals
Czego warto blokować?
- Stron administracyjnych (/wp-admin/, z wyjątkiem admin-ajax.php)
- Stron z wynikami wyszukiwania wewnętrznego
- Stron tagów (jeśli nie są optymalizowane)
- Stron paginacji (zależnie od strategii)
- Parametrów URL generujących duplicate content
Przykładowy robots.txt dla WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: *?s=
Sitemap: https://twojastrona.pl/sitemap.xml
Weryfikacja robots.txt
Google Search Console oferuje tester robots.txt, który pozwala sprawdzić, czy reguły działają poprawnie. Testuj regularnie, szczególnie po zmianach na stronie.