How Can We Help?

Kategorie

Robots.txt – edycja pliku oraz blokowanie robotów

Do czego służy plik robots.txt?

Plik robots.txt to tekstowy plik używany przez właścicieli stron internetowych do kontrolowania zachowań robotów internetowych (takich jak boty wyszukiwarek) na ich stronach.

Głównym celem pliku robots.txt jest informowanie robotów, które części strony można indeksować i przeglądać, a które powinny pozostać prywatne lub niedostępne dla robotów. 

Jednakże, nie wszystkie roboty internetowe muszą przestrzegać instrukcji zawartych w tym pliku, ponieważ jest to jedynie sugestia. Niektóre roboty, szczególnie mowa tutaj o złych botach generujących duży ruch na stronie mogą ignorować plik robots.txt. Często w takich sytuacjach pomocne będzie zdefiniowanie blokady IP. Dla zaawansowanego zarządzania blokadami wizyt botów polecamy platformę Cloudflare

Edycja Pliku robots.txt

Plik robots.txt znajduję się w zakładce Wygląd i treści / Edytor szablonów -> Inne pliki -> L03.Plik robots.txt.


Pomocne reguły dotyczące indeksowania w pliku robots.txt

W każdym sklepie poniższe reguły pozwolą zwiększyć crawl budget* w domenie. 

*Crawl budget (czasem nazywany także budżetem przeszukiwania) odnosi się do ilości zasobów, które wyszukiwarki internetowe alokują na przeszukiwanie i indeksowanie witryn internetowych w określonym okresie czasu. Jest to ważny aspekt działania robotów internetowych, takich jak Googlebot, Bingbot czy inne roboty wyszukiwarek.

User-agent: *
Disallow: /actions/
Disallow: /adm/
Disallow: /engine/
Disallow: /libs/
Disallow: /mail/
Disallow: /models/
Disallow: /templates/
Disallow: /*q=
Disallow: /*order=
Disallow: /*ilosc=
Disallow: /*a=
Disallow: /*s=
Disallow: /*id=
Disallow: /*view=
Disallow: /*produkt=
Disallow: /koszyk.html
Disallow: /konto.html
Disallow: /ulubione.html
Disallow: /szukaj.html

Jak sprawdzić jakie roboty skanują naszą stronę?

Do sprawdzenia śledzenia ostatnich wizyt przechodzimy do zakładki Marketing/ Śledzenie ostatnich wizyt.  


Ilość widocznych rekordów możemy zmienić w zakładce  Konfiguracja/ Konfiguracja panelu


Pomocne reguły dotyczące blokowania robotów w pliku robots.txt

–  Blokowanie wszystkich robotów poza Google:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

lub

User-agent: Googlebot
Allow:
User-agent: *
Disallow:/

 

Blokowanie wybranych botów np. Ahrefsbot, GPTBot. 

User-agent: AhrefsBot
Disallow: /
User-agent: GPTBot
Disallow: /

Przed zastosowaniem wpisu warto sprawdzić w narzędziu GSC  https://www.google.com/webmasters/tools/robots-testing-tool  czy zmiany w pliku nie spowodują blokady dla Googlebota.