Jak zablokować dostęp do strony BOTowi ChatGPT (OpenAI)?

Nie tylko OpenAI wykorzystuje treści zebrane ze stron internetowych do budowania bazy danych swojego narzędzia o nazwie ChatGPT. Coraz powszechniejsze staje się „pożyczanie” kontentu naszych stron i niewiele jesteśmy w stanie z tym zrobić. Google cytuje ich zawartość w wynikach wyszukiwania, udzielając odpowiedzi na pytania zadane przez użytkowników wyszukiwarki. W ten sposób tracimy ruch organiczny, bo często użytkownik przeczyta treść widoczną na stronie wyników Google, a naszej strony już nie odwiedzić. Takim cytatem „premiowane” są najczęściej strony, które zajmują pierwsze miejsce w wynikach na wyszukiwaną frazę. Czyli strony, które zgarniają najwięcej ruchu organicznego.

Czasami zdarzy się pytanie bardziej złożone, o dłuższej odpowiedzi. Wtedy szukający może założy, że na stronie znajdzie więcej informacji. Wtedy kliknie. Najprawdopodobniej. A może nie.

Aby być fair, powinna być w GSC możliwość blokowania takich cytatów. Czy może to tylko ja jestem do nich tak wrogo nastawiony?

Google nie tylko w wynikach wyszukiwania korzysta z treści naszych stron. Karmi też nimi Bard’a czyli sztucznie inteligentną konkurencję dla ChatGPT. To kolejny przykład, kiedy Google korzysta z naszej pracy, nie dając nam czyli Twórcom stron www, nic w zamian.

OpenAI, twórca osławionego ChatGPT także karmi jego sztuczne neurony m.in. treściami ze stron internetowych. Niby daje nam podstawową wersję swojego narzędzia za darmo, ale… daje ją również osobom, które nie włożyły setek godzin i/lub worków pełnych PLNów w tworzenie contentu na własnych stronach.

Jak zabronić BOTom od OpenAI (ChatGPT) pobierania zawartości strony internetowej?

Nie sprawdzałem jeszcze jak przedstawia się robot Google, który odpowiada za skanowanie treści dla Bard’a, więc na razie zajmiemy się blokowaniem dostępu robotom (crawler’om) karmiącym bazę danych ChatGPT.

User Agent BOTa ChatGPT przedstawia się następująco:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Mając tę wiedzę możemy go zablokować korzystając z pliku robots.txt, pliku .htaccess lub pisząc krótki kod w PHP.

Zacznijmy od pliku robots.txt, który powinna mieć każda strona www

User-agent: GPTBot
Disallow: /

I tyle. Nic więcej nie potrzebujemy, aby zabronić BOTowi szperania w skarbnicy wiedzy, jaką jest nasza strona.

Teraz blokada BOTa ChatGPT w pliku .htaccess

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} GPTBot [NC]
RewriteRule .* - [F,L]

[NC] oznacza, że podczas wyszukiwania ciągu GPTBot w zwróconej przez serwer Apache zmiennej {HTTP_USER_AGENT} nie będzie brana pod uwagę wielkość liter.
[F] powoduje, że serwer zwróci BOTowi błąd HTTP 403 czyli Forbidden.
[L] wymusza zakończenie przetwarzania.

I na koniec, kod PHP

<?
if (preg_match("#GPTBot#", $_SERVER[HTTP_USER_AGENT])) {
header("HTTP/1.1 301 Moved Permanently"); 
header("location: $_SERVER[REMOTE_ADDR]");
header("Connection: close");
exit;
}
?>

Kod jest prosty. Funkcja PHP preg_match szuka w zmiennej $_SERVER[HTTP_USER_AGENT] ciągu GPTBot. Gdy go znajdzie (if) to wysyła BOTowi nagłówek HTTP o kodzie 301, który informuje, że dana strona została ostatecznie przeniesiona pod inny adres, który jest podany w location, w kolejnej linijce kodu. Tam zmienna $_SERVER[REMOTE_ADDR] podstawi IP serwera BOTa. Koniec.

Czy warto blokować BOTy sztucznej inteligencji?

Zastanów się czy chcesz blokować dostęp BOTom ze stajni OpenAI. W tym momencie nie widzę przeciwwskazań. Nie mamy żadnych profitów z karmienia baz danych, z których korzystają narzędzia sztucznej inteligencji.

W tej chwili problem z „kradzieżą” contentu przez OpenAI nie jest czymś co powinno spędzać Ci sen z oczu. Więcej strat generuje zapożyczanie przez Google naszych treści i wyświetlanie ich w odpowiedzi na pytania zadane w wyszukiwarce. To tutaj tracimy ruch organiczny, który mógłby konwertować na jakiś zysk – jeśli prowadzimy stronę, która w jakikolwiek sposób dla nas zarabia.

Z oficjalnych informacji wynika, że ChatGPT korzysta z bazy danych zbudowanej na treściach w języku angielskim. Zarówno nasze pytania, jak i generowane odpowiedzi się tłumaczone z języka polskiego na angielski i odwrotnie.

Oczywiście jest to wersja oficjalna i dotyczy bazy budowanej do września 2021. Jak będzie (lub jak już jest) w przypadku, gdy dane będą aktualizowane? Tego w tej chwili nie wiadomo. Trzeba jednak pamiętać, że płatna wersja ChatGPT Plus korzysta z różnego rodzaju wtyczek i co najmniej jedna z nich potrafi przetwarzać dane ze stron internetowych, jeśli tylko podamy w rozmowie adres strony, z której dane w jakiś sposób chcemy wykorzystać.

Jakie BOTy / crawler’y stron internetowych warto blokować?

Jeśli zdecydujesz się na blokowanie również innych BOTów, niekoniecznie tych od sztucznej inteligencji, to powyższe sposoby Ci w tym pomogą. Wystarczy jedynie podmienić nazwę BOTa, którą przedstawia się on w User Agent.

Sporo właścicieli stron decyduje się na blokowanie BOTów od Ahrefs i Majestic. Ale czy ma to sens?

Miało, gdy transfer serwera, na którym stroi strona internetowa, był limitowany. Obecnie większość serwerów ma transfer nielimitowany lub jeśli limit jest to bardzo wysoki np. 5 TB – tyle daje IQ.pl w najtańszym pakiecie hostingu shared.

Decyzja należy do Ciebie.

Related Posts

Robot przed monitorem komputera

Teksty SEO pisane przez Sztuczną Inteligencję – TAK czy NIE?

Nie demonizuję takich rozwiązań. Skoro Sztuczna Inteligencja podaje nam pomocną dłoń, dzięki czemu możemy zaoszczędzić czas, którego wszystkim nam brakuje, to dlaczego z takiej pomocy nie skorzystać?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *