Wyobraź sobie, że któregoś dnia Twoja strona główna znika zupełnie z Google i nie masz pojęcia dlaczego. Nie zrobiłeś nic złego a tu taka niespodzianka. Być może to konkurencja lub ktoś bardzo mało życzliwy...
Pierwsze sygnały
Na kilka dni przed największą konferencją SES w San Jose pojawiła się wiadomość, o której będzie głośno zapewne jeszcze przez kilka tygodni. Dan Thies poinformował, że przez rok rozpracowywał sposób manipulacji Google poprzez serwery proxy. Źródło tej informacji można przeczytać na jego blogu [1].
Analiza
W skrócie problem ten można opisać zaczynając od historii. Od czasów ?Big Daddy? Google odwiedza strony za pomocą różnych datacenter, ponadto przy użyciu różnych i często zmieniających się algorytmów. To pozwoliło na rozpoczęcie ?dochodzenia? pod kątem czy treść na danej stronie jest unikalna czy też została skopiowana z innego miejsca.
Teraz trochę o proxy. Jak wiemy, serwery proxy mają ułatwiać i przyspieszać surfowanie za pomocą cyklicznego ściągania konkretnych stron i podawania ich internaucie, który ma do takiego serwera ?bliżej?. Strona z proxy zostanie szybciej przesłana, gdyż serwer proxy jest prawdopodobnie mniej obciążony niż serwer źródłowy dzięki podawaniu jedynie gotowych zbiorów tekstowych.
W tym miejscu wkracza ktoś, kto chce np. usunąć naszą główną stronę z indeksu Google. Wystarczy, że zacznie linkować do miejsca, w którym znajduje się zachowana kopia naszej głównej strony. Google zaczyna docierać do tych miejsc i widzi, że coraz więcej pojawia się stron z tą samą zawartością. Duplicate content kończy się usunięciem takiej strony z wyników Google i problem mamy nie byle jaki.
Jak uniknąć kłopotów?
Nie bez przyczyny już jakiś czas temu Google, MSN, Ask i inne większe wyszukiwarki opublikowały artykuły jak unikać ?złych botów? aby nie wpaść w taką pułapkę. Dodajmy, że taka sytuacja może się przytrafić nawet przez przypadek, tj. bez udziału kogoś konkretnego, kto zrobi to z premedytacją. Tym bardziej warto się zabezpieczyć.
Najczęściej pojawiającą się receptą na różnych światowych blogach jest metoda filtrowania botów pod kątem wpuszczania tylko tych, które znamy i których się spodziewamy. Dan Thies opisał to dość szczegółowo w swoim artykule [2], więc proponuję się z tym dokładnie zapoznać.
Paweł Rosół
Mornel.com