Tagi: google, wyszukiwarki, Moje pomysły, roboty_internetowe, roboty_indeksujące, transfer, indeksy,
Kategoria: Reszta

Roboty internetowe zwane także robotami indeksującymi to programy zbierające i przetwarzające informacje o stronach internetowych umieszczonych w indeksach wyszukiwarek lub różnych agregatorów. Popularne strony muszą się liczyć z tym, że takie roboty pożrą dużą część transferu. Poruszył tą tematykę na swoim Piotr Waglowski: Mam się cieszyć, czy martwić?.
Zgadzam się z nim, że nie ma tu dużego wyboru, przecież nie poblokuje wszystkich robotów, można porównać jego (i nie tylko) sytuację do związku między USA a Chinami (USA chciałyby się pozbyć się Chin, ale wtedy gospodarka USA by się załamała). Wydaje się, że problem jest nie do rozwiązania, lecz… wystarczyłoby zaimplementowanie pewnego rozwiązania przez roboty i strony. Webmaster umieszcza na stronie pliczek UPDATED.php (rozszerzenie jest nieważne), który generuje treść XML o określonej strukturze, w której byłyby zawarte informacje, kiedy jaka podstrona została zakutalizowana. Oczywiście mądry webmaster nie umieszczał by tam informacji, że należy ponownie zindeksować wszystkie podstrony, bo plik ze stylem CSS został zaktualizowany. Myślę, że rozwiązanie jest godne poświęcenia uwagi.
Cytat z DI - Polskie Google już szuka w czasie rzeczywistym:
Google rozważa w przyszłości rozszerzenie funkcji wyszukiwania w czasie rzeczywistym dzięki protokołowi PubSubHubbub (PuSH). Niewykluczone, że wszyscy dostawcy treści będą mogli po prostu informować Google o nowych treściach, a wyszukiwarka natychmiast je zindeksuje. Więcej informacji na ten temat można znaleźć w innym tekście na łamach DI.
Jeśli spodobał ci się wpis, zasubkrybuje kanał RSS
Podobne wpisy