Close

Crawler

Crawler, występujący również pod nazwami: web crawler, web spider lub web robot, jest to aplikacja komputerowa lub webowa służąca do agregowania stron i treści zapisanych w sieci Internet. Zazwyczaj jest tworzone i wykorzystywane przez wyszukiwarki Internetowe, takie jak Google, Bing czy Yahoo. Dzięki temu dbają one o aktualność i zawartość swoich zasobów.

Crawler rozpoczyna swoją pracę od wybranego punktu startowego, którym może być np. adres URL popularnej strony internetowej lub lista adresów URL do przeglądnięcia. Następnie program automatycznie analizuje zawartość strony, identyfikuje i zapisuje informacje o jej strukturze, linkach, słowach kluczowych i innych istotnych danych.

Te zebrane informacje są później używane przez wyszukiwarki do tworzenia indeksów stron internetowych. Dzięki temu, kiedy użytkownik wprowadza zapytanie w wyszukiwarkę, indeks umożliwia szybkie odnalezienie stron zawierających odpowiednie informacje.

Crawlery mają szerokie zastosowanie poza indeksowaniem stron przez wyszukiwarki. Firmy i badacze mogą używać crawlerów do zbierania danych na różnorodne cele, takie jak analiza konkurencji, monitorowanie zmian na stronach, zbieranie informacji na temat produktów czy badanie rynku.

Praktycznie wzystkie strony Internetowe i popularne systemy CMS mogą blokować działanie crawlerów, korzystając z plików robots.txt lub innych mechanizmów kontroli dostępu. To zapobiega nadmiernemu przeciążeniu serwerów, ogranicza nadużycia i zachowuje prywatność danych.

0|1|2|3|4|5|6|7|8|9|A|B|C|D|E|F|G|H|I|J|K|L|Ł|M|N|O|P|Q|R|S|Ś|T|U|V|W|X|Y|Z

Close