Ce este un Crawler

 Un crawler, cunoscut şi sub numele de program spider sau robot, este un software utilizat pentru a procesa şi a indexa conţinutul paginilor web.

Lista crawlerelor web

Crawlerele web istorice

World Wide Web Worm a fost un crawler folosit pentru a construi un index simplu de titluri și adrese URL ale documentelor. Indexul poate fi căutat folosind comanda grep Unix.

Yahoo! Slurp era numele Yahoo! Search crawler până când Yahoo! a contractat cu Microsoft să folosească Bingbot în schimb.


Crawler-uri web interne

Applebot este crawler-ul web al Apple. Acceptă Siri și alte produse.

Bingbot este numele webcrawler-ului Microsoft Bing. A înlocuit Msnbot.

Baiduspider este crawler-ul web al Baidu.

Googlebot este descris în detaliu, dar referința este doar despre o versiune timpurie a arhitecturii sale, care a fost scrisă în C++ și Python. Crawler-ul a fost integrat în procesul de indexare, deoarece analizarea textului a fost făcută pentru indexarea textului integral și, de asemenea, pentru extragerea URL-urilor. Există un server de adrese URL care trimite liste de adrese URL pentru a fi preluate de mai multe procese de accesare cu crawlere. În timpul analizării, adresele URL găsite au fost transmise unui server URL care a verificat dacă adresa URL a fost văzută anterior. Dacă nu, adresa URL a fost adăugată la coada serverului URL.

Crawlerul Google AdSense accesează site-ul dvs. pentru a stabili conţinutul acestuia cu scopul de a afişa anunţuri relevante.

WebCrawler a fost folosit pentru a construi primul index full-text disponibil public al unui subset al Web-ului. S-a bazat pe lib-WWW pentru a descărca pagini și pe un alt program pentru a analiza și ordona adresele URL pentru explorarea pe lățime a graficului Web. Include, de asemenea, un crawler în timp real care urmăreste link-uri bazate pe asemănarea textului de ancorare cu interogarea furnizată.

WebFountain este un crawler distribuit, modular, similar cu Mercator, dar scris în C++.

Xenon este un crawler web folosit de autoritățile fiscale guvernamentale pentru a detecta frauda.


Crawler-uri web comerciale

Următoarele crawler-uri web sunt disponibile, la un preț:

SortSite - crawler pentru analiza site-urilor web, disponibil pentru Windows și Mac OS.

Swiftbot - crawler-ul web al Swiftype, disponibil ca software ca serviciu.


Crawler-uri cu sursă deschisă sau Crawler-uri Open-source

GNU Wget este un crawler operat în linie de comandă scris în C și lansat sub GPL. Este de obicei folosit pentru oglindirea site-urilor Web și FTP.

GRUB a fost un crawler de căutare distribuit cu sursă deschisă pe care Wikia Search îl folosea pentru a accesa cu crawlere web-ul.

Heritrix este un crawler de calitate-arhivă al Internet Archive, conceput pentru arhivarea periodică a instantaneelor ​​unei mari porțiuni a Web-ului. A fost scris în Java.

ht://Dig include un crawler Web în motorul său de indexare.

HTTrack folosește un crawler web pentru a crea o oglindă a unui site web pentru vizualizare offline. Este scris în C și lansat sub GPL.

mnoGoSearch este un crawler, un indexator și un motor de căutare scris în C și licențiat conform GPL (numai pentru mașini *NIX).

Apache Nutch este un crawler web foarte extensibil și scalabil, scris în Java și lansat sub o licență Apache. Se bazează pe Apache Hadoop și poate fi folosit cu Apache Solr sau Elasticsearch.

Open Search Server este o versiune de software pentru motor de căutare și crawler web sub GPL.

PHP-Crawler este un simplu crawler bazat pe PHP și MySQL, lansat sub licența BSD.

Scrapy, un cadru webcrawler open source, scris în python (licențiat sub BSD).

Seeks, un motor de căutare distribuit gratuit (licențiat conform AGPL).

StormCrawler, o colecție de resurse pentru construirea crawlerelor web scalabile și cu latență redusă pe Apache Storm (licență Apache).

tkWWW Robot, un crawler bazat pe browserul web tkWWW (licențiat conform GPL).

Xapian, un motor de căutare cu crawler, scris în c++.

YaCy, un motor de căutare distribuit gratuit, construit pe principiile rețelelor peer-to-peer (licențiat conform GPL).

0 comments: (+add yours?)

Post a Comment

 
>