‘Il Crawler’, questo sconosciuto

(sabato 24 novembre)
Attività metodologiche di un crawler
Attività metodologiche di un crawler

Con il termine “crawler” (chiamato anche ‘web crawler‘, spider o robot) si intende un qualsiasi programma che può essere utilizzato per l’individuazione (cioè “verificare la presenza in Rete”) e la scansione automatiche dei siti web, compresi eventuali link che rimandano ad altre pagine web. Ogni motore di ricerca ne ha di suoi specifici: ad esempio, il crawler principale di Google è Googlebot.

Il loro utilizzo è definito nella parte descrittiva nel file robots.txt, il quale può prevedere diversi crawler. Inoltre, possono essere specificati anche dal meta tag robots o nelle istruzioni HTTP X-Robots-Tag.

Definizione Web Crawler
Definizione Web Crawler

 

 

Google bot
Google bot

 

Crawler Token dello user-agent (utilizzato nel file robots.txt) Stringa completa dello user-agent (come mostrata nei file di log del sito web)
APIs-Google
  • APIs-Google
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense
  • Mediapartners-Google
Mediapartners-Google
AdsBot Mobile Web Android 

(Controlla la qualità dell’annuncio nella pagina web Android)

  • AdsBot-Google-Mobile
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot Mobile Web 

(Controlla la qualità dell’annuncio nella pagina web dell’iPhone)

  • AdsBot-Google-Mobile
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot 

(Controlla la qualità dell’annuncio nella pagina web per desktop)

  • AdsBot-Google
AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Immagini
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0
Googlebot 

(Desktop)

  • Googlebot
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36o (utilizzato raramente):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot 

(Smartphone)

  • Googlebot
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mobile AdSense
  • Mediapartners-Google
(Vari tipi di dispositivi mobili) (compatible; Mediapartners-Google/2.1+http://www.google.com/bot.html)
Mobile Apps Android 

(Controlla la qualità dell’annuncio nella pagina per app Android. segue le regole dei robot AdsBot-Google.)

  • AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Ap

I crawler più comuni di Google

 

Un crawler è un tipo di bot (programma o script che automatizza delle operazioni), e i crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice.

Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale per ciò si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata). Durante l’analisi di un URL, lo spider identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare.
Il comportamento dei crawler attivi in Rete è tracciato da quanto definito nel file robots.txt, individuabile nella root del sito. 

Esistono anche crawler open source. In particolare, è definito nella riga ‘User-agent‘ mediante una stringa di testo (“token“).

 

Per capire come si svolge veramente un’attività di SEO e quindi come funziona l’algoritmo di Google, occorre conoscere e capire come funzionano le due “menti” operative di GoogleBot, ovvero lo spider ed il crawler.
Spider
L’attività principale dello spider è di farsi una copia del codice html delle pagine di un sito web, suddividerlo in parti, quindi procedere a farne il controllo spam, salvare un estratto dei contenuti nell’Index ed in alcuni casi inviare una immagine (copia) della pagina alla cache. Per sapere come trovare la copia cache delle proprie pagine ecco un post sui comandi avanzati.

Crawler
La funzione del Crawler è analizzare e seguire i link forniti dallo spider nella sua attività di scansione delle pagine. Tutti i link seguiti dal crawler sono analizzati in profondità in base ad una serie di parametri (anchor text, proprietario del dominio, whois etc.) che permettono a Google di capire il valore SEO reale di ogni link e quindi eventuali penalty. Se il crawler trova nuove pagine non presenti nell’indice dello spider, li comunica allo spider stesso che ricomincia la scansione e indicizzazione.

 

In una accezione secondaria, il termine web crawler viene utilizzato anche per indicare programmi (come PageNest, MSIECrawler, Offline Explorer) concepiti per scaricare il contenuto di un intero sito web sul disco fisso del computer.

“Polimorfi” tacciati da Memory Alpha in quanto, accedendo al sito in modo aggressivo, implicano un rallentamento drastico delle possibilità di accesso al sito stesso da parte dei visitatori.