Indice
Ben ritrovati sul mio blog
A distanza di anni dall’adozione del termine, non esiste una definizione precisa e univoca di “crawl budget”. Lo stesso Google, in un articolo del 2017 sul proprio blog, affermava che “non abbiamo un singolo termine che descriva tutto ciò che si intende con “crawl budget”.
La definizione che attualmente reputo più vicina al concetto di “crawl budget” è la quantità di risorse massima che un motore di ricerca investe nella scansione di un sito Web. In termini estremamente pratici quanto tempo e quanta banda è disposto a “consumare” il motore di ricerca per la ricerca e l’analisi delle pagine di un sito Web.
Il crawling è il primo dei tre processi principali di lavoro di un motore di ricerca (Scansione, Indicizzazione, Ranking), consente la raccolta delle informazioni sui siti Web e dei loro contenuti. Grazie al crawler il motore di ricerca scopre e analizza tutte le risorse accessibili di un sito Web, verifica le nuove pagine o gli aggiornamenti di quelle già presenti, crea una mappa dei contenuti e delle risorse di interi siti Web. La scansione di milioni e milioni di risorse permette ai motori di ricerca di avere una panoramica Web completa e sempre aggiornata.
Senza il crawling non sarebbe quindi possibile in alcun modo il funzionamento dei motori di ricerca.
Il crawling di Google è formato da una serie di semplici passaggi, che funzionano in modo ricorsivo per ciascun sito. Nella figura viene mostrata la scansione di Google, che inizia con un riscontro su un file robots.txt, in cui sono presenti delle direttive da seguire. Il crawler, normalmente agevolato da una sitemap, inizia il proprio percorso di scansione e procede all’analisi di tutte le nuove pagine non ancora visionate. Confronta le URL con quelle presenti nel proprio “backup” e prosegue nella propria attività.
Google Webmaster tools offre una panoramica dell’attività del suo Googlebot, con statistiche facilmente visualizzabili nell’apposita sezione “statistiche di scansione” della vecchia visualizzazione di search console.
Qua è possibile reperire le seguenti informazioni:
Dall’immagine, in cui si evince un’ottimizzazione delle performance di un sito Web, è possibile constatare che le pagine sottoposte a scansione giornaliera sono inversamente proporzionali al tempo di download della pagina. Minore sarà il tempo di download e maggiore sarà la quantità di pagine sottoposte a scansione. Logicamente, infatti, si comprende la necessità del motore di ricerca di ottimizzare le proprie risorse per questa operazione. Se la velocità del sito Web sarà ottimizzata, il crawler (nel rispetto degli altri siti Web e della navigazione degli utenti) potrà gestire più pagine durante le proprie operazioni di scansione.
Con la rivoluzione mobile (e il mobile first indexing) la velocità ricopre un ruolo di primo piano tra le variabili che incidono sulla scansione di un sito Web. Essendo sempre più numerosi gli accessi da mobile (secondo alcune ricerche superiori al 65% del totale) e conseguentemente avendo la necessità di visualizzare in mobilità i contenuti del Web, con connessioni limitate e normalmente poco performanti, si richiede che i siti Web siano leggeri, veloci e scattanti. Allo stesso tempo, il crawler, deve garantire che il sito Web non sia sotto un eccessivo carico e non deve gravare sulla navigazione tradizionale degli utenti. Perciò è importante che il sito Web possa garantire le normali operazioni del crawler e allo stesso tempo permettere una navigazione fluida e veloce degli utenti. I Webmaster possono fare affidamento sui numerosi tester ufficiali e non, come Google Pagespeed, Gtmetrix, Webpagetest o il recentissimo Lighthouse di Google, per comprendere lo stato dell’arte del proprio sito e migliorare le loro performance.
Tutti i tool creano un report con i punti da poter implementare per ottimizzare la velocità delle pagine, ed è possibile eseguire centinaia di analisi giornaliere, senza alcuna limitazione. La maggiore pignoleria di questi tool (in particolare di Lighthouse, su cui è davvero difficile portare a casa dei buoni risultati) dimostra, insieme alle news ufficiali sullo speed update, l’attaccamento dei motori di ricerca alle performance.
Abbiamo avuto modo di analizzare una delle variabili più importanti, ovvero la velocità. Le variabili legate al crawling di un sito Web, però, sono anche molte altre. Secondo la Web Agency CreiWeb, con la quale abbiamo avuto il piacere di discutere questo tema, uno dei primi aspetti da tenere presente è l’importanza di un sito Web: quale è il suo trust agli occhi dei motori di ricerca?
Maggiore è il trust di un sito Web e maggiore sarà la propensione del motore di ricerca a inviare il proprio spider alla ricerca di nuovi contenuti. Allo stesso modo la popolarità delle pagine e la qualità dei contenuti incidono notevolmente sull’interesse dei motori. Parallelamente va tenuto in considerazione lo stato di salute del sito. Se il crawler per esempio incontrerà errori 4xx e 5xx, rendendo impossibile il recupero delle pagine, tenterà nella sessione successiva (e così via ricorsivamente) di recuperare nuovamente quelle pagine, sprecando risorse per ogni tentativo.
Il tempo di risposta del server, poi, la pesantezza delle pagine, l’ottimizzazione del codice e delle immagini, e tutte le variabili che influiscono nella velocità di caricamento di una pagina, come abbiamo visto nel precedente paragrafo, impattano direttamente sull’attività del crawler.
Per migliorare e ottimizzare la crawl budget occorrerà quindi evitare:
Favorendo queste pratiche:
Spero che questo articolo ti possa esser stato d’aiuto per avvicinarti al delicatissimo tema della crawl budget.
E tu cosa ne pensi?.
Mi chiamo Gianluigi Canducci, sono un esperto in web marketing, web designer, consulente e social media manager con sede a Cervia tra le province di Rimini, Ravenna e Forlì Cesena. Ho oltre 10 anni di esperienza nel campo e assieme ai miei collaboratori mi occupo della gestione di account Instagram e gestione pagine Facebook e della loro sponsorizzazione con annunci pubblicitari social ads mirati, di realizzazione di App personalizzate e di indicizzazione di siti web su Google. Sono a disposizione di piccole e medie imprese, freelance e brand personali in cerca di una figura con esperienza e dedizione.