Sabato, 25 Maggio 2019

Crawl Budget: cos'è e come funziona

Vota questo articolo

(0 Voti)

L'articolo è stato letto 43490 volte

Indice

Cos'è il crawling e perché è così importante
Come funziona nel dettaglio il crawling di un sito Web?
Come e dove monitorare il crawling
La velocità prima di tutto
Le variabili del crawl budget
Cosa è possibile fare per ottimizzare la crawl budget

Ben ritrovati sul mio blog

A distanza di anni dall’adozione del termine, non esiste una definizione precisa e univoca di “crawl budget”. Lo stesso Google, in un articolo del 2017 sul proprio blog, affermava che “non abbiamo un singolo termine che descriva tutto ciò che si intende con “crawl budget”.

La definizione che attualmente reputo più vicina al concetto di “crawl budget” è la quantità di risorse massima che un motore di ricerca investe nella scansione di un sito Web. In termini estremamente pratici quanto tempo e quanta banda è disposto a “consumare” il motore di ricerca per la ricerca e l’analisi delle pagine di un sito Web.

Cos'è il crawling e perché è così importante

Il crawling è il primo dei tre processi principali di lavoro di un motore di ricerca (Scansione, Indicizzazione, Ranking), consente la raccolta delle informazioni sui siti Web e dei loro contenuti. Grazie al crawler il motore di ricerca scopre e analizza tutte le risorse accessibili di un sito Web, verifica le nuove pagine o gli aggiornamenti di quelle già presenti, crea una mappa dei contenuti e delle risorse di interi siti Web. La scansione di milioni e milioni di risorse permette ai motori di ricerca di avere una panoramica Web completa e sempre aggiornata.

Senza il crawling non sarebbe quindi possibile in alcun modo il funzionamento dei motori di ricerca.

Come funziona nel dettaglio il crawling di un sito Web?

Il crawling di Google è formato da una serie di semplici passaggi, che funzionano in modo ricorsivo per ciascun sito. Nella figura viene mostrata la scansione di Google, che inizia con un riscontro su un file robots.txt, in cui sono presenti delle direttive da seguire. Il crawler, normalmente agevolato da una sitemap, inizia il proprio percorso di scansione e procede all’analisi di tutte le nuove pagine non ancora visionate. Confronta le URL con quelle presenti nel proprio “backup” e prosegue nella propria attività.

Crawl Budget

Come e dove monitorare il crawling

Google Webmaster tools offre una panoramica dell’attività del suo Googlebot, con statistiche facilmente visualizzabili nell’apposita sezione “statistiche di scansione” della vecchia visualizzazione di search console.

Qua è possibile reperire le seguenti informazioni:

Pagine sottoposte a scansione giornalmente
Kilobyte scaricati giornalmente
Tempo trascorso per il download di una pagina (in millisecondi)

Crawl Budget

Dall’immagine, in cui si evince un’ottimizzazione delle performance di un sito Web, è possibile constatare che le pagine sottoposte a scansione giornaliera sono inversamente proporzionali al tempo di download della pagina. Minore sarà il tempo di download e maggiore sarà la quantità di pagine sottoposte a scansione. Logicamente, infatti, si comprende la necessità del motore di ricerca di ottimizzare le proprie risorse per questa operazione. Se la velocità del sito Web sarà ottimizzata, il crawler (nel rispetto degli altri siti Web e della navigazione degli utenti) potrà gestire più pagine durante le proprie operazioni di scansione.

La velocità prima di tutto

Con la rivoluzione mobile (e il mobile first indexing) la velocità ricopre un ruolo di primo piano tra le variabili che incidono sulla scansione di un sito Web. Essendo sempre più numerosi gli accessi da mobile (secondo alcune ricerche superiori al 65% del totale) e conseguentemente avendo la necessità di visualizzare in mobilità i contenuti del Web, con connessioni limitate e normalmente poco performanti, si richiede che i siti Web siano leggeri, veloci e scattanti. Allo stesso tempo, il crawler, deve garantire che il sito Web non sia sotto un eccessivo carico e non deve gravare sulla navigazione tradizionale degli utenti. Perciò è importante che il sito Web possa garantire le normali operazioni del crawler e allo stesso tempo permettere una navigazione fluida e veloce degli utenti. I Webmaster possono fare affidamento sui numerosi tester ufficiali e non, come Google Pagespeed, Gtmetrix, Webpagetest o il recentissimo Lighthouse di Google, per comprendere lo stato dell’arte del proprio sito e migliorare le loro performance.

Tutti i tool creano un report con i punti da poter implementare per ottimizzare la velocità delle pagine, ed è possibile eseguire centinaia di analisi giornaliere, senza alcuna limitazione. La maggiore pignoleria di questi tool (in particolare di Lighthouse, su cui è davvero difficile portare a casa dei buoni risultati) dimostra, insieme alle news ufficiali sullo speed update, l’attaccamento dei motori di ricerca alle performance.

Le variabili del crawl budget

Abbiamo avuto modo di analizzare una delle variabili più importanti, ovvero la velocità. Le variabili legate al crawling di un sito Web, però, sono anche molte altre. Secondo la Web Agency CreiWeb, con la quale abbiamo avuto il piacere di discutere questo tema, uno dei primi aspetti da tenere presente è l’importanza di un sito Web: quale è il suo trust agli occhi dei motori di ricerca?

Maggiore è il trust di un sito Web e maggiore sarà la propensione del motore di ricerca a inviare il proprio spider alla ricerca di nuovi contenuti. Allo stesso modo la popolarità delle pagine e la qualità dei contenuti incidono notevolmente sull’interesse dei motori. Parallelamente va tenuto in considerazione lo stato di salute del sito. Se il crawler per esempio incontrerà errori 4xx e 5xx, rendendo impossibile il recupero delle pagine, tenterà nella sessione successiva (e così via ricorsivamente) di recuperare nuovamente quelle pagine, sprecando risorse per ogni tentativo.

Il tempo di risposta del server, poi, la pesantezza delle pagine, l’ottimizzazione del codice e delle immagini, e tutte le variabili che influiscono nella velocità di caricamento di una pagina, come abbiamo visto nel precedente paragrafo, impattano direttamente sull’attività del crawler.

Cosa è possibile fare per ottimizzare la crawl budget

Per migliorare e ottimizzare la crawl budget occorrerà quindi evitare:

Robots.txt in 404
Sitemap.xml e sitemap.html non aggiornati
Errori 50x / 40x / soft 404
I reindirizzamenti a catena
Errori nell’uso del canonical
Contenuti duplicati (piè di pagina) / quasi duplicati / HTTP vs HTTPS
Tempi di risposta troppo lunghi
Pesantezza delle pagine
Errori dell’AMP
Cattivi collegamenti interni e uso inappropriato del rel=nofollow
Utilizzare solo JS senza altre alternative

Favorendo queste pratiche:

Creare contenuti di qualità e aggiornare quelli presenti con frequenza, in particolar modo le money pages
Correggere tutti gli errori 4xx e 5xx, limitare il più possibile i redirect 3xx
Ottimizzare le performance del server e del sito Web (quali sono i migliori plugin wordpress per l’ottimizzazione della velocità?)
Ottimizzare le risorse presenti (es. pdf, immagini ecc…)
Ottimizzare la linking interna, per valorizzare le connessioni tra i contenuti
Ridurre i contenuti scarsi e duplicati
Creazione e ottimizzazione del robots.txt
Creazione e ottimizzazione della sitemap
Gestione ed ottimizzazione del canonical
Gestione ed ottimizzazione della profondità delle risorse
Analisi dei log del server per capire dove stia effettivamente lavorando il crawler

Spero che questo articolo ti possa esser stato d’aiuto per avvicinarti al delicatissimo tema della crawl budget.

E tu cosa ne pensi?.

Mi chiamo Gianluigi Canducci, sono un esperto in web marketing, web designer, consulente e social media manager con sede a Cervia tra le province di Rimini, Ravenna e Forlì Cesena. Ho oltre 10 anni di esperienza nel campo e assieme ai miei collaboratori mi occupo della gestione di account Instagram e gestione pagine Facebook e della loro sponsorizzazione con annunci pubblicitari social ads mirati, di realizzazione di App personalizzate e di indicizzazione di siti web su Google. Sono a disposizione di piccole e medie imprese, freelance e brand personali in cerca di una figura con esperienza e dedizione.

Ultima modifica: Giovedì 23 Maggio 2019