Il crawl budget è il numero di pagine che Googlebot scansiona sul tuo sito in un dato periodo di tempo. Per siti piccoli (sotto 1.000 pagine), non è un problema: Google riesce a scansionare tutto regolarmente. Per siti grandi (e-commerce con migliaia di prodotti, portali con archivi estesi, marketplace), il crawl budget diventa critico: se Google spende risorse su pagine di basso valore, le pagine importanti vengono scansionate meno frequentemente.
Google determina il crawl budget basandosi su due fattori: crawl rate limit (quante richieste il server può gestire senza impattare le performance) e crawl demand (quanto Google ritiene importante scansionare il sito, basato su popolarità e freschezza dei contenuti).
Usa robots.txt per bloccare l'accesso a: pagine di ricerca interna, filtri e ordinamenti, pagine di login e registrazione, versioni stampa, e qualsiasi URL generato dinamicamente senza valore SEO. Attenzione: robots.txt blocca il crawl ma non l'indicizzazione. Per impedire l'indicizzazione, usa il tag noindex (ma Google deve scansionare la pagina per leggerlo).
La sitemap non è una lista di tutte le pagine: è una lista delle pagine che vuoi che Google indicizzi. Includi solo pagine canoniche, con contenuto di qualità, accessibili (200 OK). Escludi pagine con noindex, redirect, errori, e contenuto duplicato. Per siti grandi, usa sitemap divise per tipo (post, prodotti, categorie) con lastmod accurati.
Un server veloce permette a Google di scansionare più pagine nello stesso tempo. TTFB (Time To First Byte) sotto i 200ms è l'obiettivo. Se il server è lento durante il crawl, Google riduce il rate di scansione per non sovraccaricarti. Monitora il tasso di crawl in Search Console → Impostazioni → Statistiche di scansione.
Evita parametri URL inutili (?session=, ?ref=, ?sort=) che generano URL infiniti. Usa canonical tag per le varianti. Mantieni la profondità di navigazione entro 3 livelli. Ogni clic in più dalla homepage = minore probabilità di crawl per quella pagina.
Usa il tag noindex per pagine che vuoi scansionate ma non indicizzate (thank you pages, pagine archivio). Usa canonical per indicare la versione preferita quando esistono duplicati o varianti. Usa robots.txt per bloccare completamente il crawl di sezioni intere. Questi segnali vanno usati in modo coerente: un canonical che punta a una pagina noindex, o un noindex su una pagina in sitemap, sono errori che confondono Google.
Se il tuo sito ha meno di 10.000 pagine e non ha problemi tecnici gravi, probabilmente no. Diventa rilevante per e-commerce con 50.000+ prodotti, portali con archivi estesi, e siti che generano molti URL dinamici.
Google Search Console → Impostazioni → Statistiche di scansione mostra il numero di richieste di scansione al giorno, il tempo medio di risposta, e i codici di stato. Fertilyze integra questi dati nel monitoraggio tecnico per segnalare anomalie.
Il tuo account LANGA ti connette a tutta la Galaxy.
Articoli completi su tutti i blog Galaxy.
Un solo login, accesso ovunque.
Guadagna Leghe e sblocca contenuti premium.