eNews

Technical SEO: crawl budget e indicizzazione per siti grandi

15 Giu 2026 2 min lettura

Crawl budget: cos'è e perché conta per siti grandi

Il crawl budget è il numero di pagine che Googlebot scansiona sul tuo sito in un dato periodo di tempo. Per siti piccoli (sotto 1.000 pagine), non è un problema: Google riesce a scansionare tutto regolarmente. Per siti grandi (e-commerce con migliaia di prodotti, portali con archivi estesi, marketplace), il crawl budget diventa critico: se Google spende risorse su pagine di basso valore, le pagine importanti vengono scansionate meno frequentemente.

Google determina il crawl budget basandosi su due fattori: crawl rate limit (quante richieste il server può gestire senza impattare le performance) e crawl demand (quanto Google ritiene importante scansionare il sito, basato su popolarità e freschezza dei contenuti).

Come ottimizzare il crawl budget

Blocca le pagine di basso valore

Usa robots.txt per bloccare l'accesso a: pagine di ricerca interna, filtri e ordinamenti, pagine di login e registrazione, versioni stampa, e qualsiasi URL generato dinamicamente senza valore SEO. Attenzione: robots.txt blocca il crawl ma non l'indicizzazione. Per impedire l'indicizzazione, usa il tag noindex (ma Google deve scansionare la pagina per leggerlo).

Sitemap XML strategica

La sitemap non è una lista di tutte le pagine: è una lista delle pagine che vuoi che Google indicizzi. Includi solo pagine canoniche, con contenuto di qualità, accessibili (200 OK). Escludi pagine con noindex, redirect, errori, e contenuto duplicato. Per siti grandi, usa sitemap divise per tipo (post, prodotti, categorie) con lastmod accurati.

Velocità del server

Un server veloce permette a Google di scansionare più pagine nello stesso tempo. TTFB (Time To First Byte) sotto i 200ms è l'obiettivo. Se il server è lento durante il crawl, Google riduce il rate di scansione per non sovraccaricarti. Monitora il tasso di crawl in Search Console → Impostazioni → Statistiche di scansione.

Architettura URL pulita

Evita parametri URL inutili (?session=, ?ref=, ?sort=) che generano URL infiniti. Usa canonical tag per le varianti. Mantieni la profondità di navigazione entro 3 livelli. Ogni clic in più dalla homepage = minore probabilità di crawl per quella pagina.

Segnali di indicizzazione: noindex, canonical, robots

Usa il tag noindex per pagine che vuoi scansionate ma non indicizzate (thank you pages, pagine archivio). Usa canonical per indicare la versione preferita quando esistono duplicati o varianti. Usa robots.txt per bloccare completamente il crawl di sezioni intere. Questi segnali vanno usati in modo coerente: un canonical che punta a una pagina noindex, o un noindex su una pagina in sitemap, sono errori che confondono Google.

Domande frequenti sul crawl budget

Il crawl budget è un problema per il mio sito?

Se il tuo sito ha meno di 10.000 pagine e non ha problemi tecnici gravi, probabilmente no. Diventa rilevante per e-commerce con 50.000+ prodotti, portali con archivi estesi, e siti che generano molti URL dinamici.

Come faccio a vedere quante pagine Google scansiona?

Google Search Console → Impostazioni → Statistiche di scansione mostra il numero di richieste di scansione al giorno, il tempo medio di risposta, e i codici di stato. Fertilyze integra questi dati nel monitoraggio tecnico per segnalare anomalie.

Aaccount

LANGA GALAXY

Per continuare a leggere,
accedi al tuo account.

Il tuo account LANGA ti connette a tutta la Galaxy.

Articoli completi su tutti i blog Galaxy.

Un solo login, accesso ovunque.

Guadagna Leghe e sblocca contenuti premium.

Accedi →Registrati gratis