eNews

Robots.txt: guida completa per controllare cosa Google scansiona

15 Giu 2026 1 min lettura

Robots.txt: il portiere del tuo sito web

Il file robots.txt è un file di testo nella root del sito che dice ai motori di ricerca quali pagine possono e non possono scansionare. È il primo file che Googlebot legge quando visita il tuo sito. Un robots.txt sbagliato può bloccare l'indicizzazione di pagine importanti (disastro SEO) o permettere il crawl di pagine inutili (spreco di crawl budget).

Sintassi essenziale

Il robots.txt usa direttive semplici: User-agent (a chi si applica la regola), Disallow (cosa non scansionare), Allow (eccezione a un Disallow), e Sitemap (posizione della sitemap XML). Le regole sono elaborate dall'alto verso il basso, e la regola più specifica vince.

Esempio base per un sito WordPress:

User-agent: *
Allow: /
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-json/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /?s=

Sitemap: https://esempio.com/sitemap.xml

Cosa bloccare e cosa no

Blocca (Disallow)

Pagine admin (wp-admin), risultati di ricerca interna (?s=), pagine carrello e checkout, pagine account utente, pagine con parametri di filtro/ordinamento, pagine di staging o test, e risorse che non vuoi indicizzare (PDF interni, file temporanei).

Non bloccare

CSS e JavaScript (Google ne ha bisogno per il rendering), immagini (a meno che non vuoi escluderle da Google Images), pagine con contenuto che vuoi indicizzare. Un errore classico è bloccare /wp-content/ che contiene CSS, JS e immagini necessari per il rendering.

Robots.txt vs noindex

Robots.txt blocca il crawl — Google non visita la pagina. Noindex permette il crawl ma impedisce l'indicizzazione. Se una pagina ha backlink e vuoi che Google la scansioni (per trasferire il valore dei link) ma non la indicizzi, usa noindex. Se vuoi risparmiare crawl budget su sezioni intere senza valore, usa robots.txt Disallow.

Domande frequenti

Dov'è il mio robots.txt?

Sempre nella root: https://tuosito.com/robots.txt. In WordPress, è generato dinamicamente (puoi modificarlo con il plugin SEO o con il filtro robots_txt). Verifica che sia accessibile: 200 OK, non 404.

Un robots.txt sbagliato può deindicizzare il sito?

Sì. Un "Disallow: /" blocca l'intero sito dal crawl. È un errore che succede più spesso di quanto si pensi, specialmente dopo migrazioni. Fertilyze verifica automaticamente che il robots.txt non blocchi pagine importanti.

Aaccount

LANGA GALAXY

Per continuare a leggere,
accedi al tuo account.

Il tuo account LANGA ti connette a tutta la Galaxy.

Articoli completi su tutti i blog Galaxy.

Un solo login, accesso ovunque.

Guadagna Leghe e sblocca contenuti premium.

Accedi →Registrati gratis