Il file robots.txt è un file di testo nella root del sito che dice ai motori di ricerca quali pagine possono e non possono scansionare. È il primo file che Googlebot legge quando visita il tuo sito. Un robots.txt sbagliato può bloccare l'indicizzazione di pagine importanti (disastro SEO) o permettere il crawl di pagine inutili (spreco di crawl budget).
Il robots.txt usa direttive semplici: User-agent (a chi si applica la regola), Disallow (cosa non scansionare), Allow (eccezione a un Disallow), e Sitemap (posizione della sitemap XML). Le regole sono elaborate dall'alto verso il basso, e la regola più specifica vince.
Esempio base per un sito WordPress:
User-agent: * Allow: / Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-includes/ Disallow: /wp-json/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /?s= Sitemap: https://esempio.com/sitemap.xml
Pagine admin (wp-admin), risultati di ricerca interna (?s=), pagine carrello e checkout, pagine account utente, pagine con parametri di filtro/ordinamento, pagine di staging o test, e risorse che non vuoi indicizzare (PDF interni, file temporanei).
CSS e JavaScript (Google ne ha bisogno per il rendering), immagini (a meno che non vuoi escluderle da Google Images), pagine con contenuto che vuoi indicizzare. Un errore classico è bloccare /wp-content/ che contiene CSS, JS e immagini necessari per il rendering.
Robots.txt blocca il crawl — Google non visita la pagina. Noindex permette il crawl ma impedisce l'indicizzazione. Se una pagina ha backlink e vuoi che Google la scansioni (per trasferire il valore dei link) ma non la indicizzi, usa noindex. Se vuoi risparmiare crawl budget su sezioni intere senza valore, usa robots.txt Disallow.
Sempre nella root: https://tuosito.com/robots.txt. In WordPress, è generato dinamicamente (puoi modificarlo con il plugin SEO o con il filtro robots_txt). Verifica che sia accessibile: 200 OK, non 404.
Sì. Un "Disallow: /" blocca l'intero sito dal crawl. È un errore che succede più spesso di quanto si pensi, specialmente dopo migrazioni. Fertilyze verifica automaticamente che il robots.txt non blocchi pagine importanti.
Il tuo account LANGA ti connette a tutta la Galaxy.
Articoli completi su tutti i blog Galaxy.
Un solo login, accesso ovunque.
Guadagna Leghe e sblocca contenuti premium.