File Robots.txt: Cos’è e Come utilizzarlo correttamente

In questo articolo:

File Robots.txt: che cos’è
Come funziona il file robots.txt
Il file robots.txt è obbligatorio?
Come scrivere correttamente un file robots.txt
Come bloccare la scansione delle singole pagine?
L’importanza di creare correttamente il file robots.txt

Per rendere possibile l’indicizzazione dei siti web, i motori di ricerca fanno utilizzo di crawler che si occupano di scansionare i siti web e di rilevarne i contenuti. Per questo motivo, soprattutto se intendi favorire l’indicizzazione di un nuovo sito web, è opportuno realizzare al meglio il file "robots.txt" relativo al dominio. In questo articolo ti spiegheremo cos’è il file "robots.txt" e come realizzarlo al meglio in modo da consentire l’indicizzazione delle pagine giuste del tuo sito web.

File Robots.txt: che cos’è

Il file "robots.txt", anche detto "protocollo di esclusione robot", è un semplice file di testo, inserito nella cartella "root" (radice) del sito web, che ha la funzione di indicare ai crawler di indicizzazione che visitano il sito quali sono le regole stabilite da chi gestisce il sito web, e in particolare le regole sull’esclusione di pagine dall’indicizzazione.

Si tratta di un file di testo pubblico, posizionato all’indirizzo "www.nomesitoweb.it/robots.txt", che svolge un ruolo fondamentale nella comunicazione con i motori di ricerca. Gli spider di Google, ad esempio, lo leggono in maniera preventiva per analizzare meglio il contenuto del tuo sito web ed evitare di scansionare le pagine che gli indichi.

Considerato il suo ruolo chiave, il file "robots.txt" è (insieme alla "sitemap.xml", agli URL canonical e ai metadati) uno degli strumenti da conoscere assolutamente per ottimizzare il tuo sito web per i motori di ricerca.

Come funziona il file robots.txt

Come abbiamo appena detto, il file "robots.txt" serve a direzionare l’attenzione del crawlernei confronti di alcune pagine e non di altre. Per fare ciò, è necessario che contenga una serie di comandi per il crawler che indichino con precisioni su quali cartelle deve entrare e quali pagine deve scansionare. O meglio: quali pagine non deve scansionare.

Come suggerisce il nome "protocollo di esclusione robot", il file "robots.txt" è pensato principalmente per comunicare al crawler i contenuti da non scansionare, e non il contrario. Ne deriva che se vuoi che tutti i contenuti del tuo sito siano scansionati, non è affatto necessario che il file sia presente. Ma andiamo con ordine.

Il file robots.txt è obbligatorio?

L’inserimento del file "robots.txt" nel tuo sito web è altamente consigliata, ma non obbligatoria. Nel caso di Googlebot, ad esempio, il crawler, in fase di scansione, cercherà come prima cosa di recuperare il file "robots.txt" ma, nel caso in cui quest’ultimo non sia presente, procederà comunque con la normale scansione (ed eventuale indicizzazione) del sito.

Come abbiamo detto, il file robots serve principalmente a comunicare al crawler gli URL verso cui non effettuare la scansione. Il suo utilizzo, tuttavia, è consigliato in ogni caso, perché può contenere delle informazioni ulteriori per il crawler che vedremo nei prossimi paragrafi.

Come scrivere correttamente un file robots.txt

Quando parliamo di file "robots.txt", non ci riferiamo a nient’altro che a un piccolo file di testo, di solito creato con strumenti quali "notepad", che viene inserito nella cartella "root" del sito web. Come ormai avrai capito, il file si riferisce all’intero sito web, e non a un sotto-dominio. Pertanto, è necessario che il file si trovi all’interno della directory principale del sito web, piuttosto che in una sottodirectory.

Se si vuole che il file robots sia funzionante e che interagisca con il crawler nel modo giusto, è altresì necessario rispettare una sintassi specifica, utilizzando i comandi giusti e inserendo un comando per riga. Di seguito trovate un esempio di ciò che può essere contenuto in un normale file "robots":

User-Agent: *
Disallow:

User Agent

Entriamo ora nello specifico dei comandi da utilizzare nel file. Il primo comando che vediamo è "User-Agent". Questo comando fa riferimento alla tipologia di crawler cui si rivolgono i comandi successivi, e pertanto può essere seguito da "googlebot" o altri crawler.

Nell’esempio è seguito dall’asterisco ("*") che, come vedremo più avanti, è una sorta di carattere "jolly", e in questo caso indica che ci si sta rivolgendo a tutte le tipologie di spider (GoogleBot, BingBot eccetera).

Il comando "Disallow"

Una volta indicato il tipo di crawler a cui ci si rivolge, nel file Robots possiamo inserire una serie di direttive. La più importante è sicuramente "Disallow", che indica al crawler che si vuole impedire l’accesso a una specifica risorsa (file, pagina o cartella) contenuta nel nostro sito.

Ad esempio, se vogliamo impedire al crawler di scansionare una pagina specifica, il comando sarà:

Disallow: /pagina-da-non-scansionare
Se vogliamo, invece, impedire la scansione di una serie di pagine o contenuti presenti in una cartella, utilizzeremo la direttiva seguente:

Disallow: /cartella-da-non-scansionare/

Bisogna fare particolare attenzione: se dopo l’indicazione "Disallow:" mettiamo uno slash ("/"), stiamo impedendo allo spider l’accesso all’intero sito e ne stiamo pregiudicando, di fatto, l’indicizzazione. Pertanto, "Disallow: /" andrebbe utilizzato solamente nel caso in cui si sia preventivamente inserito uno specifico "User-Agent" (e non l’asterisco).

"Il comando "Allow"

Il comando "Allow" deve essere utilizzato solo in alcuni casi, e non in tutte le pagine che vogliamo siano scansionate. Infatti, "Allow" serve a consentire la scansione di pagine che sono comprese in un’altra istruzione "Disallow:" presente nello stesso file robots.txt. In sostanza, perciò, serve solo a inserire delle eccezioni a una direttiva disallow, come nell’esempio seguente:

Disallow: /cartella-segreta/
Allow: /cartella-sergreta/file-non-segreto.html

Nell’esempio, tutti i file contenuti nella "cartella-segreta" saranno esclusi dalla scansione, a eccezione del "file-non-segreto".

Altri comandi

Come abbiamo accennato, nel file Robots possono essere contenute anche altre istruzioni, come ad esempio "sitemap:", che indica al crawler dove trovare la sitemap del sito web, e "crawl-delay:".

Quest’ultima, in particolare è una direttiva che indica al bot di attendere un tempo (stabilito in secondi) per evitare il sovraccarico del server. Si tratta di un utilizzo sconsigliato, in quanto i siti web da indicizzare dovrebbero essere sempre ospitati da server che funzionano in maniera efficiente, senza l’utilizzo di questi espedienti temporanei.

Utilizzare i caratteri speciali

All’interno del file "robots.txt", inoltre, possono essere utilizzati una serie di caratteri speciali. Il primo lo abbiamo già visto: l’asterisco (*). Si tratta di una sorta di carattere jolly che può indicare diversi elementi, come nell’esempio che segue:

Disallow: /scarpe/*?

In questo caso, non verrà scansionato nessun url presente nella cartella scarpe che abbia al suo interno anche un punto interrogativo.

Un altro carattere speciale utile è il segno del dollaro ("$"), che indica la fine dell’url. Per cui nell’esempio seguente

Disallow: /*.pdf$

saranno esclusi dalla scansione tutti i file con estensione ".pdf" contenuti nel sito.

Come bloccare la scansione delle singole pagine?

Un file robots dovrebbe essre utilizzato solo per escludere la scansione di determinati contenuti nell’eventualità in cui quest’ultima causi un sovraccarico del server, oppure nel caso di serie di pagine duplicate, che non devono essere indicizzate, come ad esempio quelle che risultano da un filtro di ricerca nel catalogo dei tuoi prodotti. A differenza di quanto si pensa comunemente, perciò, non dovrebbe essere utilizzata per impedire l’indicizzazione di un singolo url.

Per chiedere a Google o ad altri motori di ricerca di non indicizzare una singola pagina, è meglio far utilizzo di meta tag "noindex", da inserire nel tag della pagina, o di "X-Robots-Tag" nell’intestazione HTTP.

Le pagine che contengono queste istruzioni, tuttavia, devono in primis poter essere sottoposte a scansione, per cui non devono essere inserite tra i "Disallow" del file "robots.txt".

Il problema degli url duplicati può essere risolto, inoltre, anche attraverso l’utilizzo dei rel canonical.

L’importanza di creare correttamente il file robots.txt

Ora che sai cos’è il file Robots.txt e come realizzarlo per comunicare con il crawler di Google, ricordati che è sempre utile che il file sia ottimizzato in modo da migliorare il proprio posizionamento sui motori di ricerca. Uno strumento molto utile per verificare il file robots del tuo sito web è il tool apposito integrato in Search Console raggiungibile a questo indirizzo.

Ricordati di rimanere sempre aggiornato sui più recenti aggiornamenti dell’algoritmo di Google, per non perdere l’opportunità di essere posizionato al meglio sui motori di ricerca. Per aiutarti, abbiamo parlato di recente dell’aggiornamento di Google Page Experience.

Se vuoi approfondire ancora di più l’argomento SEO, inoltre, in questo articolo abbiamo parlato di come ottimizzare un articolo per i motori di ricerca.

Se hai bisogno, la nostra agenzia di web marketing è a tua disposizione per una consulenza senza impegno e per un check-up SEO gratuito del tuo sito. Contattaci.

File Robots.txt: cos’è e come utilizzarlo correttamente per migliorare il tuo posizionamento su Google

Il file robots.txt rappresenta uno dei modi più efficaci per comunicare con i crawler dei motori di ricerca e indicare quali pagine devono essere scansionate. Vediamo insieme come funziona questo strumento e come utilizzarlo al meglio nell’ambito della propria strategia SEO.