Per rendere possibile l’
indicizzazione dei siti web, i motori di ricerca fanno utilizzo di
crawler che si occupano di
scansionare i siti web e di
rilevarne i contenuti. Per questo motivo, soprattutto se intendi
favorire l’indicizzazione di un nuovo sito web, è opportuno realizzare al meglio il file
"robots.txt" relativo al dominio. In questo articolo ti spiegheremo
cos’è il file "robots.txt" e
come realizzarlo al meglio in modo da consentire l’indicizzazione delle pagine giuste del tuo sito web.
File Robots.txt: che cos’è
Il file
"robots.txt", anche detto
"protocollo di esclusione robot", è un semplice
file di testo, inserito nella cartella "root" (radice) del sito web, che ha la funzione di
indicare ai crawler di indicizzazione che visitano il sito quali sono le regole stabilite da chi gestisce il sito web, e in particolare le regole sull’esclusione di pagine dall’indicizzazione.
Si tratta di un
file di testo pubblico, posizionato all’indirizzo
"www.nomesitoweb.it/robots.txt", che
svolge un ruolo fondamentale nella comunicazione con i motori di ricerca. Gli spider di Google, ad esempio, lo leggono in maniera preventiva per
analizzare meglio il contenuto del tuo sito web ed evitare di scansionare le pagine che gli indichi.
Considerato il suo ruolo chiave, il file
"robots.txt" è (insieme alla
"sitemap.xml", agli
URL canonical e ai
metadati) uno degli
strumenti da conoscere assolutamente per
ottimizzare il tuo sito web per i motori di ricerca.
Come funziona il file robots.txt
Come abbiamo appena detto,
il file "robots.txt" serve a direzionare l’attenzione del crawlernei confronti di alcune pagine e non di altre. Per fare ciò, è necessario che contenga
una serie di comandi per il crawler che indichino con precisioni su quali cartelle deve entrare e quali pagine deve scansionare. O meglio:
quali pagine non deve scansionare.
Come suggerisce il nome
"protocollo di esclusione robot", il file
"robots.txt" è pensato principalmente per
comunicare al crawler i contenuti da non scansionare, e non il contrario. Ne deriva che
se vuoi che tutti i contenuti del tuo sito siano scansionati, non è affatto necessario che il file sia presente. Ma andiamo con ordine.
Il file robots.txt è obbligatorio?
L’
inserimento del file "robots.txt" nel tuo sito web è
altamente consigliata, ma
non obbligatoria. Nel caso di
Googlebot, ad esempio, il crawler, in fase di scansione, cercherà come prima cosa di recuperare il file "robots.txt" ma,
nel caso in cui quest’ultimo non sia presente, procederà comunque con la normale scansione (ed eventuale indicizzazione) del sito.
Come abbiamo detto,
il file robots serve principalmente a comunicare al crawler gli URL verso cui non effettuare la scansione. Il suo utilizzo, tuttavia, è
consigliato in ogni caso, perché
può contenere delle informazioni ulteriori per il crawler che vedremo nei prossimi paragrafi.
Come scrivere correttamente un file robots.txt
Quando parliamo di
file "robots.txt", non ci riferiamo a nient’altro che a
un piccolo file di testo, di solito creato con strumenti quali "notepad", che viene
inserito nella cartella "root" del sito web. Come ormai avrai capito,
il file si riferisce all’intero sito web, e non a un sotto-dominio. Pertanto,
è necessario che il file si trovi all’interno della directory principale del sito web, piuttosto che in una sottodirectory.
Se si vuole che il file robots sia funzionante e che interagisca con il crawler nel modo giusto, è altresì necessario
rispettare una sintassi specifica, utilizzando i
comandi giusti e inserendo
un comando per riga. Di seguito trovate un
esempio di ciò che può essere contenuto in un normale file "robots":
User-Agent: *Disallow:User Agent
Entriamo ora nello specifico dei
comandi da utilizzare nel file. Il primo comando che vediamo è
"User-Agent". Questo comando
fa riferimento alla tipologia di crawler cui si rivolgono i comandi successivi, e pertanto può essere seguito da "googlebot" o altri crawler.
Nell’esempio è seguito dall’
asterisco ("*") che, come vedremo più avanti, è una sorta di
carattere "jolly", e in questo caso
indica che ci si sta rivolgendo a tutte le tipologie di spider (GoogleBot, BingBot eccetera).
Il comando "Disallow"
Una volta indicato il tipo di crawler a cui ci si rivolge, nel file Robots possiamo inserire
una serie di direttive. La più importante è sicuramente
"Disallow", che
indica al crawler che si vuole impedire l’accesso a una specifica risorsa (file, pagina o cartella) contenuta nel nostro sito.
Ad esempio, se vogliamo
impedire al crawler di scansionare una pagina specifica, il comando sarà:
Disallow: /pagina-da-non-scansionareSe vogliamo, invece,
impedire la scansione di una serie di pagine o contenuti presenti in una cartella, utilizzeremo la direttiva seguente:
Disallow: /cartella-da-non-scansionare/Bisogna fare particolare attenzione:
se dopo l’indicazione "Disallow:" mettiamo uno slash ("/"), stiamo impedendo allo spider l’accesso all’intero sito e ne stiamo pregiudicando, di fatto, l’indicizzazione. Pertanto, "Disallow: /" andrebbe utilizzato solamente nel caso in cui si sia preventivamente inserito uno specifico "User-Agent" (e non l’asterisco).
"Il comando "Allow"
Il comando
"Allow" deve essere
utilizzato solo in alcuni casi, e
non in tutte le pagine che vogliamo siano scansionate. Infatti, "Allow" serve a consentire la scansione di pagine che sono comprese in un’altra istruzione "Disallow:" presente nello stesso file robots.txt. In sostanza, perciò, serve solo a
inserire delle eccezioni a una direttiva disallow, come nell’esempio seguente:
Disallow: /cartella-segreta/Allow: /cartella-sergreta/file-non-segreto.htmlNell’esempio,
tutti i file contenuti nella "cartella-segreta" saranno esclusi dalla scansione,
a eccezione del "file-non-segreto".
Altri comandi
Come abbiamo accennato,
nel file Robots possono essere contenute anche altre istruzioni, come ad esempio
"sitemap:", che
indica al crawler dove trovare la sitemap del sito web, e
"crawl-delay:".
Quest’ultima, in particolare è una
direttiva che indica al bot di attendere un tempo (stabilito in secondi)
per evitare il sovraccarico del server. Si tratta di un
utilizzo sconsigliato, in quanto i siti web da indicizzare dovrebbero essere sempre ospitati da server che funzionano in maniera efficiente, senza l’utilizzo di questi espedienti temporanei.
Utilizzare i caratteri speciali
All’interno del file
"robots.txt", inoltre, possono essere utilizzati
una serie di caratteri speciali. Il primo lo abbiamo già visto: l’
asterisco (*). Si tratta di una sorta di
carattere jolly che può indicare diversi elementi, come nell’esempio che segue:
Disallow: /scarpe/*?In questo caso,
non verrà scansionato nessun url presente nella cartella scarpe che abbia al suo interno anche un punto interrogativo.
Un altro carattere speciale utile è il segno del
dollaro ("$"), che indica la
fine dell’url. Per cui nell’esempio seguente
Disallow: /*.pdf$saranno
esclusi dalla scansione tutti i file con estensione ".pdf" contenuti nel sito.
Come bloccare la scansione delle singole pagine?
Un file robots dovrebbe essre
utilizzato solo per escludere la scansione di determinati contenuti nell’eventualità in cui quest’ultima causi un
sovraccarico del server, oppure nel caso di
serie di pagine duplicate, che non devono essere indicizzate, come ad esempio quelle che risultano da un filtro di ricerca nel catalogo dei tuoi prodotti. A differenza di quanto si pensa comunemente, perciò,
non dovrebbe essere utilizzata per impedire l’indicizzazione di un singolo url.
Per chiedere a Google o ad altri motori di ricerca di non indicizzare una singola pagina, è meglio far utilizzo di
meta tag "noindex", da inserire nel tag della pagina, o di
"X-Robots-Tag" nell’intestazione HTTP.
Le pagine che contengono queste istruzioni, tuttavia,
devono in primis poter essere sottoposte a scansione, per cui non devono essere inserite tra i "Disallow" del file "robots.txt".
Il problema degli
url duplicati può essere risolto, inoltre, anche attraverso l’utilizzo dei
rel canonical.
L’importanza di creare correttamente il file robots.txt
Ora che sai
cos’è il file Robots.txt e
come realizzarlo per comunicare con il crawler di Google, ricordati che è sempre utile che il file sia ottimizzato in modo da migliorare il proprio posizionamento sui motori di ricerca. Uno strumento molto utile per
verificare il file robots del tuo sito web è il
tool apposito integrato in Search Console raggiungibile a
questo indirizzo.
Ricordati di rimanere sempre aggiornato sui
più recenti aggiornamenti dell’algoritmo di Google, per non perdere l’opportunità di essere posizionato al meglio sui motori di ricerca. Per aiutarti, abbiamo parlato di recente dell’aggiornamento di
Google Page Experience.
Se vuoi approfondire ancora di più l’argomento
SEO, inoltre, in
questo articolo abbiamo parlato di
come ottimizzare un articolo per i motori di ricerca.
Se hai bisogno, la nostra
agenzia di web marketing è a tua disposizione per una
consulenza senza impegno e per un
check-up SEO gratuito del tuo sito.
Contattaci.