Magazine

24/03/2022, Autore: OIS Agenzia

File Robots.txt: cos’è e come utilizzarlo correttamente per migliorare il tuo posizionamento su Google

Il file robots.txt rappresenta uno dei modi più efficaci per comunicare con i crawler dei motori di ricerca e indicare quali pagine devono essere scansionate. Vediamo insieme come funziona questo strumento e come utilizzarlo al meglio nell’ambito della propria strategia SEO.

file robots.txt come funziona

torna indietro

Per rendere possibile l’indicizzazione dei siti web, i motori di ricerca fanno utilizzo di crawler che si occupano di scansionare i siti web e di rilevarne i contenuti. Per questo motivo, soprattutto se intendi favorire l’indicizzazione di un nuovo sito web, è opportuno realizzare al meglio il file "robots.txt" relativo al dominio. In questo articolo ti spiegheremo cos’è il file "robots.txt" e come realizzarlo al meglio in modo da consentire l’indicizzazione delle pagine giuste del tuo sito web.

File Robots.txt: che cos’è

Il file "robots.txt", anche detto "protocollo di esclusione robot", è un semplice file di testo, inserito nella cartella "root" (radice) del sito web, che ha la funzione di indicare ai crawler di indicizzazione che visitano il sito quali sono le regole stabilite da chi gestisce il sito web, e in particolare le regole sull’esclusione di pagine dall’indicizzazione.

Si tratta di un file di testo pubblico, posizionato all’indirizzo "www.nomesitoweb.it/robots.txt", che svolge un ruolo fondamentale nella comunicazione con i motori di ricerca. Gli spider di Google, ad esempio, lo leggono in maniera preventiva per analizzare meglio il contenuto del tuo sito web ed evitare di scansionare le pagine che gli indichi.

Considerato il suo ruolo chiave, il file "robots.txt" è (insieme alla "sitemap.xml", agli URL canonical e ai metadati) uno degli strumenti da conoscere assolutamente per ottimizzare il tuo sito web per i motori di ricerca.

Come funziona il file robots.txt

Come abbiamo appena detto, il file "robots.txt" serve a direzionare l’attenzione del crawlernei confronti di alcune pagine e non di altre. Per fare ciò, è necessario che contenga una serie di comandi per il crawler che indichino con precisioni su quali cartelle deve entrare e quali pagine deve scansionare. O meglio: quali pagine non deve scansionare.

Come suggerisce il nome "protocollo di esclusione robot", il file "robots.txt" è pensato principalmente per comunicare al crawler i contenuti da non scansionare, e non il contrario. Ne deriva che se vuoi che tutti i contenuti del tuo sito siano scansionati, non è affatto necessario che il file sia presente. Ma andiamo con ordine.

Il file robots.txt è obbligatorio?

L’inserimento del file "robots.txt" nel tuo sito web è altamente consigliata, ma non obbligatoria. Nel caso di Googlebot, ad esempio, il crawler, in fase di scansione, cercherà come prima cosa di recuperare il file "robots.txt" ma, nel caso in cui quest’ultimo non sia presente, procederà comunque con la normale scansione (ed eventuale indicizzazione) del sito.

Come abbiamo detto, il file robots serve principalmente a comunicare al crawler gli URL verso cui non effettuare la scansione. Il suo utilizzo, tuttavia, è consigliato in ogni caso, perché può contenere delle informazioni ulteriori per il crawler che vedremo nei prossimi paragrafi.

Come scrivere correttamente un file robots.txt

Quando parliamo di file "robots.txt", non ci riferiamo a nient’altro che a un piccolo file di testo, di solito creato con strumenti quali "notepad", che viene inserito nella cartella "root" del sito web. Come ormai avrai capito, il file si riferisce all’intero sito web, e non a un sotto-dominio. Pertanto, è necessario che il file si trovi all’interno della directory principale del sito web, piuttosto che in una sottodirectory.

Se si vuole che il file robots sia funzionante e che interagisca con il crawler nel modo giusto, è altresì necessario rispettare una sintassi specifica, utilizzando i comandi giusti e inserendo un comando per riga. Di seguito trovate un esempio di ciò che può essere contenuto in un normale file "robots":

User-Agent: *
Disallow:

User Agent

Entriamo ora nello specifico dei comandi da utilizzare nel file. Il primo comando che vediamo è "User-Agent". Questo comando fa riferimento alla tipologia di crawler cui si rivolgono i comandi successivi, e pertanto può essere seguito da "googlebot" o altri crawler.

Nell’esempio è seguito dall’asterisco ("*") che, come vedremo più avanti, è una sorta di carattere "jolly", e in questo caso indica che ci si sta rivolgendo a tutte le tipologie di spider (GoogleBot, BingBot eccetera).

Il comando "Disallow"

Una volta indicato il tipo di crawler a cui ci si rivolge, nel file Robots possiamo inserire una serie di direttive. La più importante è sicuramente "Disallow", che indica al crawler che si vuole impedire l’accesso a una specifica risorsa (file, pagina o cartella) contenuta nel nostro sito.

Ad esempio, se vogliamo impedire al crawler di scansionare una pagina specifica, il comando sarà:

Disallow: /pagina-da-non-scansionare
Se vogliamo, invece, impedire la scansione di una serie di pagine o contenuti presenti in una cartella, utilizzeremo la direttiva seguente:

Disallow: /cartella-da-non-scansionare/

Bisogna fare particolare attenzione: se dopo l’indicazione "Disallow:" mettiamo uno slash ("/"), stiamo impedendo allo spider l’accesso all’intero sito e ne stiamo pregiudicando, di fatto, l’indicizzazione. Pertanto, "Disallow: /" andrebbe utilizzato solamente nel caso in cui si sia preventivamente inserito uno specifico "User-Agent" (e non l’asterisco).

"Il comando "Allow"

Il comando "Allow" deve essere utilizzato solo in alcuni casi, e non in tutte le pagine che vogliamo siano scansionate. Infatti, "Allow" serve a consentire la scansione di pagine che sono comprese in un’altra istruzione "Disallow:" presente nello stesso file robots.txt. In sostanza, perciò, serve solo a inserire delle eccezioni a una direttiva disallow, come nell’esempio seguente:

Disallow: /cartella-segreta/
Allow: /cartella-sergreta/file-non-segreto.html

Nell’esempio, tutti i file contenuti nella "cartella-segreta" saranno esclusi dalla scansione, a eccezione del "file-non-segreto".

Altri comandi

Come abbiamo accennato, nel file Robots possono essere contenute anche altre istruzioni, come ad esempio "sitemap:", che indica al crawler dove trovare la sitemap del sito web, e "crawl-delay:".

Quest’ultima, in particolare è una direttiva che indica al bot di attendere un tempo (stabilito in secondi) per evitare il sovraccarico del server. Si tratta di un utilizzo sconsigliato, in quanto i siti web da indicizzare dovrebbero essere sempre ospitati da server che funzionano in maniera efficiente, senza l’utilizzo di questi espedienti temporanei.

Utilizzare i caratteri speciali

All’interno del file "robots.txt", inoltre, possono essere utilizzati una serie di caratteri speciali. Il primo lo abbiamo già visto: l’asterisco (*). Si tratta di una sorta di carattere jolly che può indicare diversi elementi, come nell’esempio che segue:

Disallow: /scarpe/*?

In questo caso, non verrà scansionato nessun url presente nella cartella scarpe che abbia al suo interno anche un punto interrogativo.

Un altro carattere speciale utile è il segno del dollaro ("$"), che indica la fine dell’url. Per cui nell’esempio seguente

Disallow: /*.pdf$

saranno esclusi dalla scansione tutti i file con estensione ".pdf" contenuti nel sito.

Come bloccare la scansione delle singole pagine?

Un file robots dovrebbe essre utilizzato solo per escludere la scansione di determinati contenuti nell’eventualità in cui quest’ultima causi un sovraccarico del server, oppure nel caso di serie di pagine duplicate, che non devono essere indicizzate, come ad esempio quelle che risultano da un filtro di ricerca nel catalogo dei tuoi prodotti. A differenza di quanto si pensa comunemente, perciò, non dovrebbe essere utilizzata per impedire l’indicizzazione di un singolo url.

Per chiedere a Google o ad altri motori di ricerca di non indicizzare una singola pagina, è meglio far utilizzo di meta tag "noindex", da inserire nel tag della pagina, o di "X-Robots-Tag" nell’intestazione HTTP.

Le pagine che contengono queste istruzioni, tuttavia, devono in primis poter essere sottoposte a scansione, per cui non devono essere inserite tra i "Disallow" del file "robots.txt".

Il problema degli url duplicati può essere risolto, inoltre, anche attraverso l’utilizzo dei rel canonical.

L’importanza di creare correttamente il file robots.txt

Ora che sai cos’è il file Robots.txt e come realizzarlo per comunicare con il crawler di Google, ricordati che è sempre utile che il file sia ottimizzato in modo da migliorare il proprio posizionamento sui motori di ricerca. Uno strumento molto utile per verificare il file robots del tuo sito web è il tool apposito integrato in Search Console raggiungibile a questo indirizzo.

Ricordati di rimanere sempre aggiornato sui più recenti aggiornamenti dell’algoritmo di Google, per non perdere l’opportunità di essere posizionato al meglio sui motori di ricerca. Per aiutarti, abbiamo parlato di recente dell’aggiornamento di Google Page Experience.

Se vuoi approfondire ancora di più l’argomento SEO, inoltre, in questo articolo abbiamo parlato di come ottimizzare un articolo per i motori di ricerca.

Se hai bisogno, la nostra agenzia di web marketing è a tua disposizione per una consulenza senza impegno e per un check-up SEO gratuito del tuo sito. Contattaci.

Articoli correlati

16/05/2025

Creare un sito di e commerce: la nuova frontiera dell’online

Creare un sito di e-commerce non riguarda solo la vendita di prodotti o servizi, ma rappresenta una vera e propria strategia di marketing. Un sito e-commerce, infatti darà la possibilità al tuo business di fidelizzare i clienti e creare un legame di fiducia con essi. A seconda delle tue esigenze e potrai scegliere tra diversi tipi di siti di e-commerce. Vuoi vendere al consumatore finale? Scegli un modello B2C o D2C.
Ti rivolgi ad altre aziende? Opta per un B2B. Vuoi creare una piattaforma tra utenti? Il modello giusto è il C2C. Inoltre ti suggeriremo tutti i passaggi per creare un sito di e-commerce di successo.

13/05/2025

Marketing experience: quando il brand diventa un’emozione

la marketing experience, a differenza del marketing tradizionale permette al brand di suscitare emozioni nei consumatori, in modo che associno il marchio all’esperienza che hanno vissuto. Le caratteristiche di una marketing experience che funzioni sono sicuramente il coinvolgimento emotivo, l’esperienza personalizzata, l’interazione diretta con il brand e la memorabilità. Noi di OIS abbiamo elencato alcuni esempi famosi di marketing experience adottati da alcuni brand per far vivere ai propri clienti un’esperienza unica. Se anche tu sei alla ricerca di idee per creare un legame emotivo con il tuo pubblico e definire la tua brand identity, contattaci.

09/05/2025

Siti di vendita online: Amazon ed eBay a confronto

Amazon ed eBay sono i siti di vendita online più utilizzati al giorno d’oggi. Si differenziano per struttura del business, costi e commise servizi accessori. Noi di OIS abbiamo analizzato vantaggi e svantaggi di ciascuna piattaforma per suggerirti al meglio a qual sito di vendite online affidarti. Amazon è idelale per vendere prodotti nuovi standardizzati, inoltre offre un servizio di logistica integrato, ma prevede commissioni elevate. eBay, invece, è perfetto per artigiani, per la vendita di oggetti di nicchia, e prevede maggiore libertà e minori costi. Una web agency può assisterti nella gestione dei tuoi siti di vendita online su entrambe le piattaforme.

Non perderti nemmeno una novità

Non perderti nemmeno
una novità!

Condividiamo con te le ultime opportunità del mondo digital e qualche spunto creativo. Non ti intaseremo la casella e-mail, promesso!