Cos’è e a cosa serve un file robots.txt

Tutti possono creare un sito web da zero, scegliendo il web hosting WordPress ideale e installando in modo automatico WordPress con il miglior template. Ma quanti sono in grado di renderlo performante? Oggi parleremo del file robots.txt essendo uno strumento fondamentale per lavorare correttamente sul posizionamento sui motori di ricerca.

Per capire il funzionamento del file robots.txt occorre saper inserire file nella root del sito e, una volta creato, questo sarà raggiungibile digitando semplicemente la url del sito seguita dalla root di riferimento, ovvero www.tuodominio.it/robots.txt. Ma cos’è questo file e perché è così importante per un sito web? Ne parliamo in questa guida adatta ai principianti!

Robots.txt, cos’è

Se dovessimo scrivere una definizione del file robots.txt questa sarebbe più o meno la seguente:

“Il file robots.txt è un semplice file di testo che viene inserito nella radice del proprio sito web e che, per l’appunto, viene utilizzato per comunicare con i motori di ricerca. All’interno di questo file ci sono informazioni tali da migliorare la scansione e la lettura del crawler”.

Ok, ma cos’è un crawler e cosa fa sul sito?

Il crawler, detto anche spider o robot, è un software complesso che analizza i contenuti di una rete e lo fa in modo automatizzato e periodico in base a ciò che il motore di ricerca ha impostato. Si tratta di un programma o di uno script che esegue l’acquisizione testuale dei documenti presenti in una o più pagine web e che crea un indice con il quale ordina la ricerca e la visualizzazione successiva.

Il crawler sul web è basato su una lista di URL da visitare entro le quali questo analizza i collegamenti ipertestuali nel documento. Il file robot.txt, per l’appunto, guida il crawler durante questa analisi e indica quali pagine devono essere analizzate rispetto a quelle da ignorare. Chiaramente il crawler considera queste delle mere indicazioni e, quindi, non è possibile aggirarlo o manipolarlo salvo rarissimi casi.

Come funziona

Il file robots.txt, dunque, consente di indicare al crawler dove concentrare l’attenzione ma è lo stesso Google a ricordare che le informazioni inserite in questo file non sono sempre seguite alla lettera. Nel file, quindi, non sono riportate regole ma linee guida che facilitano l’analisi di un sito web.

In questo modo è possibile indirizzare il crawler su determinate pagine e di fargli ignorare delle altre ma questo lavoro deve essere fatto secondo un preciso criterio che certamente richiede competenze di scrittura della sintassi da acquisire con un po’ di formazione e studio.

Come creare un robots.txt

In ogni file robots.txt c’è sempre un user agent, ovvero lo spider preso in considerazione per l’analisi. Quando il file si rivolge a tutti si userà semplicemente l’asterisco, per cui la sintassi diventerà la seguente:

User-Agent: *

Successivamente si segue con il comando Disallow grazie al quale si nega l’accesso in determinate pagine o cartelle del sito. Il comando va ripetuto per tutte le risorse a cui si vuole negare l’accesso e, quindi, un esempio di buona sintassi potrebbe essere il seguente:

User-agent: *

Disallow: /cartella_con_file_privati/

Ovviamente se usi l’asterisco all’user agent stai dicendo a tutti i crawler di ignorare il tuo sito, perciò presta attenzione a questo strumento perché rischieresti di impostare un comando che penalizza l’intero sito.

Per escludere l’intero sito dall’analisi del crawler, quindi, il giusto comando da riportare nel file sarà il seguente:

User-agent: *

Disallow: /

In questo modo stai dicendo a qualsiasi spider di ignorare tutto il tuo sito e questa è una situazione di errore molto comune che, nella ricerca su Google, darà il seguente risultato di ricerca:

“una descrizione per questo risultato non è disponibile a causa del file robots.txt di questo sito”.

Come imparare a scrivere file robots.txt

Ora che hai compreso il funzionamento di questo strumento sicuramente ti starai chiedendo come imparare a scriverne correttamente il contenuto. Sicuramente l’esperienza e la pratica sono ottimi spunti per imparare ma, per evitare di combinare pasticci, è preferibile imparare ad usare la Search Console dove è sempre possibile modificare e verificare lo stato del file.

Inoltre ti permette di controllare se ci sono errori e miglioramenti da fare in pagina oltre a darti la possibilità di controllare la presenza di blocchi e penalizzazioni selezionando anche il tipo di spider. La Search Console di Google, quindi, è un ottimo punto di partenza per prendere dimestichezza con questo strumento.

In verità c’è anche chi salta a piè pari la fase “formativa” e usa software che generano automaticamente file robots.txt ma noi li sconsigliamo perché prima di copiare e incollare un codice è preferibile capire cosa significa e quali conseguenze comporta.

Se non sai aggiungere una cartella sul tuo sito, molto probabilmente è il caso di fare un passo indietro e rispolverare le basi. Padroneggiare le directory del sito web è l’ABC per la creazione dello stesso, per cui non avrebbe senso copiare un file robots.txt senza capire bene cosa stai facendo. Non trovi?

Ad ogni modo per fare pratica potresti usare questo tool gratuito con il quale generi file robots.txt includendo ed escludendo le directory del tuo sito che ritieni siano utili o meno per l’indicizzazione.

Prima di passare al file robots.txt, in conclusione, ti lasciamo con una domanda un po’ provocatoria: come sono messi i contenuti del tuo sito? È tutto perfettamente in ordine o ci sono miglioramenti da apportare prima di invitare un crawler ad entrare?

Pubblicato: 19/02/2021 17:45 | Aggiornamento: 25/05/2021 12:04