Come utilizzare il file Robots.txt
Sai cos’è il file robots.txt e come usarlo al meglio ? Con questa guida imparerai ad utilizzare correttamente il file robots.txt.
Argomenti trattati in questo articolo
1. Cos’è Robots.txt
2. Come funziona un file Robots.txt?
3. Direttive Robots.txt non standard
4. Come utilizzare Robots.txt per SEO?
Cos’è robots.txt?
Il file robots.txt è un file di testo memorizzato nella directory principale di un sito Web che fornisce indicazioni ai crawler Web su quali pagine, cartelle e / o tipi di file dovrebbero o non dovrebbero essere accessibili e scansionati.
Queste istruzioni possono includere tutti i robot o fornire indicazioni a specifici user-agent.
I file robots.txt utilizzano il protocollo di esclusione dei robots sviluppato nel 1994 per i siti Web che comunicano con i crawler e altri bot di internet.
Quando i proprietari di siti web desiderano comunicare ai robot come eseguire la scansione dei loro siti, caricano il file robots.txt nella loro directory principale, ad es. https://www.example.com/robots.txt.
I crawler che arrivano sul sito recuperano e leggono il file robot.txt prima di qualsiasi altro file dal server.
Se un sito web non ha un file robots.txt, o il crawler non può caricarlo per qualche motivo, il bot presume che non vi siano specifiche istruzioni , scansionandolo senza limitazioni.
Quando si crea un file robots.txt, è fondamentale farlo utilizzando un file di testo normale.
L’uso di HTML o di un elaboratore di testi includerà il codice nel file che i crawler non sono in grado di leggere.
Ciò potrebbe indurli a ignorare le direttive nel file o a farlo in modo errato.
Quindi se vuoi utilizzare il file robot.txt in modo corretto è necessario comprendere bene come funziona.
Come funziona un file robots.txt?
Un file robots.txt è costituito da blocchi di codice contenenti due parti :
- User-agent
- Direttiva o Disallow line
Robots.txt user-agent
L’user-agent fa riferimento al nome utilizzato da un crawler web.
Quando un crawler arriva su un sito e apre il file robots.txt, il bot cercherà il suo nome in una delle linee user-agent.
L’utilizzo della parte user-agent di robots.txt è relativamente semplice.
L’ user-agent deve sempre essere elencato prima di ogni riga e ogni riga di user-agent può specificare solo un bot.
Ad esempio, se hai una pagina che non desideri che Google ne esegua la scansione , ma lo vorresti per Bing o Yandex, devi scrivere le tue istruzioni in questo modo:
User-agent: googlebot
Disallow: https://www.example.com/page
Ciò indica al web crawler di Google di non aprire la pagina all’indirizzo example.com/page, mentre gli user-agent per gli altri motori di ricerca continueranno a non essere interessati.
Se vuoi dare le stesse istruzioni a più di un user- agent, devi creare una serie di direttive per ciascuna di esse:
User-agent: googlebot
Disallow: https://www.example.com/page
User-agent: Bingbot
Disallow: https://www.example.com/page
L’esempio del file robots.txt appena descritto , indica a Google e Bing di non eseguire la scansione della pagina all’indirizzo https://www.example.com/page
Mentre gli altri bot come Baidu o Yandex continueranno a farlo.
Se desideri fornire direttive a tutti i web crawler che accedono al tuo sito, puoi utilizzare quello che viene chiamato carattere jolly o meta carattere.
I caratteri jolly sono rappresentati come un asterisco (*).
Quindi in un file robots.txt come questo:
User-agent: *
Disallow: https://www/example.com/page
I robot che leggono il file robots.txt interpreteranno automaticamente il carattere jolly come proprio user-agent.
Oggi, la maggior parte dei motori di ricerca hanno più crawler per fare cose diverse, come scansionare immagini, annunci, video o contenuti mobili.
Nel caso in cui un crawler incontri un file robots.txt che non include specificamente il suo user-agent, seguirà le istruzioni per lo user-agent più specifico che è rilevante per loro.
Questo è molto importante da ricordare quando si scrive un file robots.txt in modo da non bloccare accidentalmente gli user-agent sbagliati.
Robots.txt Disallow lines
La seconda parte di robots.txt è la direttiva, o Disallow lines.
Questa è la parte del codice che controlla quali pagine, cartelle o tipi di file non devono essere sottoposti a scansione da parte di un user-agent.
Queste linee sono di solito chiamate linee “non disponibili” perché è la direttiva più comune utilizzata in robots.txt per il SEO.
Tecnicamente, non devi mettere nulla in una linea non valida; i robot interpreteranno una riga vuota per indicare che è autorizzato a eseguire la scansione di tutto il sito.
Per bloccare l’intero server, utilizzare una barra (/) nella riga non consentita. Altrimenti, crea una nuova riga per ogni cartella, sottocartella o pagina che non desideri sottoporre a scansione. Il file Robots.txt usa il collegamento relativo, quindi non devi includere l’intero dominio in ogni riga.
Tuttavia, devi utilizzare la versione canonica dei tuoi URL che corrispondono alle strutture URL nella tua Sitemap
Prendi questo blocco di codice robots.txt come esempio:
User-agent: *
Disallow: /folder/subfolder/page.html
Disallow: /subfolder2/
Disallow: /folder2/
La prima riga interrompe tutti i bot (si noti il carattere jolly nella riga user-agent) dalla scansione della pagina https://www.example.com/folder/subfolder/page.html.
Poiché il comando specifica il file page.html, i bot eseguiranno ancora la scansione di altre pagine in quella cartella, nonché di eventuali istanze di page.html in altre directory.
La seconda riga, d’altra parte, non consente l’intera / sottocartella 2 / sottodirectory, il che significa che qualsiasi pagina trovata in quella cartella non deve essere sottoposta a scansione. Tuttavia, le pagine trovate in una / sottocartella3 / potrebbero ancora essere scansionate e indicizzate.
Infine, la terza riga ordina ai bot di saltare tutte le directory e i file trovati nella directory / folder2 /.
Utilizzare il file robots.txt per disabilitare specifici file o cartelle è il modo più semplice per farlo.
Tuttavia, è possibile ottenere un codice più preciso ed efficiente utilizzando il carattere jolly nelle righe non consentite.
Ecco un esempio di carattere jolly in azione:
User-agent: *
Disallow: /*.pdf
Disallow: /images/*.jpg
Disallow: /copies/duplicatepage*.html
Il carattere jolly è molto utile in quanto questi comandi indicano a tutti i programmi utente di non eseguire la scansione dei PDF ovunque sul sito o dei file jpeg nel file ‘images’. La terza riga impedisce ai robot di eseguire la scansione di qualsiasi file nella cartella “copie” contenente “duplicatepage” e “.html”. Pertanto, se il tuo sito utilizza parametri URL per l’analisi, il remarketing o l’ordinamento, i motori di ricerca non eseguiranno la scansione degli URL duplicati come:
/copies/duplicatepage1.html
/copies/duplicatepage2.html
/copies/duplicatepage.html?parameter=1234
Tieni presente che i crawler dei motori di ricerca stanno solo cercando gli URL che contengono i parametri di esclusione. Non cercano corrispondenze dirette, motivo per cui l’ultimo esempio non sarebbe consentito.
Nell’esempio sopra, anche un file in “/copies/duplicatepage/page.html” non sarebbe consentito poiché il carattere jolly si espanderebbe per diventare la parte “/ page”.
Utilizzando le regole di cui sopra, potrebbero esserci istanze di pagine che corrispondono inavvertitamente alle regole di esclusione, come quando viene utilizzata un’estensione di file esclusa nel nome del file, ad esempio una pagina HTML chiamata “how-to-create-a-.pdf”. Risolvi questo aggiungendo un segno di dollaro ($) per dire ai motori di ricerca di escludere solo le pagine che finiscono allo stesso modo della linea non disponibile. Quindi Disallow: /copies/duplicatepage*.html$ escluderà solo i file HTML che contengono ‘duplicatepage’.
Direttive Robots.txt non standard
Disallow è la direttiva standard riconosciuta da tutti i crawler dei motori di ricerca (è il Robots Exclusion Protocol). Tuttavia, esistono altre direttive meno conosciute riconosciute dai web crawler.
Consentire “Allow”
Se si desidera disabilitare un’intera cartella, ad eccezione di una pagina, utilizzando solo il comando disconnessione, è necessario scrivere una riga per ogni pagina tranne quella che si desidera sottoporre a scansione. In alternativa, utilizza una riga non consentita per bloccare l’intera cartella, quindi aggiungi una riga “Consenti” specificando solo la singola pagina che desideri sottoporre a scansione. Consenti funziona più o meno allo stesso modo Disallow:
User-agent: *
Disallow: /folder/subfolder/
Allow: /folder/subfolder/page.html
I caratteri jolly e le regole di corrispondenza funzionano allo stesso modo di disallow. Consenti “Allow” è riconosciuto da Google e Bing.
Altri comandi
Esistono alcune altre direttive non standard riconosciute dai web crawler che puoi utilizzare per influenzare ulteriormente il modo in cui il tuo sito viene sottoposto a scansione:
- ritardo di scansione: questa riga utilizza un valore numerico che specifica un numero di secondi. È riconosciuto da Bing e Yandex ma utilizzato in modo diverso da ciascuno. Bing attenderà il numero specificato di secondi prima di completare la successiva azione di ricerca per indicizzazione mentre Yandex attenderà quel numero di secondi tra la lettura del file robots.txt e la scansione del sito. Questo numero limiterà il numero di pagine del tuo sito che vengono sottoposte a scansione, pertanto non è consigliabile a meno che non si arrivi quasi a non ricevere traffico da tali fonti e sia necessario risparmiare larghezza di banda.
- Host: questo è riconosciuto da Yandex e funziona come una risoluzione WWW, dicendo al motore di ricerca che si tratta della versione canonica del dominio.
Tuttavia, poiché Yandex è l’unico motore di ricerca che lo utilizza, non è consigliabile utilizzarlo. Piuttosto, imposta il dominio preferito in Google Search Console e Bing Webmaster Tools, quindi imposta un reindirizzamento 301 per implementare una risoluzione WWW.
Infine, anche se non si tratta di un comando, puoi utilizzare il file robots.txt per collegarti alla tua Sitemap XML tramite la Sitemap: line. Questa riga è interpretata indipendentemente dall’agente utente, quindi aggiungila all’inizio o alla fine del file.
Se disponi di più sitemap, ad esempio immagini e / o sitemap video, includi una riga per ciascuna, insieme a una riga per il file indice Sitemap.
Come utilizzare Robots.txt per SEO?
Se l’obiettivo SEO è far sì che il tuo sito venga scansionato e indicizzato per classificarlo nei risultati di ricerca, perché vorresti bloccare le pagine?
La domanda è legittima. Tuttavia ci sono alcune situazioni in cui è preferibile che il contenuto non venga scansionato o visualizzato nei risultati di ricerca.
Disabilitare le cartelle o le pagine non importanti aiuterà i robot a utilizzare i loro budget di scansione in modo più efficiente.
Pensaci: ogni secondo in cui non eseguono la scansione dei tuoi file temporanei è un secondo che possono dedicare alla scansione di una pagina di prodotto.
Aggiungendo la Sitemap: la linea aiuterà anche i motori di ricerca ad accedere alla tua Sitemap in modo più semplice ed efficiente.
Come detto in precedenza , a volte il contenuto duplicato è inevitabile.
Non consentire la scansione di tali pagine con il tuo robots.txt , aiuterà il tuo sito web a rimanere fuori dalla penalizzazione Panda.
Non consentire agli user-agent dei motori di ricerca che operano in paesi che non ti interessano.
Se non puoi spedire in Russia o in Cina, potrebbe non avere senso avere Yandex e Baidu (i due motori di ricerca più popolari in quei paesi, rispettivamente) utilizzando la larghezza di banda eseguendo la scansione del tuo sito.
Hai pagine private che non vuoi visualizzare nei risultati di ricerca. Ricorda, però, che i file robots.txt sono pubblici, quindi chiunque può aprirlo e vedere queste pagine. Inoltre robots.txt non ferma il traffico diretto o gli utenti che seguono i collegamenti.
Durante la riprogettazione o la migrazione di un sito, è consigliabile non consentire la scansione dell’intero sito fino a quando non sarai in grado per aggiungere reindirizzamenti al tuo sito legacy.
Ciò impedirà ai motori di ricerca di eseguire la scansione del tuo sito prima che tu sia pronto, facendolo apparire come contenuto copiato dal tuo vecchio sito.
Incorrere in questa ‘penalità’ al momento del lancio del tuo sito non è un buon inizio.
A questo riguardo abbiamo relizzato una guida sui come reindirizzare una pagina su WordPress.
Quando utilizzi il tuo file robots.txt durante la migrazione di un sito, assicurati di aggiornare il file quando imposti il nuovo sito dal vivo. Questo è un errore comune e una delle prime cose da considerare quando si tenta di diagnosticare una perdita del traffico di ricerca e / o il calo del posizionamento.
Prima di caricare il tuo file robots.txt, esegui il Tester di Google in Search Console di Google.
Per testare il file, copia e incolla il codice nel tester.
La sintassi e gli errori logici saranno evidenziati immediatamente.
Una volta risolti, prova a verificare che i singoli URL che conosci debbano essere bloccati e consentire loro di verificare se il tuo file robots.txt è corretto.
Nota : il tester robots.txt di Google si applica solo a Googlebot.
Per verificare che il tuo file funzioni per Bing, utilizza la funzionalità Visualizza come Bingbot in Strumenti per i Webmaster di Bing.