Il file robots.txt di un sito

Il file robots.txt di un sito

Programmazione - Joomla Visite: 2970

Un file da non sottovalutare è il file robots.txt del nostro sito web.

Vediamo innanzitutto cos'è.

Il file robots.txt è un file di testo presente nella cartella principale del nostro sito web. Il file contiene le istruzioni per i motori di ricerca su cosa indicizzare e su cosa non indicizzare.

Anzi per essere precisi indica ai motori di ricerca cosa NON si deve indicizzare, tutto il resto è invece indicizzabile.

Ad esempio questo file può contenere qualcosa del tipo:

 

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/banners/
Disallow: /images/headers/
Disallow: /images/ImageNews/
Disallow: /images/sampledata/
Disallow: /images/stories/

 

Ovvero contiene la lista delle cartelle proibite ai motori di ricerca.

Vorrei sottolineare un punto: questo file contiene la seguente istruzione:

 

Disallow: /images/

 

Questo vuol dire che le immagini presenti sul sito (presenti nella cartelle images) non verranno indicizzate dai motori di ricerca.

Nell'esempio mostrato da me, ho escluso alcune sottocartelle di images, ma la cartella images l'ho lasciata indicizzabile.

Questo perché VOGLIO che i motori indicizzino le mie fotografie!

 

Altra cosa da sapere sul nostro magico file è che è bene inserire anche il riferimento alla sitemap del sito:

 

Sitemap: http://mauriziogiglio.info/index.php?option=com_osmap&view=xml&tmpl=component&id=1

 

Come si vede nell'esempio si punta alla sitemap generata dal componente OSMap.

Oppure si può fare:

 

Sitemap: http://mauriziogiglio.info/sitemap.xml

 

se avete fisicamente generato il vostro file.

 

Un utile strumento per testare l'affidabilità e la correttezza del vostro file robots lo trovate al seguent link: tool.motoricerca.info

Una volta che avete verificato, aggiornato e configurato il vostro file, con il link appena dato verificate che sia corretto e poi bisogna verificare che sia raggiungibile dai motori di ricerca.

Se usate gli Strumenti per Webmaster di Google, si può usare la voce:

 

Search Console -> Crawl -> robots.txt Tester

 

Qui trovate tutti gli strumenti per verificare se il bot di google raggiunge il vostro file, se può leggerlo e se ci sono errori.

 

Buon lavoro!