I file Robots sono dei comuni file di testo con determinate istruzioni e vengono spesso utilizzati per isolare alcuni contenuti del nostro sito che non vogliamo far indicizzare allo spider.
Questo metodo potrebbe essere utile per contenuti che vogliamo che rimangano privati e per non mischiare le statistiche delle visite degli utenti con quelle degli spider. Ma si va incontro a un altro problema: quello che se diamo istruzioni allo spider di non indicizzare una certa pagina, quella pagina non apparirà nelle SERP dei motori di ricerca.
La normale sintassi di un file robots è la seguente:
User-agent: *
Disallow: /
User-agent: googlebot
Disallow: /
User-agent: *
Disallow: cartella/catalogo.html
L’asterisco nel campo User-agent rappresenta tutti gli spider, mentre il simbolo / nel campo Disallow significa di non indicizzare tutte le cartelle del nostro sito web.
Se si vuole essere più precisi si può decidere di scegliere solo una singola pagina o un singolo spider, come negli esempi: googlebot sta per lo spider di Google, mentre per disabilitare una singola pagina, basta inserire il percorso giusto.
I meta tag robots sono un altro metodo per escludere determinati contenuti del nostro sito e vengono inseriti nel codice della pagina come nell’esempio qui sotto:
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head>
<meta http-equiv=”Content-Type” content=”text/html; charset=utf-8″ />
<title>Documento senza titolo</title>
<meta name=”robots” content=”index,follow”/>
</head>
<body>
</body>
</html>
I valori che si possono attribuire al meta tag robots sono:
Questa metodologia è poco efficace ai fini di dividere le visite degli utenti da quelle degli spider, perchè lo spider deve entrare nel documento e la visita verrebbe conteggiata lo stesso.
Un utilizzo utile di questo metodo potrebbe essere per una pagina che vogliamo rendere visibile agli utenti ma non ai motori di ricerca e per limitare i link con la proprietà nofollow in una pagina che verrebbe vista forse come spamm.