Se si dovesse stilare una classifica delle domande più ricorrenti nel forum di HTML.it, l'argomento robots.txt avrebbe una posizione nella top20 almeno per quanto riguarda la sezione Motori di Ricerca e Web Marketing.
Tralasciando lo step di introduzione al robots.txt ed alle sue funzioni (per approfondimenti rimando all'articolo di Francesco Caccavella), vorrei saltare direttamente a valutare alcuni aspetti di come Googlebot, lo spider di Google, interpreta le direttive presenti nel file.
Recentemente il team di sviluppo di Google Sitemaps, nella figura di Vanessa Fox, ha pubblicato un documento estremamente completo per descrivere cosa sia questo mistico file e quali comportamenti sia in grado di seguire lo spider di Google. Da questo articolo vorrei evidenziare un paio di punti chiarendo una volta per tutte alcuni dubbi amletici, con il supporto di una conferma ufficiale.
Google uses several user-agents. You can block access to any of them by including the bot name on the User-Agent line of an entry.
- Googlebot: crawl pages from our web index
- Googlebot-Mobile: crawls pages for our mobile index
- Googlebot-Image: crawls pages for our image index
- Googlebot-MediaPartners: crawls pages to determine AdSense content (used only if you show AdSense ads on your site)
Il bot di Google non è uno solo. Google dispone di almeno 4 crawler differenti, indicati nel testo quotato. In realtà Google dispone di altri crawler aggiuntivi che, tuttavia, non possono essere esclusi con il robots.txt. Un esempio è Google FeedFetcher.
Yes, Googlebot recognizes an extension to the robots.txt standard called Allow. This extension may not be recognized by all other search engine bots, so check with other search engines you're interested in to find out. The Allow line works exactly like the Disallow line. Simply list a directory or page you want to allow.
Questa volta è ufficiale! Googlebot riconosce la direttiva allow, ovvero quella che consente di includere particolari file.
Il file robots.txt è nato con lo scopo di negare agli spider l'indicizzazione di determinate aree. Con la crescita esponenziali delle informazioni in internet e l'evoluzione della complessità dei siti stessi, in alcun casi potrebbe essere utile voler escludere un'intera directory eccetto alcune informazioni.
La direttiva allow consente di specificare singole risorse da indicizzare.
You can use a dollar sign ($) to match the end of a filename. For instance, to block access to all .gif files, you could use the following entry:
User-Agent: Googlebot Disallow: /*.gif$
Confesso che questa è una novità anche per me! Sarei curioso di sapere quanti altri spider interpretano questa direttiva.
Ancora dubbi su Google e robots.txt? Ecco una risorsa molto interessante.