Il posizionamento di un sito risulta influenzato dall'ottimizzazione delle sue singole pagine e da impostazioni e strutture relative all'insieme dei suoi componenti.
In questo capitolo sono descritti quei metodi e quelle regole da considerare nella fase di progettazione del sito perché quest'ultimo, già per sua struttura, sia maggiormente gradito ai motori di ricerca.
Un sito che è stato progettato nel suo complesso seguendo i criteri approfonditi nel seguito, potrebbe non aver necessità di alcuna attività di posizionamento, una volta che sia stato pubblicato ed inserito nei principali motori.
Soprattutto nei settori ad alta competizione, la sola ottimizzazione delle pagine non è sufficiente a garantire la visibilità desiderata.
Esistono situazioni in cui non si vuole che un file sia letto ed indicizzato dai motori di ricerca. In tali situazioni si adottano due strade, in parallelo:
Il file robots.txt è un file letto dagli spider prima di scaricare l'insieme delle pagine che costituiscono il sito. Seguendo uno standard internazionale, le istruzioni inserite sono interpretate ed eseguite dal motore, che non accederà alle pagine e alle cartelle indicate. Le specifiche e la sintassi delle istruzioni da inserire nel file, possono essere lette sul sito www.robotstxt.org
- si crea nella root del dominio un file robots.txt che elenca i file e le cartelle che si desidera tenere riservate;
- si inserisce nella pagina il Meta Tag Robot.
Anche se non vi sono pagine da escludere, può essere utile inserire un file robots.txt vuoto, per evitare d'avere, nei log, un messaggio di errore per file non trovato ogni volta che uno spider visita il sito e lo chiede.
Alcune vecchie teorie sostenevano che per alcuni spider (per esempio quello di Altavista) era penalizzante riscontrare sul sito la presenza del file robots in quanto tali motori ritenevano che il tentativo di nascondere gruppi di pagine fosse dovuto a mala fede.
Tali teorie, sperimentalmente verificate per qualche tempo, ad oggi non hanno riscontri e, addirittura, c'è chi sostiene che potrebbe essere ritenuto penalizzate l'inverso, cioè la mancanza del file.
Visto il numero sempre crescente di siti dinamici, composti da migliaia di pagine spesso inutili ai fini della ricerca, si dovrebbe ritenere che per il motore la presenza di un robots.txt dovrebbe essere apprezzata, in quanto gli consentirebbe di procedere più velocemente con la lettura di quanto gli interessa.
La tecnica migliore, probabilmente, è quella guidata dal buon senso. Se ci sono pagine da escludere, il robots.txt ci sarà, diversamente, sarà assente.
Il file robots.txt non può escludere in modo certo l'indicizzazione di una o più pagine. è importante comprendere che esso è solo un'indicazione data allo spider, che è libero di seguirla o meno, anche se attualmente i più noti spider lo fanno. Comunque la garanzia non c'è.