Uno spider è un programma che ha il compito di leggere una o più pagine di uno o più siti web su indicazione di un altro componente del motore di ricerca.
Lo spider può essere immaginato come un browser che visualizza il contenuto delle pagine che un navigatore umano ha selezionato sulla finestra degli indirizzi. Si tratta più esattamente di un vecchio modello di browser, poiché le sue capacità di lettura sono molto limitate rispetto a quelli moderni. Questo spiega perché non riesca a leggere i Javascript, i Flash ed in generale tutte quelle parti che impiegano API (Application Program Interface).
Per avere un'idea indicativa di cosa un motore vede di un sito, basta navigarlo con una versione 3 di Internet Explorer, con i Javascript disabilitati. Per controlli più reali, è possibile usare appositi simulatori di browser disponibili sul mercato, tenendo conto del fatto che tra i vari spider esistono piccole differenze e che questi software subiscono modifiche nel tempo. Avere un'idea indicativa, comunque, è spesso più che sufficiente.
Cosa non legge il motore di ricerca
Per comprendere cosa il motore non legge, basta aver presente il suo obiettivo: tenere traccia di quali informazioni il sito contiene e indicare al navigatore l'elenco di quei siti che hanno maggiore attinenza con la ricerca che sta eseguendo.
Perché ciò sia possibile, il software dei motori deve poter leggere le informazioni e catalogarle o indicizzarle in qualche modo. Tutto quello che non è direttamente leggibile, non è indicizzabile o catalogabile.
La fotografia di una mela ha significato solo per l'uomo, avendo quest'ultimo la capacità di associare un concetto ad un'immagine. Un software ha la possibilità di analizzare la foto e ricavarne il disegno, ma non può "comprendere" che cosa significa e quindi non riesce ad indicizzarlo.
Tutta la grafica di un sito, quindi, può avere significato per un uomo, ma non ne ha alcuno (o pochissimo) per un motore di ricerca.
Allo stesso modo, Flash, essendo un'immagine o un insieme di fotogrammi, non può essere interpretato con la tecnologia odierna ed a costi e tempi di elaborazione accettabili.
Si stanno effettuando degli esperimenti, comunque, per arrivare almeno a distinguere i caratteri all'interno delle immagini o per scomporre un movie Flash nei suoi elementi di base, interpretando le componenti testuali. Alcuni motori sono già in grado di farlo, ma agli effetti del posizionamento, questi contenuti hanno un'incidenza minore rispetto a quelli inseriti con codice HTML.
Altre parti della pagina che i motori attualmente non considerano sono:
- il codice Javascript, perché non è semplice per un software ricavarne sempre il risultato finale;
- le parti in ASP o in PHP (che al motore non arrivano).