La storia del Robots Exclusion Protocol (REP) inizia con l’introduzione del file robots.txt nel 1993. Il tutto anche grazie ad uno spider che intasava regolarmente il sito di chi sarebbe poi diventato l’ideatore del protocollo.
Ecco la testimonianza dell’autore del file robots.txt, Charlie Stross:
“...nel lontano 1993 stavo insegnando Perl nel tempo libero (mentre lavoravo per una compagnia UNIX chiamata The Santa Cruz Operation) e stavo facendo pratica lavorando su uno spider. La mia attività di sperimentazione consisteva nel visitare continuamente il sito di Martin Kjoster’s, e gli impiegati di Martin avevano la linea di 14.4 Kbps intasata. Ovviamente Martin mi ha contattato dicendomi che non potevo impegnargli tutta la banda. Cercando insieme di risolvere il problema, alla fine lui è venuto con una semplice soluzione: “Cerca un file di testo chiamato robots.txt. Conterrà una lista di tutto quello che non devi leggere.” E così il mio spider ha obbedito all’embrione del protocollo di esclusione dei robots. Ah, bei tempi quando potevi casualmente diventare qualcuno inventando un nuovo protocollo prima di colazione...”
Nel 1994, il REP fu formalizzato con il consenso della comunità degli autori di spider. Originariamente, questo protocollo fu ideato semplicemente come meccanismo per impedire che risorse web specifiche venissero visitate da parte degli spider, ma nel tempo si è evoluto ed ora prevede anche regole per abilitarne esplicitamente l’accesso.
Oggi, quando si parla di REP, ci si riferisce a molte cose: al file robots.txt, alle sitemap XML, ai meta tag robots, agli X-Robot-Tag e all’attributo nofollow dei link.
Capire come funziona il REP è importante, visto che è un protocollo che ha molte implicazioni con la SEO. Duplicare contenuti, nascondere contenuti che non si vuole appaiano nei risultati di ricerca, ridistribuire in modo strategico i valori di PageRank e rimuovere le pagine dagli indici dei motori, sono solo alcune delle cose in cui il REP è utile.
Il conformarsi alle regole del REP non è obbligatorio ed alcuni motori non lo fanno. I tre grandi della ricerca (Yahoo!, Google e Bing) hanno comunque deciso di supportare il REP in modo uniforme e coerente e partecipano attivamente all’evoluzione del protocollo.
L’obiettivo è quello di implementare spider che si comportino in modo prevedibile, a vantaggio di tutti i webmaster.
Raccontaci il tuo progetto!
Contattaci i nostri consulenti sono a tua disposizione.
Noi e terze parti selezionate utilizziamo cookie o tecnologie simili per finalità tecniche e, con il tuo consenso, anche per altre finalità come specificato nella cookie policy. Il rifiuto del consenso può rendere non disponibili le relative funzioni. Puoi acconsentire all’utilizzo di tali tecnologie utilizzando il pulsante “Accetta”. Chiudendo questa informativa, continui senza accettare.
Il seguente pannello ti consente di esprimere le tue preferenze di consenso alle tecnologie di tracciamento che adottiamo per offrire le funzionalità e svolgere le attività sotto descritte. Per ottenere ulteriori informazioni in merito all'utilità e al funzionamento di tali strumenti di tracciamento, fai riferimento alla cookie policy. Puoi rivedere e modificare le tue scelte in qualsiasi momento. Tieni presente che il rifiuto del consenso per una finalità particolare può rendere le relative funzioni non disponibili.