Usare robots.txt con il Clean URL su Drupal.

ritratto di Psicomante

Con l'avvento della nuova versione di Drupal, la 5.0, sarà inserito il file robots.txt nel pacchetto scaricabile dal sito ufficiale, già pronto per l'uso.

Questa aggiunta è stata necessaria perché i Robots (GoogleBOT, Inktomi, etc.) tentano di leggere il file robots.txt per avere regole di comportamento sul dominio. Usando però i Clean URL (senza cioè ?q= nell'url, tramite ModRewrite), e non essendoci il file nella "root" del sito, Drupal stesso rispondeva alla richiesta mostrando una pagina con errore 404 (Pagina Non Trovata). Questo crea tonnellate di logg inutili nella tabella watchdogg, rallentando di conseguenza il sito.

Il robots.txt attuale, che potete usare anche nella versione 4.7.x e precedenti è possibile vederlo nella CVS di Drupal.org:
http://cvs.drupal.org/viewcvs/drupal/drupal/robots.txt?view=markup

Io ho aggiunto qualche riga del "Disallow" per eliminare dall'indice alcuni URL per chi usa il modulo Pathauto. Lo uso sul mio blog su Drupal.

Disallow: /nodeg/
Disallow: /filter/
Disallow: /blog/rss/
Disallow: /blog/cms/feed
Disallow: /blog/analisi/feed

La prima regola serve per eliminare URL del tipo node/124 e simili e serve per chi ha il pathauto abilitato per impostare l'url aliasg sui nodi.
Gli altri servono per evitare che i feed delle categorie vengano memorizzati negli indici dei motori di ricerca.

Condividi contenuti