Con l'avvento della nuova versione di Drupal, la 5.0, sarà inserito il file robots.txt nel pacchetto scaricabile dal sito ufficiale, già pronto per l'uso.
Questa aggiunta è stata necessaria perché i Robots (GoogleBOT, Inktomi, etc.) tentano di leggere il file robots.txt per avere regole di comportamento sul dominio. Usando però i Clean URL (senza cioè ?q= nell'url, tramite ModRewrite), e non essendoci il file nella "root" del sito, Drupal stesso rispondeva alla richiesta mostrando una pagina con errore 404 (Pagina Non Trovata). Questo crea tonnellate di log inutili nella tabella watchdog, rallentando di conseguenza il sito.
Il robots.txt attuale, che potete usare anche nella versione 4.7.x e precedenti è possibile vederlo nella CVS di Drupal.org:
http://cvs.drupal.org/viewcvs/drupal/drupal/robots.txt?view=markup
Io ho aggiunto qualche riga del "Disallow" per eliminare dall'indice alcuni URL per chi usa il modulo Pathauto. Lo uso sul mio blog su Drupal.
Disallow: /node/
Disallow: /filter/
Disallow: /blog/rss/
Disallow: /blog/cms/feed
Disallow: /blog/analisi/feed
La prima regola serve per eliminare URL del tipo node/124 e simili e serve per chi ha il pathauto abilitato per impostare l'url alias sui nodi.
Gli altri servono per evitare che i feed delle categorie vengano memorizzati negli indici dei motori di ricerca.