Con l'avvento della nuova versione di Drupal, la 5.0, sarà inserito il file robots.txt nel pacchetto scaricabile dal sito ufficiale, già pronto per l'uso.
Questa aggiunta è stata necessaria perché i Robots (GoogleBOT, Inktomi, etc.) tentano di leggere il file robots.txt per avere regole di comportamento sul dominio. Usando però i Clean URL (senza cioè ?q= nell'url, tramite ModRewrite), e non essendoci il file nella "root" del sito, Drupal stesso rispondeva alla richiesta mostrando una pagina con errore 404 (Pagina Non Trovata). Questo crea tonnellate di logg inutili nella tabella watchdogg, rallentando di conseguenza il sito.
Il robots.txt attuale, che potete usare anche nella versione 4.7.x e precedenti è possibile vederlo nella CVS di Drupal.org:
http://cvs.drupal.org/viewcvs/drupal/drupal/robots.txt?view=markup
Io ho aggiunto qualche riga del "Disallow" per eliminare dall'indice alcuni URL per chi usa il modulo Pathauto. Lo uso sul mio blog su Drupal.
Disallow: /nodeg/
Disallow: /filter/
Disallow: /blog/rss/
Disallow: /blog/cms/feed
Disallow: /blog/analisi/feed
La prima regola serve per eliminare URL del tipo node/124 e simili e serve per chi ha il pathauto abilitato per impostare l'url aliasg sui nodi.
Gli altri servono per evitare che i feed delle categorie vengano memorizzati negli indici dei motori di ricerca.
Commenti recenti
10 ore 43 min fa
14 ore 10 min fa
15 ore 15 min fa
15 ore 53 min fa
16 ore 16 min fa
16 ore 18 min fa
16 ore 27 min fa
16 ore 45 min fa
19 ore 1 min fa
20 ore 27 min fa