Dall'omonimo file.tx di drupal 6 mi sono recato sul link indicato :
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
..ma qui: http://www.robotstxt.org/robotstxt.html ..... non ho capito queste istruzioni:
...............
To exclude all robots from the entire server
User-agent: *
Disallow: /
To allow all robots complete access
User-agent: *
Disallow:
.....................
In pratica basta evitare lo slash per dare pieno accesso, ma non era "allow: all" l'istruzione ??
...................
L'altra cosa che non capisco è che il robots.txt deve essere "tassativamente" messo in root del sito per essere letto dai motori (rispettato è..un'altro discorso..).
Ma se io metto drupal in www.sito/drupal
le sue istruzioni interne, tipo :
User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
ecc.. ecc...
devono diventare cosi ??
Disallow: drupal/includes/
Disallow: drupal/misc/
Disallow: drupal/modules/
cioè và riscritto il file mettendo la dir drupal/ davanti ad ogni directory da proteggere ??
.....................
L'altro dubbio è come bloccare IP in ingresso nella root del sito, quando drupal è in una sua sottodirectory.
Conviene usare Robots.txt (che agli Hack non interessa granchè) ?
oppure farlo creando un .htaccess in root (quindi letto prima dell'altro files che è www.sito/drupal/.htaccess ) ?
E se si, quali comandi dare per evitare casini e magari bloccare chi non volevi ?
(questo problema si presenta su misterdomain ma non su Netsons che ha già il blocco ip a tutto il sito gestibile nel suo Cpanel)
..............
e, inoltre, in robots.txt se si mette :
Disallow: /?q=node (opp. node*)
si riesce a bloccare la lettura del motore di pagine doppie la stessa page può avere il nodo come path o un nome-path indicato dal compilatore,