Dall'omonimo file.tx di drupal 6 mi sono recato sul link indicato :
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
..ma qui: http://www.robotstxt.org/robotstxt.html ..... non ho capito queste istruzioni:
...............
To exclude all robots from the entire server
User-agent: *
Disallow: /
To allow all robots complete access
User-agent: *
Disallow:
.....................
In pratica basta evitare lo slash per dare pieno accesso, ma non era "allow: all" l'istruzione ??
...................
L'altra cosa che non capisco è che il robots.txt deve essere "tassativamente" messo in root del sito per essere letto dai motori (rispettato è..un'altro discorso..).
Ma se io metto drupal in www.sito/drupal
le sue istruzioni interne, tipo :
User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
ecc.. ecc...
devono diventare cosi ??
Disallow: drupal/includes/
Disallow: drupal/misc/
Disallow: drupal/modules/
cioè và riscritto il file mettendo la dir drupal/ davanti ad ogni directory da proteggere ??
.....................
L'altro dubbio è come bloccare IP in ingresso nella root del sito, quando drupal è in una sua sottodirectory.
Conviene usare Robots.txt (che agli Hack non interessa granchè) ?
oppure farlo creando un .htaccess in root (quindi letto prima dell'altro files che è www.sito/drupal/.htaccess ) ?
E se si, quali comandi dare per evitare casini e magari bloccare chi non volevi ?
(questo problema si presenta su misterdomain ma non su Netsons che ha già il blocco ip a tutto il sito gestibile nel suo Cpanel)
..............
e, inoltre, in robots.txt se si mette :
Disallow: /?q=node (opp. node*)
si riesce a bloccare la lettura del motore di pagine doppie la stessa page può avere il nodo come path o un nome-path indicato dal compilatore,
esempio tipico : node1 (codice) con url = lavatrice-ultrasuono (rewrite), sono la stessa pagina ...ma essa viene letta 2 volte e segnata come errore da google.
............
Con questo ho anche dubbi sul problema di indicizzazione immagini di drupal (collegato al Robots.txt di drupal) : è stato veramente risolto dalla 6.20 in poi ? Vedi anche = http://www.drupalitalia.org/node/12195
...
Alcuni riferimenti e spunti che stò riguardando:
ROBOTS
http://drupal.org/node/494462
http://tips.webdesign10.com/robots-txt-and-drupal
http://www.drupalitalia.org/node/12604
HTACCESS
http://www.javascriptkit.com/howto/htaccess5.shtml
robots.txt deve essere accessibile come
www.nomedelsito.ext/robots.txt
Non fa differenza dove si trovi drupal, l'accesso a robots.txt dall'esterno deve avvenire obbligatoriamente con il path /robots.txt
E tutti i path contenuti nel file robots.txt si applicano agli URL che lui trova nei link, non centrano i path reali.
Angelo Turetta
quindi (non ho capito..) come è meglio ?
Esempio :
se ho : www.sito-html/drupal
(cioè drupal è in una sottodirectory di nome drupal e in root ci sono index.html + un sito statico di pagine html)
va bene dove si trova ?
cioè cosi = www.sito-html/drupal/robots.txt ?
--
perchè nel caso di drupal in root (fronte sito) è ovvio che è :
www.drupal
www.drupal/robots.txt
Lorè, quà dice che deve stare nella root
Dice anche quello che dicevo io nell' altro post, e cioè, anche se viene messo il disallow per un path, Google non accede al path, ma lo indicizza con il link trovato e la url di tutte quelle pagine comprese nel path, come l' immagine che avevo postato.
In questo caso si ha un risparmio di banda, ma anche una perdita di P.R. ed altre valutazioni (credo di aver capito questo).
Se l'URL a cui lo raggiungi da un browser è quello non lo leggerà mai
Il suo path deve essere "/", cioè il file deve essere leggibile da un browser come www.sito-html/robots.txt
Se devi inibire l'indicizzazione di una cosa che il browser raggiunge come /drupa/qualcosa, devi mettere un disallow /drupal/qualcosa
Angelo Turetta
@aturetta
Esatto
Errato.
Se devi inibire l' accesso, devi mettere il disallow nel robots.
Se devi inibire l' indicizzazione devi togliere il disallow dal robots e mettere il noindex per le pagine
http://www.google.com/support/webmasters/bin/answer.py?hl=it&answer=156449
"quali il testo di ancoraggio nei link al sito...."
Non sono d'accordo.
Puoi mettere il tag noindex ma non è necessario togliere il disallow. Sono due cose diverse e si sommano, non sono mutualmente esclusive.
Angelo Turetta
Se hai il disallow BibG non rileverà mai il noindex, perchè non accede alla pagina.