Robots

9 contenuti / 0 new

Accedi o registrati per inserire commenti.

Lun, 24/10/2011 - 19:38

Robots

Dall'omonimo file.tx di drupal 6 mi sono recato sul link indicato :
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html

..ma qui: http://www.robotstxt.org/robotstxt.html ..... non ho capito queste istruzioni:
...............
To exclude all robots from the entire server
User-agent: *
Disallow: /

To allow all robots complete access
User-agent: *
Disallow:
.....................
In pratica basta evitare lo slash per dare pieno accesso, ma non era "allow: all" l'istruzione ??
...................

L'altra cosa che non capisco è che il robots.txt deve essere "tassativamente" messo in root del sito per essere letto dai motori (rispettato è..un'altro discorso..).
Ma se io metto drupal in www.sito/drupal

le sue istruzioni interne, tipo :
User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
ecc.. ecc...

devono diventare cosi ??
Disallow: drupal/includes/
Disallow: drupal/misc/
Disallow: drupal/modules/

cioè và riscritto il file mettendo la dir drupal/ davanti ad ogni directory da proteggere ??

.....................

L'altro dubbio è come bloccare IP in ingresso nella root del sito, quando drupal è in una sua sottodirectory.
Conviene usare Robots.txt (che agli Hack non interessa granchè) ?
oppure farlo creando un .htaccess in root (quindi letto prima dell'altro files che è www.sito/drupal/.htaccess ) ?
E se si, quali comandi dare per evitare casini e magari bloccare chi non volevi ?

(questo problema si presenta su misterdomain ma non su Netsons che ha già il blocco ip a tutto il sito gestibile nel suo Cpanel)
..............
e, inoltre, in robots.txt se si mette :

Disallow: /?q=node (opp. node*)

si riesce a bloccare la lettura del motore di pagine doppie la stessa page può avere il nodo come path o un nome-path indicato dal compilatore,

esempio tipico : node1 (codice) con url = lavatrice-ultrasuono (rewrite), sono la stessa pagina ...ma essa viene letta 2 volte e segnata come errore da google.
............

Lun, 24/10/2011 - 20:40

Lorenzo

Con questo ho anche dubbi sul problema di indicizzazione immagini di drupal (collegato al Robots.txt di drupal) : è stato veramente risolto dalla 6.20 in poi ? Vedi anche = http://www.drupalitalia.org/node/12195
...

Alcuni riferimenti e spunti che stò riguardando:
ROBOTS
http://drupal.org/node/494462
http://tips.webdesign10.com/robots-txt-and-drupal
http://www.drupalitalia.org/node/12604

HTACCESS
http://www.javascriptkit.com/howto/htaccess5.shtml

Ven, 02/12/2011 - 14:55

aturetta

robots.txt deve essere accessibile come
www.nomedelsito.ext/robots.txt

Non fa differenza dove si trovi drupal, l'accesso a robots.txt dall'esterno deve avvenire obbligatoriamente con il path /robots.txt

E tutti i path contenuti nel file robots.txt si applicano agli URL che lui trova nei link, non centrano i path reali.

Angelo Turetta

Ven, 02/12/2011 - 15:08

Lorenzo

quindi (non ho capito..) come è meglio ?

Esempio :
se ho : www.sito-html/drupal
(cioè drupal è in una sottodirectory di nome drupal e in root ci sono index.html + un sito statico di pagine html)

va bene dove si trova ?
cioè cosi = www.sito-html/drupal/robots.txt ?

perchè nel caso di drupal in root (fronte sito) è ovvio che è :
www.drupal
www.drupal/robots.txt

Ven, 02/12/2011 - 19:02

giovanninews

Lorè, quà dice che deve stare nella root
Dice anche quello che dicevo io nell' altro post, e cioè, anche se viene messo il disallow per un path, Google non accede al path, ma lo indicizza con il link trovato e la url di tutte quelle pagine comprese nel path, come l' immagine che avevo postato.
In questo caso si ha un risparmio di banda, ma anche una perdita di P.R. ed altre valutazioni (credo di aver capito questo).

Sab, 03/12/2011 - 14:44

aturetta

Lorenzo wrote:
va bene dove si trova ?
cioè cosi = www.sito-html/drupal/robots.txt ?

Se l'URL a cui lo raggiungi da un browser è quello non lo leggerà mai

Il suo path deve essere "/", cioè il file deve essere leggibile da un browser come www.sito-html/robots.txt

Se devi inibire l'indicizzazione di una cosa che il browser raggiunge come /drupa/qualcosa, devi mettere un disallow /drupal/qualcosa

Angelo Turetta

Dom, 04/12/2011 - 11:37

giovanninews

@aturetta

Quote:
Il suo path deve essere "/", cioè il file deve essere leggibile da un browser ...

Esatto

Quote:
Se devi inibire l'indicizzazione di una cosa che il browser raggiunge come /drupa/qualcosa, devi mettere un disallow /drupal/qualcosa

Errato.
Se devi inibire l' accesso, devi mettere il disallow nel robots.
Se devi inibire l' indicizzazione devi togliere il disallow dal robots e mettere il noindex per le pagine
http://www.google.com/support/webmasters/bin/answer.py?hl=it&answer=156449
"quali il testo di ancoraggio nei link al sito...."

Lun, 05/12/2011 - 12:47

aturetta

giovanninews wrote:

Se devi inibire l' accesso, devi mettere il disallow nel robots.
Se devi inibire l' indicizzazione devi togliere il disallow dal robots e mettere il noindex per le pagine
http://www.google.com/support/webmasters/bin/answer.py?hl=it&answer=156449
"quali il testo di ancoraggio nei link al sito...."

Non sono d'accordo.
Puoi mettere il tag noindex ma non è necessario togliere il disallow. Sono due cose diverse e si sommano, non sono mutualmente esclusive.

Angelo Turetta

Lun, 05/12/2011 - 14:20

giovanninews

Se hai il disallow BibG non rileverà mai il noindex, perchè non accede alla pagina.

Main menu

Accesso Utente

Nuovi argomenti del forum

Utenti on-line

Robots

Main menu

Tu sei qui

Accesso Utente

Nuovi argomenti del forum

Utenti on-line

Robots