Ciao
ultimamente il posizionamento del mio sito è peggiorato.
PREMESSA
Era molto tempo che non andavo in Google web master ... e con sorpresa ho trovato l'avviso
"Alcune pagine importanti sono bloccate dal file robots.txt. Altri dettagli" . Secondo Google il robot avrebbe bloccato una pagina; ho controllato ma per questa pagina non esistono blocchi (nel robot non compare nemmeno parte del'URL ).
Ho cominciato ad indagare ed ho trovato un'altra stranezza: la sitemap.xml è sempre stata OK, mentre adesso in dashboard la vedo con 5 link indicizzati, mentre nell'apposita sezione la vedo indicizzata con 58 URL ... boh.
A questo punto ho provato di nuovo a reinviarla, ma nonostante sia passato 1 giorno e più è ancora in stato di attesa.
ANDIAMO AL DUNQUE
Ho continuato ad approfondire facendo una ricerca site:miosito e ho notato che in fondo ai risultati compariva un messaggio di google ... "In alternativa, è possibile ripetere la ricerca includendo i risultati omessi.".
Cliccandoci sopra sono saltati fuori molti link del tipo:
miosito/node/...
miosito/poormanscron
miosito/user
miosito/forum che fra l'alro ho anche disabilitato
Io penso che siano pagine indicizzate nelle prime fasi di costruzione del sito.
Ovviamaente ho installato una serie di moduli fra cui:
Nodewords (Metatags)
Globalredirect
etc
Infine nel robots.txt avevo inserito i disallow per le voci in questione
A questo punto le domande:
1-come mai google vede anche le pagine "/node/" dal momento che ho attivato i clean urls con implementazione dei vari moduli SEO?
2-come faccio ad escludere queste pagine?
3-come mai sono sparite tutte le pagine che erano fino a poco fa indicizzate, dalle serp di google?
4-come mai in webmaster mi evidenzia una pagina bloccata?
5-come mai non mi ricarica più i link della sitemap e resta in attesa?
Non capisco se tutto questo sia avvenuto con il passaggio da 6.22 a 6.24 oppure è accaduto prima ma non me ne ero accorto ... ho provato a ricontrollare tutto ... ma non riesco a comprendere la causa di questi problemi.
Qualcuno ha voglia di provare ad aiutarmi?
grazie
ciaooo
nessuna idea ??????
Secondo me hanno qualche problema, anch'io recentemente ho notato una pagina segnalata come "Soggetto a restrizioni da robots.txt" eppure nel robots.txt non c'è niente che possa limitarla.
Per quanto riguarda le pagine con /node/ potrebbero essere presenti in qualche link.
Grazie krima per la risposta.
Anch'io credo abbiano problemi ... comunque lo spero .... perché io non ho toccato niente da molto tempo e tutt'ad un tratto è saltato fuori questo insieme di cose.
Sono ancora in stato di attesa con la sitemap ... proverò ad aspettare qualche giorno.
Per quanto riguarda le pagine con /node/ non ho idea del perché ... è come se google vedesse quelle "native" e quelle con i clean ulr.
ciao
Google sta passando ad una nuova versione di GWT; per questo, da un pò di tempo, si notano stranezze con sitemap ed url indicizzati.
L' unico sistema che ad ora è affidabile, in merito alle url indicizzate, è il comando site:nomesito.
Da qualche mese sto cercando di capire l' indicizzazione.
Drupal, come tutti i cms, è soggetto a creare innumerevoli contenuti duplicati, molto penalizzati con l' arrivo di Google Panda.
Il Robots limita l' accesso alle pagine, ma non impedisce l' indicizzazione del link tra i contenuti simili, riportati alla fine delle pagine restituite da Google; questo non influisce sul posizionamento e comunque, l' unico modo per toglierle se si vuole, è togliere il disallow e mettere il noindex su tutte le pagine generate.
I moduli importanti sono Global Redirect e Nodewords (Meta Tags per D7), ma per pulire tutto è necessario agire anche a livello di codice. Sono comunque operazioni che necessitano di mesi, non di giorni.
E' questo al momento, per me, l' operazione da fare con Drupal.
ciao giovanninews,
grazie per la risposta.
Ho appena controllato su GWT e adesso non ho più l'errore della pagina bloccata da robots.txt.
Resta ancora la mappa del sito in attesa di indicizzazione ... chissà perché.
Per quanto riguarda i moduli Global Redirect e Nodewords ovviamente sono fra i primi che ho messo, inoltre ne ho aggiunti altri.
Il fatto che non capisco è questo: è una caratteristica di drupal di avere 2 pagine una /node/ ed una con alias (personalizzato) per il medesimo contenuto?? Google le vede entrambe nonostante non mi interessi quella /node/ e nonostante i moduli SEO attivati.
In tal caso non capisco come si possa mettere un noindex in una pagina /node/ senza poi ritrovarselo nella stessa alias.
grazie
ciaoo
La pagina /node e l' alias ce l' ho anch' io ( e penso tutti).
I noindex si possono mettere abbastanza facilmente con Nodewords per le pagine non di sistema. Per le pagine di sistema bisogna utilizzare l' hook template_preprocess_page; adesso però sono alquanto incasinato con l' ultimo aggiornamento di Nodewords, che non funziona più per le pagine Custom.
grazie giovanni
sì anch'io uso Nodewords ... ed adesso che me lo dici anche a me sembra dare problemi dopo l'aggiornamento.
Anch'io uso quel sistema per mettere i noindex.
Per mettere un noindex alle pagine di sistema e per le /node dici che bisogna usare l' hook template_process_page ...
quando avrai tempo, puoi spiegarmi meglio per cortesia ?
grazie
ciao
Te lo spiego subito con un link : http://giovanninews.com/drupal-template_preprocess_page-hook-o-api
Non è un problema per D.I. avendo il nofollow a tutti i collegamenti esterni.
Ti dirò di più; se non avessi utilizzato dall' inizio Nodewords per il meta name "keywords" e trovando un sistema per inserire in automatico il meta name "descprition", utilizzando template_preprocess_page non ci sarebbe stato bisogno di Nodewords. Adesso, togliendo Nodewords, avrei dai motori di ricerca migliaia di errori 404 relativi ai taxonomy/term/* ed all' alias relativo.
Per i problemi di Nodewords ho aperto una issue su D.O.
http://drupal.org/node/1443002
ma ho problemi a farmi capire con l' inglese.
ciao giovanni
grazie ancora per il tuo aiuto ... vorrei ricambiarti con la tua segnalazione su Nodewords ma anch'io con l'inglese non sono messo bene :-(
Comunque ti faccio i complimenti per il tuo sito e per l'impegno nello spiegare i vari argomenti.
Ho letto il link che mi hai mandato ed altri tuoi articoli.
In generale penso di aver settato abbastanza bene Drupal per quanto riguarda i moduli SEO.
Con Nodewords ho risolto i miei piccoli problemi.
Adesso lo quello continuo a non capire è :
come mai cliccando su "Alcune pagine importanti sono bloccate dal file robots.txt. Altri dettagli" trovo oltre 160 link così composti??
miosito/node/...
miosito/user/..
miosito/user/password
miosito/admin/build/themes
Ma è normale ?? E' un problema del CMS o solo mio?
Eppure ho tutti i moduli necessari ...
Ho letto anche la tua spiegazione sulla' hook ... ma sto ancora cercando di capire (per me non è così semplice)
Infine ho provato il test che suggerivi su Virante ed oltre al "Similarity Check: FAILED " ho anche "PageRank Dispersion Check: SUCCESS" ma con punto esclamativo perché i pageranks sono differenti ... anche questo non l'ho capito.
Solo io ho il problema di queste pagine indicizzate??
grazie
ciaoo
Per caso usi Chrome per navigare? Ho notato che usando Chrome mentre metto in piedi un sito nel giro di pochi giorni trovo gli url che ho visitato indicizzati. Questo con domini nuovi e non segnalati da nessuna parte.
ciao krima
no, non uso Chrome ma Safari o Firefox ed entrambi si comportano alla stessa maniera
A te è mai capitato il mio problema con gli URL che ho scritto sopra??
ciao
@Vulcanus
E' un problema del CMS.
Già in un altro post avevo indicato che per Drupal 8 si parlava di rivedere il robots.txt
http://www.drupalitalia.org/node/16625
Comunque, dal forum di Google i collaboratori principali mi hanno detto che i risultati omessi (quelli senza snippet) non influiscono assolutamente sul posizionamento del sito.
Invece a me quello che mi sconvolge è l' aggiornamento di Nodewords. E' la seconda volta che gli sviluppatori combinano un disastro. Su un altro sito ho visto che mi ha messo noindex su tutte le pagine del sito. Per fortuna me ne sono accorto e per ora ho messo una pezza, in attesa di tornare alla versione precedente. Appena riesco, Nodewords sarà il primo modulo che toglierò dalle scatole.
Ciao giovanni
grazie ancora.
Se dici che i risultati omessi non influiscono lascio stare anche se non mi piace che si vedano.
Mi sarebbe piaciuto farli sparire.
Per quanto riguarda Nodewords anche a me aveva messo tutti noindex, ma stamani appena me ne sono accorto ho risolto toccando un po' qua ed un po' là. Mi era parso di capire che index follow se non flaggati erano impliciti, ma stamani (avendo poche pagine) gli ho riflaggati tutti a mano. Inoltre ho spippolato nelle impostazioni di default ... ed insomma adesso tutto ok.
Credo sia il motivo della perdita della mia indicizzazione.
Adesso sono già almeno 3 giorni che sono in attesa da GWT che mi indicizzi i link dalla sitemap che resta ancora in ending.
grazie
ciaoo
Allora io sono fortunato :-)
Ho controllato alcuni siti e non ho questo problema. Per quanto riguarda Nodewords, per D7 esiste anche Meta tags quick http://drupal.org/project/metatags_quick è molto più basilare ma permette di impostare metatags anche in percorsi che non sono nodi in maniera semplice ed efficace.
Sì. metatags quick in drupal 7 è OK.
In diversi siti ho anche fatto in modo (utilizzando Rules e token) che in ragione della scelta che vien fatta Indicizzazione SI /NO il sistema aggiunge in head i meta Robots e Description già compilati. Sarebbe bello trovare qualcosa che compili in modo automatico il campo delle parole chiavi utilizzando le parole più utilizzate nel testo: non l'ho trovato.
Node words lo uso con Drupal 6, ma ultimamente ha dato parecchi problemi. Purtroppo metatag quick per drupal 6 non c'è.
Con Nodewords 6.x-1.13, per chi è riuscito ad aggiornarlo con successo, riesce ora ad impostare il robot anche per i percorsi di sistema. Evidentemente lo faceva anche Nodeword 6.x-1.11, ma per qualche bug non non riusciva a trasferire il meta name nell' html per i percorsi di sistema.
Per me ora un sito è OK, mentre con un altro ho fatto il downgrade; ci riproverò la prossima settimana.
Ciao giovanni,
sì è vero si riescono ad inserire i noindex anche su alcune pagine di sistema, ma te pensi che si possa farlo anche su quelle /node/ ? in tal caso basterebbe preparare un Custom con indirizzo node/* e spuntare noindex ...
Ma non è che si rischia che quelle alias ereditino gli stessi meta name delle /node/ prevenendo da esse? se così fosse sarebbe controproducente ...
ciaoo
Prova e controlla.