View Full Version : [html/web]spider pagine/aree protette
nuovoUtente86
11-08-2009, 15:00
Noto spesso che i motori di ricerca indicizzano (tenendone copia in cache liberamente accessibile)pagine appartenenti ad aree protette che richiedono credenziali di login, come avviene per le discussioni di diversi forum. Che sistema utilizzano?
per leggere il forum non c'è bisogno di essere autenticati
nuovoUtente86
11-08-2009, 15:23
per leggere il forum non c'è bisogno di essere autenticati
non mi riferivo a questo forum.
boh sinceramente non mi è mai capitato di trovare indicizzate delle pagine che richiedono il login.
tra l'altro nella guida di adsense mi pare di aver letto di non inserire gli annunci in sezioni private, perchè comunque google non ci può accedere e gli annunci contestuali non funzionerebbero di conseguenza. Per l'indicizzazione dovrebbe essere lo stesso
nuovoUtente86
11-08-2009, 15:45
boh sinceramente non mi è mai capitato di trovare indicizzate delle pagine che richiedono il login.
tra l'altro nella guida di adsense mi pare di aver letto di non inserire gli annunci in sezioni private, perchè comunque google non ci può accedere e gli annunci contestuali non funzionerebbero di conseguenza. Per l'indicizzazione dovrebbe essere lo stesso
Adsense ha un sistema di registrazioni delle credenziali che consente l' accesso ad aree riservate. Per l' indizizzazione non penso funzioni cosi.
khalhell
12-08-2009, 10:53
Adsense ha un sistema di registrazioni delle credenziali che consente l' accesso ad aree riservate. Per l' indizizzazione non penso funzioni cosi.
Normalmente una pagina con login fa riferimento anche ad un DB, quindi senza pass e userid è impossibile che google riesca ad indicizzare il contenuto di una pagina PHP con dati presi da un DB... (sarebbe la scoperta del secolo)
nuovoUtente86
12-08-2009, 11:03
Normalmente una pagina con login fa riferimento anche ad un DB, quindi senza pass e userid è impossibile che google riesca ad indicizzare il contenuto di una pagina PHP con dati presi da un DB... (sarebbe la scoperta del secolo)
Concordo con te, ma mi è capitato diverse volte, attraverso la cache di google di leggere pagine protette, che normalmente mi chiedeva le credenziali. Per quanto sia molto strano è cosi.
Ovviamente non si parla di pagine personali, ma di pagine pubbliche limitate ai soli iscritti.
DanieleC88
12-08-2009, 12:03
Qualche esempio di queste pagine? Se una cosa simile è possibile avrò bisogno di adottare altri provvedimenti protettivi, anche se mi sembra strano.
ciao ;)
nuovoUtente86
12-08-2009, 12:18
http://www.google.it/search?hl=it&q=giovani+avvocati+diritto+civile&meta=
i primi risultati puntano ad una sezione riservata di un forum di avvocati, scegliando la copia in cache è possibile leggere tutto.
La mia idea è che le pagine potessero essere state lette in un momento antecedente alla messa in protezione della pagina, ma è possibile visualizzare risultati molto recenti.
DanieleC88
12-08-2009, 12:45
Quello è normale, si vede che non hanno regolato bene i permessi. Anche io ho sotto mano un forum con phpBB 3, e si può specificare che i bot hanno accesso alle zone che altrimenti sarebbero private (quindi il forum riconosce che se è visitato da un crawler appartenente a Google, Yahoo!, etc..., può dargli pieno accesso al forum, ma se si è un utente "fisico" bisogna essere registrati e loggati). Ovviamente se è davvero privato è buono impedire anche a Google di indicizzare alcunché... :D
ciao ;)
nuovoUtente86
12-08-2009, 12:54
Non utilizzo CMS e non conoscevo questa possibilità. Quello che mi viene in mente è che utilizzino l' user-agent come discriminante, il che espone a qualche vulnerabilità.
DanieleC88
12-08-2009, 12:58
Be', in tutta sincerità non saprei dirti tecnicamente come fanno questo "riconoscimento", non credo solo con l'user agent (non ci vuole niente a mascherarlo), ma ad ogni modo la funzionalità è disattivabile a piacimento, quindi non è un gran rischio in fin dei conti.
ciao ;)
si anche io mi ero posto la stessa domanda qualche settimana fa...
comunque (parlo da ignorante), una soluzione non sarebbe quella di impostare che se l'IP che visita la pagina appartiene a google piuttosto che a yahoo non fa visualizzare il contenuto? immagino funzioni cosi?
DanieleC88
14-08-2009, 14:31
comunque (parlo da ignorante), una soluzione non sarebbe quella di impostare che se l'IP che visita la pagina appartiene a google piuttosto che a yahoo non fa visualizzare il contenuto? immagino funzioni cosi?
Una cosa del genere, è proprio quello che puoi abilitare/disabilitare dal pannello amministrativo. :)
ciao ;)
Una cosa del genere, è proprio quello che puoi abilitare/disabilitare dal pannello amministrativo. :)
ciao ;)
ah ok grazie della precisazione :D
nuovoUtente86
14-08-2009, 20:53
Basarsi sull' IP non è una soluzione percorribile, perchè anche se statico, nel tempo potrebbe variare. Più percorribile quella dell' user_agent
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.