PDA

View Full Version : [ASP.Net] Come NON indicizzare un sito... (è giusto...?)


rey.mysterio83
04-08-2011, 16:49
Ciao a tutti :)

Avrei un dubbio sull'indicizzazione di un sito.
per un cliente dovrei fare in modo che tutte le pagine del suo sito, NON vengano indicizzate su ALCUN motore di ricerca.
Idem foto, e ogni cosa in ogni cartella...
Leggendo su internet ho letto che nella root del sito devo mettere un file "robots.txt"..
All'interno ho scritto:

User-agent: *
Disallow: /

Ma basta questo?
Perchè è FONDAMENTALE che non escano le info private al suo interno su google ecc..
Ho quasi paura a pubblicare il tutto... Prima vorrei avere conferma..

Grazie

:)

zakmckraken
04-08-2011, 16:59
Hem, ma perche non fare un sito protetto da password visto che si tratta di informazioni private?

Freaxxx
04-08-2011, 18:41
tu devi garantire la privacy a questa persona e non sai neanche da dove cominciare?

mi ricorda l'inizio di una bella/brutta ( a seconda dei punti di vista ) scena tragicomica; lo sai come finisce, vero? che la colpa del 101% di quello che avverrà sarà soltanto tua e dovrai risponderne.

lascia stare.

darkito85
04-08-2011, 19:25
tu devi garantire la privacy a questa persona e non sai neanche da dove cominciare?

mi ricorda l'inizio di una bella/brutta ( a seconda dei punti di vista ) scena tragicomica; lo sai come finisce, vero? che la colpa del 101% di quello che avverrà sarà soltanto tua e dovrai risponderne.

lascia stare.

Quoto. Lascia perdere se non sei sicuro su quello che stai per fare. Magari questo cliente ti ricompenserà profumatamente ma se per caso qualcosa va storto ci rimetterai solo dindini.

Edit: Comunque sia per la maggior parte dei motori di ricerca vale il file robots.txt da te citato. Però occhio che quel file non rende il sito immune a uno spider "maleintenzionato".

rey.mysterio83
04-08-2011, 19:28
Edit: Comunque sia per la maggior parte dei motori di ricerca vale il file robots.txt da te citato. Però occhio che quel file non rende il sito immune a uno spider "maleintenzionato".

thanx! :)

rey.mysterio83
04-08-2011, 19:43
tu devi garantire la privacy a questa persona e non sai neanche da dove cominciare?

mi ricorda l'inizio di una bella/brutta ( a seconda dei punti di vista ) scena tragicomica; lo sai come finisce, vero? che la colpa del 101% di quello che avverrà sarà soltanto tua e dovrai risponderne.

lascia stare.

se era roba cosi seria andava da una multinazionale a farselo fare!

Freaxxx
04-08-2011, 20:50
Quoto. Lascia perdere se non sei sicuro su quello che stai per fare. Magari questo cliente ti ricompenserà profumatamente ma se per caso qualcosa va storto ci rimetterai solo dindini.

Edit: Comunque sia per la maggior parte dei motori di ricerca vale il file robots.txt da te citato. Però occhio che quel file non rende il sito immune a uno spider "maleintenzionato".

in realtà quel file non significa assolutamente nulla, il crawler può comunque filtrare il tuo sito, qualsiasi cosa tu scriva, il problema è come gestire il webserver e le chiamate tramite la porta 80, il file robots.txt è posticcio, i motori di ricerca che hanno "una faccia" e che vogliono dare una certa immagine non pubblicano i dati di uno spazio che ha scritto il file robots in quella maniera, ma nulla ti assicura che non abbiano filtrato i tuoi dati!
Dovete distinguere, l'attività:

del crawler
del webserver
della memorizzazione dei contenuti
della pubblicazione dei contenuti

se era roba cosi seria andava da una multinazionale a farselo fare!

questa è una considerazione che può essere condivisibile, ma nulla vietà il fatto che la patata bollente è tua, non sua, è come giustificarsi con un "non so guidare" dopo un incidente, doppiamente sbagliato, certo se non sai guidare è meglio che te ne stai buono a casa, ma una volta che ti avventuri con la macchina non hai più tante giustificazioni, la legge, come si dice, non ammette ignoranza, sarebbe troppo bello fare come dici tu.

darkito85
05-08-2011, 01:13
in realtà quel file non significa assolutamente nulla, il crawler può comunque filtrare il tuo sito, qualsiasi cosa tu scriva, il problema è come gestire il webserver e le chiamate tramite la porta 80, il file robots.txt è posticcio, i motori di ricerca che hanno "una faccia" e che vogliono dare una certa immagine non pubblicano i dati di uno spazio che ha scritto il file robots in quella maniera, ma nulla ti assicura che non abbiano filtrato i tuoi dati!
Dovete distinguere, l'attività:

del crawler
del webserver
della memorizzazione dei contenuti
della pubblicazione dei contenuti


Concordo in pieno con te, infatti io ho risposto alla sua domanda di come impedire l'indicizzazione sui principali motori di ricerca e in questo caso il file robots.txt viene rispettato.
Ovviamente però bisogna fare attenzione ad eventuali link esterni che puntano alle pagine del sito in questione. In questo caso sarebbe meglio utilizzare i meta tag robot in ogni pagina (<meta name="robots" content="noindex">).

Ciò nonostante nulla può assicurare che i dati non vengano filtrati.