View Full Version : Google: 300 anni per indicizzare il WWW
Redazione di Hardware Upg
10-10-2005, 14:26
Link alla notizia: http://www.hwupgrade.it/news/software/15546.html
Il CEO di Google ha dichiarato che sono necessari altri 300 anni per poter catalogare tutte le informazioni attualmente presenti sulla rete
Click sul link per visualizzare la notizia.
Wow ... 5EB stimati sul web ... cavolo è una cifra enorme :eek:
BravoGT83
10-10-2005, 14:40
cacchio 5 milioni di Tbyte :eek:
Come hanno fatto a contarli? Hanno eliminato l'informazione
ridondante?
Come hanno fatto a contarli? Hanno eliminato l'informazione
ridondante?
Credo sia una stima approssimativa ;)
Vediamo. 5 milioni di terabyte rappresentano: 5 * 10^6 * 10^12 byte,
ovvero 5*10^18 bytes. Dividendo per 500 milioni di siti, fanno
5*10^18/(500*10^6) = 10 gigabyte a sito. Ma non tutti i siti hanno 10 gigabyte di materiale..., e chi ne ha di più sono mirror di materiale, quindi
ridondante.
e sono pressoche certo che la stima sia per difetto....in pratica come puoi sapere la quantita di dati che gira in rete?? la rete alla fine è composta da qualsiasi pc collegato, basta uno che abbia 500g di hd e condivida le sue informazioni e i suoi files su internet per aggiungere mezzo tera alla stima....si fa in fretta a immaginare che non si arrivera mai a capire quanti tera girano in rete....c e poi da considerare anche il quantitativo di dati che viaggiano per canali non leciti, che credo sia ancora di piu (i file grossi viaggiano su p2p ad esempio)
x danrod
Anche se fai la somma di tutto il materiale che circola su P2P
non arrivi a 5 milioni di terabyte, perché molto spesso è sempre
lo stesso materiale, magari con il nome cambiato. Inoltre
come fai a indicizzare un film? Ci vorrebbe un programma
che analizzasse ogni scena di un fotogramma e ne
producesse una descrizione in testo. Quindi quella stima
(riferita alla quantita di materiale da indicizzare) mi
sembra una sparata tanto per fare vedere numeri grossi.
I valore massimo comunque è facilmente calcolabile. Non ci
saranno mai più bytes in rete della somma di tutti gli hard disk
(e i nastri?) che sono stati prodotti da quando sono nati i computer...
alla faccia...5 EXABYTE di roba :eekk: comunque impressionante i 300 anni per indicizzare questa enorme quantità di dati...
Dumah Brazorf
10-10-2005, 15:29
Ecco, ora fate conto che metà della quantità di materiale stimato è fatto da siti porno! :sofico:
Ciao.
Ecco, ora fate conto che metà della quantità di materiale stimato è fatto da siti porno!
...e che una buona parte è sui nostri hard disk! :rotfl:
:rotfl: questo credo proprio sia vere :rolleyes: e quello non andrebbe indicizzato imho :(
LinoX-79
10-10-2005, 16:43
Inoltre
come fai a indicizzare un film?Mai sentito parlare di Hashing?
giovanbattista
10-10-2005, 16:47
informazioni esistenti nel world wide web non vengono contemplati il p2p o altri metodi di condivisione di materiale ma "solo" pagine web o simili
Mai sentito parlare di Hashing?
L'hashing permette di indicizzare e quindi riconoscere file uguali, quindi non puoi usarlo per riconoscere due versioni dello stesso film, rippate da due persone diverse...
informazioni esistenti nel world wide web non vengono contemplati il p2p o altri metodi di condivisione di materiale ma "solo" pagine web o simili
Esatto, inoltre dobbiamo prendere atto che la maggior parte del materiale sulla rete non viene indicizzato dai normali motori di ricerca, pensiamo ad esempio a formati diversi dall'html. Google negli ultimi anni ha cercato di espandere la varietà di documenti indicizzati, infatti analizza anche pdf, doc, ecc...
Molti documenti inoltre non sono accessibili agli spider, come ad esempio i siti dinamici che si appoggiano a database, o i siti ad accesso ristretto come quelli che pubblicano articoli scientifici.
(ho fatto la tesi su questi argomenti... :D )
è vero che è sempre complicato capire come e quando si inizi a violare il copyright, comunque già oggi se si inserisce un passo di un libro più o meno celebre su google viene fuori una bella porzione del resto, perchè c'è sempre qualche sito indicizzato in cui qualcuno ha pubblicato testi di libri!
Non hanno mai parlato di file "grossi" e di p2p.
Hanno parlato di World wide Web. Ossia semplici pagine di testo, comunemente conosciute come pagine html :D
Sig. Stroboscopico
10-10-2005, 18:47
Meglio quindi criptare i libri a questo punto... tanto per essere sicuri che nessuni trovi qualcosa di utile...
-__-
idioti...
Mai sentito parlare di Hashing?
E che ci fai con l'hashing? Di certo non puoi usarlo per analizzare un film
e indicizzarlo in modo da sapere che al minuto XX:YY del file
"Via_col_vento.mpg" c'è una scena in cui compaiono Vivien Leigh e Clark Gable...
Sawato Onizuka
10-10-2005, 20:00
mi immagino già il Seti Google :rotfl:
mi immagino già il Seti Google :rotfl:
http://toolbar.google.com/dc/#about1
:asd:
La stima di 5 EB comunque mi sembra plausibile. Se è vero che la maggior parte dei siti è molto piccola, ci sono archivi online enormi. Già i dati di Google Maps, ereditati da Keyhole, sono 7 TB di immagini.
^VaMpIr0^
11-10-2005, 01:15
sono 10 anni che dicono di voler AUTOMATICAMENTE indicizzare ogni parte del WEB (oggi più che mai attuale come idea surrealista per via del terrorismo ecc ecc..) il problema è mettere daccordo i privati con le aziende fornitori di spazio web che a loro volta comprano spazio da un'altra società, la quale lo ha acquistato da un'altra e così via. poi ci sono i privati che hanno a casa una min web farm...quelli come li indicizzano? Ci pensate? Un mega elenco "telefonico" web per tutte le informazioni veicolate da internet et simila, magari in formato PDF allegato alle pagine gialle... ahahaha!!!
Mha....non credo che alla fine se ne farà veramente qualcosa si concreto da qui a...300 anni, poichè tra 300 annivedo radicalmente cambiato il modo di comunicare e di informarsi e mi auguro che il problema indicizzazione venga risolto ma senza usare SPIDER eh eh eh!!! byez
mi immagino già il Seti Google :rotfl:
Vuoi dire la ricerca di intelligenza sul Web? Mi pare un progetto fallito in partenza...
SuperSandro
11-10-2005, 11:42
Malidiz.. dannaz.. porc... e io che avevo comprato una confezione di floppy per iniziare la mia encicplopedia "Tutto quello che c'è sul web"
Sawato Onizuka
11-10-2005, 20:53
http://toolbar.google.com/dc/#about1
:asd:
:doh: ma preferisco millemila volte usare il vero Seti che indicizzare il web :ciapet: :sofico:
Vuoi dire la ricerca di intelligenza sul Web? Mi pare un progetto fallito in partenza...
:D
cmq non è vero, sul web gira molta ma molta intelligenza (sicuramente più che in tv)
:doh: ma preferisco millemila volte usare il vero Seti che indicizzare il web :ciapet: :sofico:
Guarda che è un programma di calcolo distribuito, invece di cercare segnali nello spazio ripiega proteine, ma non c'entra nulla con il motore di ricerca di Google :p
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.