PDA

View Full Version : come realizzare spider...


samu76
11-11-2005, 17:27
posto qui perchè credo sia piu una cosa di programmazione che altro...

avrei bisogno di realizzare, se possibile, un "robot" che mi navighi sulle pagine web (in cui url contengano determinate parole) e che mi salvi le e-mail che vi trova..

non mi serve per spammare :) ma vorrei trovare un modo che mi eviti di fare il lavoro a manina :) ... assai laborioso..

magari anche qualche link sarebbe ben gradito



P.S.:ho già trovato un po di cose con le google hacks... ma devo reperire ancora tutto il manule con tutti i comandi.... ed in ogni caso, poi dovrei riuscire a trattare i risultati della ricerca... che qui poi mi incasinerei :)

samu76
12-11-2005, 06:33
qualche software l'ho trovato... ma volevo realizzare una cosetta da me... se non troppo complicata....

ma mi serve un po di aiuto :)

wisher
12-11-2005, 11:15
dai un'occhiata al codice html delle pagine e controlla come sono inseriti gli indirizzi (dovrebbe esserci mailto)... apri l'html come se fosse un file txt e fai il parsing...

samu76
12-11-2005, 12:28
fin qui c'ero anch'io :)

il problema è...

dato un url (o più), il programma mi entra in automatico (senza fare dwl di pagine html su pc), mi cerchi il link "mailto:" e mi salvi la e-mail trovate....

per il parsing dovrei riuscire a farcela da solo... ma quello che non arrivo a fare, per mancanza conoscenze, è come aprire le pagine html e "scannerizzarle" on line per la ricerca...

dovrei usare tipo i programmini che scaricano il contenuto del sito sul pc... insomma, la loro "tecnologia"... ma non so dove sbattere la testa :) :(



P.S.: ho provato ad usare qualche crawler di e-mail... ma al momento non mi soddisfano piu di tanto.... (in versione trial.... alla fine è un lavoro di 10gg max... una volta che ho questo elenco di e-mail non dovrei piu aver bisogno di questi software... ma l'essere in grado di farselo da se sarebbe gratificante :) )

EvilBoy
13-11-2005, 10:16
Per ogni pagina html genera un elenco dei links tramite il tag <a...>, verifica se appartengono allo stesso url e poi passi a leggere in ricorsione questi file.
Quando passi al file successivo incoda l'elenco dei link a quello già presente verificando che la pagina non sia già presente nell'elenco.
Trabilisci un termine per i livello.
E poi fallo in un orario in cui non rompi e fallo una volta sola...
(fai le prove in locale e solo quando sai che funziona lancialo)
troppi accessi in una botta sola non è bello!