|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
Senior Member
Iscritto dal: Mar 2005
Città: trento
Messaggi: 1318
|
come realizzare spider...
posto qui perchè credo sia piu una cosa di programmazione che altro...
avrei bisogno di realizzare, se possibile, un "robot" che mi navighi sulle pagine web (in cui url contengano determinate parole) e che mi salvi le e-mail che vi trova.. non mi serve per spammare ![]() ![]() magari anche qualche link sarebbe ben gradito P.S.:ho già trovato un po di cose con le google hacks... ma devo reperire ancora tutto il manule con tutti i comandi.... ed in ogni caso, poi dovrei riuscire a trattare i risultati della ricerca... che qui poi mi incasinerei ![]()
__________________
<<giovani oggi bagnati, domani forse raffreddati....>> Papa Giovanni Paolo II - Aprile 1995 Trento Concluso positivamente con: 055, giankyfava, iceone, carocavallo |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Mar 2005
Città: trento
Messaggi: 1318
|
qualche software l'ho trovato... ma volevo realizzare una cosetta da me... se non troppo complicata....
ma mi serve un po di aiuto ![]()
__________________
<<giovani oggi bagnati, domani forse raffreddati....>> Papa Giovanni Paolo II - Aprile 1995 Trento Concluso positivamente con: 055, giankyfava, iceone, carocavallo |
![]() |
![]() |
![]() |
#3 |
Senior Member
Iscritto dal: Aug 2005
Messaggi: 2755
|
dai un'occhiata al codice html delle pagine e controlla come sono inseriti gli indirizzi (dovrebbe esserci mailto)... apri l'html come se fosse un file txt e fai il parsing...
__________________
|
![]() |
![]() |
![]() |
#4 |
Senior Member
Iscritto dal: Mar 2005
Città: trento
Messaggi: 1318
|
fin qui c'ero anch'io
![]() il problema è... dato un url (o più), il programma mi entra in automatico (senza fare dwl di pagine html su pc), mi cerchi il link "mailto:" e mi salvi la e-mail trovate.... per il parsing dovrei riuscire a farcela da solo... ma quello che non arrivo a fare, per mancanza conoscenze, è come aprire le pagine html e "scannerizzarle" on line per la ricerca... dovrei usare tipo i programmini che scaricano il contenuto del sito sul pc... insomma, la loro "tecnologia"... ma non so dove sbattere la testa ![]() ![]() P.S.: ho provato ad usare qualche crawler di e-mail... ma al momento non mi soddisfano piu di tanto.... (in versione trial.... alla fine è un lavoro di 10gg max... una volta che ho questo elenco di e-mail non dovrei piu aver bisogno di questi software... ma l'essere in grado di farselo da se sarebbe gratificante ![]()
__________________
<<giovani oggi bagnati, domani forse raffreddati....>> Papa Giovanni Paolo II - Aprile 1995 Trento Concluso positivamente con: 055, giankyfava, iceone, carocavallo |
![]() |
![]() |
![]() |
#5 |
Senior Member
Iscritto dal: Oct 2001
Città: Monza (MI)
Messaggi: 1380
|
Per ogni pagina html genera un elenco dei links tramite il tag <a...>, verifica se appartengono allo stesso url e poi passi a leggere in ricorsione questi file.
Quando passi al file successivo incoda l'elenco dei link a quello già presente verificando che la pagina non sia già presente nell'elenco. Trabilisci un termine per i livello. E poi fallo in un orario in cui non rompi e fallo una volta sola... (fai le prove in locale e solo quando sai che funziona lancialo) troppi accessi in una botta sola non è bello!
__________________
Fidarsi è bene, non fidarsi è meglio: compro e vendo solo ed esclusivamente con consegna a mano! Utenti da cui ho acquistato: ezekiel22, sm_morgan, Pauraaaa!!!, MisterG, Sallivan77, Gizmo, Rizlo+, Corbetz, Max64, Huangwei, Nym, Pir4nia, Riki82, TheSaint, Toscanello, Torregiani...Utenti a cui ho venduto: Fabio77AmdThunder, Rizlo+, Loprix, SberlaPro, Teo2086, opale, CFranco, Lexd, Anto.... Viaggi intercontinentali: Ecuador/Galapagos, California, Dubai/Oman/Siria/Marocco, Thailandia! |
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 22:04.