PDA

View Full Version : [RETI] Web spider, da indirizzo IP a hostname raggiungibile da barra web indirizzi


zabnicola
15-07-2021, 08:19
Sto sto guardando questo programmino. https://github.com/eywu/goodbots Dato un indirizzo ip mi fa il reverse dns lookup. Quindi echo "203.208.60.1" | ./goodbots mi restituisce crawl-203-208-60-1.googlebot.com ma mettendolo nella barra degli indirizzi ottengo pagina non raggiungibile perchè?

wingman87
15-07-2021, 10:31
Il fatto che un ip abbia un hostname non implica che esso abbia anche un servizio web attivo, potrebbe avere altri servizi o potrebbe non essere accessibile se non sotto particolari condizioni (ad esempio per via di un filtro IP).

zabnicola
15-07-2021, 12:00
Ok grazie. Vorrei però implementare uno web spider che fa il crawl a partire da delle keywords. Come potrei fare? Avevo optato per provare una serie di indirizzi ip e fare il reverse dns lookup ma come abbiamo detto non necessariamente mi restituisce un indirizzo web attivo quel indirizzo IP. L' alternativa quale può essere?

zabnicola
15-07-2021, 12:10
Inoltre tutti i crawler visti fino ora da me chiedono di partire da una lista di urls. Ma a me serve recuperare questa lista di urls. Esiste un database di domini che posso sfruttare? I dns server fanno questo lavoro ma come si interrogano per ottenere la lista di urls?

misterx
15-07-2021, 12:23
i vari comandi ping e nslookup fanno la stessa cosa

zabnicola
15-07-2021, 13:43
Con nslookup posso recuperare un nome di dominio registrato .it?
cioè *.it un comando che lista tutti i domini "it" registrati.

Oppure avevo pensato di creare un generatore di stringhe di esempio "acidfrder".it e controllare con un servizio web wiktionary se acidfrder è una parola italiana. E formare cosi un url da registrare nella lista urls. Ci sono altre possibilità?

misterx
15-07-2021, 18:40
non ho capito se vuoi conoscere (enumerare) tutti i siti .it :mbe:

zabnicola
15-07-2021, 19:35
non ho capito se vuoi conoscere (enumerare) tutti i siti .it :mbe:

Si mi interessare elencare tutti i siti .It. Penso che un registro di domini abbia la lista dei siti It, ma non la forniscono pubblicamente che io sappia.

zabnicola
17-07-2021, 16:11
Nessuno?

zabnicola
18-07-2021, 15:04
Ho creato il generatore di stringhe. Ma mi occorre un servizio rest api per fare il check della parola generata. Conoscete qualche servizio restfull api di dizionario italiano? ho trovato questo ma non so quante parole possiede.
https://dictionaryapi.dev/

misterx
18-07-2021, 17:43
non ho capito cosa stai facendo o almeno: hai costruito un generatore di parole e vuoi testare con queste se esiste il sito relativo?

esempio:

abcd.it

zabnicola
18-07-2021, 19:03
Posso postare il codice se volete. Si si, ho generato delle stringhe abcdef lunghe 6 caratteri e le sto provando se ce un corrispettivo url valido. Pero' mi servirebbe un dizionario di parole italiane da scaricare che è meglio partire da quelle. Dove le trovo?
E' per un lavoro di web crawler.

misterx
18-07-2021, 19:47
molti siti usano sigle, quindi il dizionario della lingua italiana servirebbe a poco nulla. Meglio generare i nomi attraverso le combinazioni di lettere.