[RETI] Web spider, da indirizzo IP a hostname raggiungibile da barra web indirizzi
Sto sto guardando questo programmino. https://github.com/eywu/goodbots Dato un indirizzo ip mi fa il reverse dns lookup. Quindi echo "203.208.60.1" | ./goodbots mi restituisce crawl-203-208-60-1.googlebot.com ma mettendolo nella barra degli indirizzi ottengo pagina non raggiungibile perchè?
|
Il fatto che un ip abbia un hostname non implica che esso abbia anche un servizio web attivo, potrebbe avere altri servizi o potrebbe non essere accessibile se non sotto particolari condizioni (ad esempio per via di un filtro IP).
|
Ok grazie. Vorrei però implementare uno web spider che fa il crawl a partire da delle keywords. Come potrei fare? Avevo optato per provare una serie di indirizzi ip e fare il reverse dns lookup ma come abbiamo detto non necessariamente mi restituisce un indirizzo web attivo quel indirizzo IP. L' alternativa quale può essere?
|
Inoltre tutti i crawler visti fino ora da me chiedono di partire da una lista di urls. Ma a me serve recuperare questa lista di urls. Esiste un database di domini che posso sfruttare? I dns server fanno questo lavoro ma come si interrogano per ottenere la lista di urls?
|
i vari comandi ping e nslookup fanno la stessa cosa
|
Con nslookup posso recuperare un nome di dominio registrato .it?
cioè *.it un comando che lista tutti i domini "it" registrati. Oppure avevo pensato di creare un generatore di stringhe di esempio "acidfrder".it e controllare con un servizio web wiktionary se acidfrder è una parola italiana. E formare cosi un url da registrare nella lista urls. Ci sono altre possibilità? |
non ho capito se vuoi conoscere (enumerare) tutti i siti .it :mbe:
|
Quote:
|
Nessuno?
|
Ho creato il generatore di stringhe. Ma mi occorre un servizio rest api per fare il check della parola generata. Conoscete qualche servizio restfull api di dizionario italiano? ho trovato questo ma non so quante parole possiede.
https://dictionaryapi.dev/ |
non ho capito cosa stai facendo o almeno: hai costruito un generatore di parole e vuoi testare con queste se esiste il sito relativo?
esempio: abcd.it |
Posso postare il codice se volete. Si si, ho generato delle stringhe abcdef lunghe 6 caratteri e le sto provando se ce un corrispettivo url valido. Pero' mi servirebbe un dizionario di parole italiane da scaricare che è meglio partire da quelle. Dove le trovo?
E' per un lavoro di web crawler. |
molti siti usano sigle, quindi il dizionario della lingua italiana servirebbe a poco nulla. Meglio generare i nomi attraverso le combinazioni di lettere.
|
Tutti gli orari sono GMT +1. Ora sono le: 23:28. |
Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Hardware Upgrade S.r.l.