|
|
|
|
Strumenti |
15-07-2021, 09:19 | #1 |
Member
Iscritto dal: Nov 2020
Messaggi: 75
|
[RETI] Web spider, da indirizzo IP a hostname raggiungibile da barra web indirizzi
Sto sto guardando questo programmino. https://github.com/eywu/goodbots Dato un indirizzo ip mi fa il reverse dns lookup. Quindi echo "203.208.60.1" | ./goodbots mi restituisce crawl-203-208-60-1.googlebot.com ma mettendolo nella barra degli indirizzi ottengo pagina non raggiungibile perchè?
|
15-07-2021, 11:31 | #2 |
Senior Member
Iscritto dal: Nov 2005
Messaggi: 2745
|
Il fatto che un ip abbia un hostname non implica che esso abbia anche un servizio web attivo, potrebbe avere altri servizi o potrebbe non essere accessibile se non sotto particolari condizioni (ad esempio per via di un filtro IP).
|
15-07-2021, 13:00 | #3 |
Member
Iscritto dal: Nov 2020
Messaggi: 75
|
Ok grazie. Vorrei però implementare uno web spider che fa il crawl a partire da delle keywords. Come potrei fare? Avevo optato per provare una serie di indirizzi ip e fare il reverse dns lookup ma come abbiamo detto non necessariamente mi restituisce un indirizzo web attivo quel indirizzo IP. L' alternativa quale può essere?
|
15-07-2021, 13:10 | #4 |
Member
Iscritto dal: Nov 2020
Messaggi: 75
|
Inoltre tutti i crawler visti fino ora da me chiedono di partire da una lista di urls. Ma a me serve recuperare questa lista di urls. Esiste un database di domini che posso sfruttare? I dns server fanno questo lavoro ma come si interrogano per ottenere la lista di urls?
|
15-07-2021, 13:23 | #5 |
Senior Member
Iscritto dal: Apr 2001
Città: Milano
Messaggi: 3593
|
i vari comandi ping e nslookup fanno la stessa cosa
|
15-07-2021, 14:43 | #6 |
Member
Iscritto dal: Nov 2020
Messaggi: 75
|
Con nslookup posso recuperare un nome di dominio registrato .it?
cioè *.it un comando che lista tutti i domini "it" registrati. Oppure avevo pensato di creare un generatore di stringhe di esempio "acidfrder".it e controllare con un servizio web wiktionary se acidfrder è una parola italiana. E formare cosi un url da registrare nella lista urls. Ci sono altre possibilità? Ultima modifica di zabnicola : 15-07-2021 alle 14:50. |
15-07-2021, 19:40 | #7 |
Senior Member
Iscritto dal: Apr 2001
Città: Milano
Messaggi: 3593
|
non ho capito se vuoi conoscere (enumerare) tutti i siti .it
|
15-07-2021, 20:35 | #8 |
Member
Iscritto dal: Nov 2020
Messaggi: 75
|
|
17-07-2021, 17:11 | #9 |
Member
Iscritto dal: Nov 2020
Messaggi: 75
|
Nessuno?
|
18-07-2021, 16:04 | #10 |
Member
Iscritto dal: Nov 2020
Messaggi: 75
|
Ho creato il generatore di stringhe. Ma mi occorre un servizio rest api per fare il check della parola generata. Conoscete qualche servizio restfull api di dizionario italiano? ho trovato questo ma non so quante parole possiede.
https://dictionaryapi.dev/ |
18-07-2021, 18:43 | #11 |
Senior Member
Iscritto dal: Apr 2001
Città: Milano
Messaggi: 3593
|
non ho capito cosa stai facendo o almeno: hai costruito un generatore di parole e vuoi testare con queste se esiste il sito relativo?
esempio: abcd.it |
18-07-2021, 20:03 | #12 |
Member
Iscritto dal: Nov 2020
Messaggi: 75
|
Posso postare il codice se volete. Si si, ho generato delle stringhe abcdef lunghe 6 caratteri e le sto provando se ce un corrispettivo url valido. Pero' mi servirebbe un dizionario di parole italiane da scaricare che è meglio partire da quelle. Dove le trovo?
E' per un lavoro di web crawler. |
18-07-2021, 20:47 | #13 |
Senior Member
Iscritto dal: Apr 2001
Città: Milano
Messaggi: 3593
|
molti siti usano sigle, quindi il dizionario della lingua italiana servirebbe a poco nulla. Meglio generare i nomi attraverso le combinazioni di lettere.
|
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 11:09.