Hardware Upgrade Forum

Hardware Upgrade Forum (https://www.hwupgrade.it/forum/index.php)
-   Programmazione (https://www.hwupgrade.it/forum/forumdisplay.php?f=38)
-   -   [RETI] Web spider, da indirizzo IP a hostname raggiungibile da barra web indirizzi (https://www.hwupgrade.it/forum/showthread.php?t=2944005)


zabnicola 15-07-2021 08:19

[RETI] Web spider, da indirizzo IP a hostname raggiungibile da barra web indirizzi
 
Sto sto guardando questo programmino. https://github.com/eywu/goodbots Dato un indirizzo ip mi fa il reverse dns lookup. Quindi echo "203.208.60.1" | ./goodbots mi restituisce crawl-203-208-60-1.googlebot.com ma mettendolo nella barra degli indirizzi ottengo pagina non raggiungibile perchè?

wingman87 15-07-2021 10:31

Il fatto che un ip abbia un hostname non implica che esso abbia anche un servizio web attivo, potrebbe avere altri servizi o potrebbe non essere accessibile se non sotto particolari condizioni (ad esempio per via di un filtro IP).

zabnicola 15-07-2021 12:00

Ok grazie. Vorrei però implementare uno web spider che fa il crawl a partire da delle keywords. Come potrei fare? Avevo optato per provare una serie di indirizzi ip e fare il reverse dns lookup ma come abbiamo detto non necessariamente mi restituisce un indirizzo web attivo quel indirizzo IP. L' alternativa quale può essere?

zabnicola 15-07-2021 12:10

Inoltre tutti i crawler visti fino ora da me chiedono di partire da una lista di urls. Ma a me serve recuperare questa lista di urls. Esiste un database di domini che posso sfruttare? I dns server fanno questo lavoro ma come si interrogano per ottenere la lista di urls?

misterx 15-07-2021 12:23

i vari comandi ping e nslookup fanno la stessa cosa

zabnicola 15-07-2021 13:43

Con nslookup posso recuperare un nome di dominio registrato .it?
cioè *.it un comando che lista tutti i domini "it" registrati.

Oppure avevo pensato di creare un generatore di stringhe di esempio "acidfrder".it e controllare con un servizio web wiktionary se acidfrder è una parola italiana. E formare cosi un url da registrare nella lista urls. Ci sono altre possibilità?

misterx 15-07-2021 18:40

non ho capito se vuoi conoscere (enumerare) tutti i siti .it :mbe:

zabnicola 15-07-2021 19:35

Quote:

Originariamente inviato da misterx (Messaggio 47483094)
non ho capito se vuoi conoscere (enumerare) tutti i siti .it :mbe:

Si mi interessare elencare tutti i siti .It. Penso che un registro di domini abbia la lista dei siti It, ma non la forniscono pubblicamente che io sappia.

zabnicola 17-07-2021 16:11

Nessuno?

zabnicola 18-07-2021 15:04

Ho creato il generatore di stringhe. Ma mi occorre un servizio rest api per fare il check della parola generata. Conoscete qualche servizio restfull api di dizionario italiano? ho trovato questo ma non so quante parole possiede.
https://dictionaryapi.dev/

misterx 18-07-2021 17:43

non ho capito cosa stai facendo o almeno: hai costruito un generatore di parole e vuoi testare con queste se esiste il sito relativo?

esempio:

abcd.it

zabnicola 18-07-2021 19:03

Posso postare il codice se volete. Si si, ho generato delle stringhe abcdef lunghe 6 caratteri e le sto provando se ce un corrispettivo url valido. Pero' mi servirebbe un dizionario di parole italiane da scaricare che è meglio partire da quelle. Dove le trovo?
E' per un lavoro di web crawler.

misterx 18-07-2021 19:47

molti siti usano sigle, quindi il dizionario della lingua italiana servirebbe a poco nulla. Meglio generare i nomi attraverso le combinazioni di lettere.


Tutti gli orari sono GMT +1. Ora sono le: 23:28.

Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Hardware Upgrade S.r.l.