PDA

View Full Version : html parser


cipi
17-11-2005, 15:32
Salve,
mi sono fatto un parser html molto banale per scaricare dei dati da un sito... ho messo uno spleep di 2 secondi tra una richiesta e l'altra ma dovrò consultare circa 10000 pagine. Quanto tempo passerà prima che mi blocchino l'IP? :banned: :D E se succede ne hanno tutti i diritti? Dopotutto non gli intaso mica il server... non violerebbero qualche norma? Ovviamente dei dati, dovessi utilizzarli in qualche mia ricerca o articolo, sarebbe citata la fonte... :stordita:
ciao

pinok
17-11-2005, 15:41
E che è? Ti scarichi un'enciclopedia?
Ci sono programmi per fare il mirror (WinHTTrack per esempio), che credo "attacchino" abbastanza i server.

Sarebbe da valutare la tua applicazione che impatto abbia sui loro server.
Credo che senza maggiori informazioni, sarà dura darti una risposta sicura.

cipi
17-11-2005, 15:49
accedo alla pagina e leggo il contenuto... così per capirci:

#Region "Lettura dati da un URL passato come stringa"
Public Function LeggiURL(ByVal URL As String) As String
Dim wc As New System.Net.WebClient()
Dim s As System.IO.Stream = wc.OpenRead(URL)
Dim r As String
Dim sr As System.IO.StreamReader = New System.IO.StreamReader(s, System.Text.Encoding.UTF7, False)
r = sr.ReadToEnd()
Return r
End Function
#End Region

non mi sembra particolrmante invasivo, no?

pinok
17-11-2005, 16:04
No, anche se è in un linguaggio che non mi è familiare.
Cerca però di fare le operazioni in sequenza senza parallerizzarle troppo (10.000 accessi contemporanei farebbero sì casino) e cercando di chiudere bene tutte le connessioni, per non lasciarne di appese....

cipi
17-11-2005, 16:09
E' scritto in Visual Basic .NET!
Effettivamente o fatto in modo che gli accessi non siano contemporanei ma sequenziali... dovessero bloccarmi mi posso lamentare in qualche modo? ne avrei diritto?

cipi
21-11-2005, 14:29
ok, al momento ho "parserizzato" circa 50,000 pagine html e non mi hanno ancora mandato nessun sicario :sborone: ... tutto ok? speriamo... :sperem:

VegetaSSJ5
21-11-2005, 20:25
cipi hai bisogno del manuale Visual Basic .NET 2003 Passo per passo, MAI e dico MAI usato?

pinok
21-11-2005, 21:34
E' scritto in Visual Basic .NET!

Mi sembrava codice M$...
Che ci vuoi fare tutto quello che è .NET mi dà l'orticaria ;)

cipi
23-11-2005, 16:27
cipi hai bisogno del manuale Visual Basic .NET 2003 Passo per passo, MAI e dico MAI usato?

Dipende dallo sconto sul prezzo di copertina... ;)

cipi
23-11-2005, 16:30
[QUOTE=cipi]E' scritto in Visual Basic .NET!
[QUOTE]
Mi sembrava codice M$...
Che ci vuoi fare tutto quello che è .NET mi dà l'orticaria ;)
:D :D :D

VegetaSSJ5
23-11-2005, 20:40
Dipende dallo sconto sul prezzo di copertina... ;)
guarda costa 45 euro, posso dartelo a 25 euro spese escluse, non di meno.

cipi
24-11-2005, 10:13
guarda costa 45 euro, posso dartelo a 25 euro spese escluse, non di meno.
ok, vada per 25 + s.s.
Ti mando pvt!
ciao