PDA

View Full Version : [C#] Parser dati pagina web


teol801
20-08-2012, 11:23
Ciao ragazzi, dovrei realizzare un programmino che data una pagina web (asp) va a recuperare alcuni valori per fare dei confronti.
Prendo per esempio questa pagina: http://www.italianbulls.com/StockList.asp
Nello specifico mi interessa leggere i dati contenuti nelle pagine di alcuni dei "Ticker" in elenco per salvarmeli in una dt ad esempio.
I valori da salvare (prendendo per esempio il primo Ticker in elenco: http://www.italianbulls.com/StockPage.asp?CompanyTicker=A2A.MI&MarketTicker=Milan&Typ=S) sono il suo nome "A2A.MI", il suo valore attuale "0.4117" (indicato in grassetto blu in alto a dentra circa vicino al nome) e il suo valore precedente (data e prezzo) recuperato dalla prima riga della tabella "Two-Year Signal History " di destra.
Qualcuno mi saprebbe dare delle dritte? Grazie mille

teol801
21-08-2012, 07:15
UP!

teol801
22-08-2012, 14:07
UP

MarcoGG
22-08-2012, 16:21
Il risultato di quella pagina ASP produce un Document HTML e chiaramente i dati sono strutturati in una Table.
Il problema di estrapolare dati automaticamente da un flusso HTML è un classico.
In .NET una delle vie più rapide è una semplice Application Windows Forms con un controllo WebBrowser.

Sulla mia Pagina FaceBook ho inserito di recente 3 Articoli con codice funzionante sull'uso avanzato del controllo WebBrowser, con particolare attenzione al problema del parsing :

1.
https://www.facebook.com/notes/marcogg/vbnet-esempio-parsing-html-con-webbrowser/466660770012070

2.
https://www.facebook.com/notes/marcogg/vbnet-download-automatico-da-google-images-con-webbrowser/476016835743130

3.
https://www.facebook.com/notes/marcogg/vbnet-selezioni-automatiche-su-html-document/477982925546521

La 1. in pratica è la risposta ad un quesito identico al tuo.
Il codice è VB 2010, ma portarlo in C# è molto semplice... ;)

teol801
20-09-2012, 08:46
Graazie mille della dritta.
Ho però un problema che mi blocca...
Dopo aver recuperato con .GetElementsByTagName("td") i vari tag,
nel ciclo successivo recuperi il valore se TDs(i).OuterHtml.Contains(testTD)
dove testID è praticamente quanto specificato nel Class del tag.
Nel mio caso all'interno del OuterHtml i tag TD non sono identificati da un Class specifico ma so che posso accedere a quello di mio interesse perchè il testo HTML specifico è:
<td height="60" valign="top"><font size="6" color="GRAY" valign="top"><b>WAIT<br></b></font></td>
Sai per caso darmi un'ulteriore dritta su come recuperare quekl tag e leggere il valore WAIT?
Grazie mille.

Il risultato di quella pagina ASP produce un Document HTML e chiaramente i dati sono strutturati in una Table.
Il problema di estrapolare dati automaticamente da un flusso HTML è un classico.
In .NET una delle vie più rapide è una semplice Application Windows Forms con un controllo WebBrowser.

Sulla mia Pagina FaceBook ho inserito di recente 3 Articoli con codice funzionante sull'uso avanzato del controllo WebBrowser, con particolare attenzione al problema del parsing :

1.
https://www.facebook.com/notes/marcogg/vbnet-esempio-parsing-html-con-webbrowser/466660770012070

2.
https://www.facebook.com/notes/marcogg/vbnet-download-automatico-da-google-images-con-webbrowser/476016835743130

3.
https://www.facebook.com/notes/marcogg/vbnet-selezioni-automatiche-su-html-document/477982925546521

La 1. in pratica è la risposta ad un quesito identico al tuo.
Il codice è VB 2010, ma portarlo in C# è molto semplice... ;)

teol801
20-09-2012, 08:47
Ah dimenticavo, la pagina di esempio è http://www.italianbulls.com/StockPage.asp?CompanyTicker=BMPS.MI&MarketTicker=Milan&Typ=S.
Potrebbe essere che il campo da leggere abbia un valore diverso durante la giornata...
Graazie mille della dritta.
Ho però un problema che mi blocca...
Dopo aver recuperato con .GetElementsByTagName("td") i vari tag,
nel ciclo successivo recuperi il valore se TDs(i).OuterHtml.Contains(testTD)
dove testID è praticamente quanto specificato nel Class del tag.
Nel mio caso all'interno del OuterHtml i tag TD non sono identificati da un Class specifico ma so che posso accedere a quello di mio interesse perchè il testo HTML specifico è:
<td height="60" valign="top"><font size="6" color="GRAY" valign="top"><b>WAIT<br></b></font></td>
Sai per caso darmi un'ulteriore dritta su come recuperare quekl tag e leggere il valore WAIT?
Grazie mille.

banryu79
20-09-2012, 12:11
Attenzione che fare web scraping delle pagine di un sito potrebbe essere illegale.
(link (https://en.wikipedia.org/wiki/Web_scraping#Legal_issues))

DarkSiDE
26-09-2012, 08:49
Ciao ragazzi, dovrei realizzare un programmino che data una pagina web (asp) va a recuperare alcuni valori per fare dei confronti.
Prendo per esempio questa pagina: http://www.italianbulls.com/StockList.asp
Nello specifico mi interessa leggere i dati contenuti nelle pagine di alcuni dei "Ticker" in elenco per salvarmeli in una dt ad esempio.
I valori da salvare (prendendo per esempio il primo Ticker in elenco: http://www.italianbulls.com/StockPage.asp?CompanyTicker=A2A.MI&MarketTicker=Milan&Typ=S) sono il suo nome "A2A.MI", il suo valore attuale "0.4117" (indicato in grassetto blu in alto a dentra circa vicino al nome) e il suo valore precedente (data e prezzo) recuperato dalla prima riga della tabella "Two-Year Signal History " di destra.
Qualcuno mi saprebbe dare delle dritte? Grazie mille

hai due soluzioni abbastanza rapide per fare quel che chiedi:

- html agility pack
- watin

dipende dalla complessità delle pagine, per quello che hai menzionato la prima soluzione è più che sufficiente

ps il sito da te citato, cos'è?

teol801
26-09-2012, 09:13
Grazie della risposta.
Stò provando con html agility pack ma non riesco a recuperare il valore desiderato in nessun modo. A partire dall'html recuperato provo ad accedere con xpath ma nulla.
Ho postato anche alla community del progetto cercando uno spunto.
Ti mando pm con dettagli magari tu sei più ferrato e se hai 2 minuti magari mi illumini.
Grazie mille.

hai due soluzioni abbastanza rapide per fare quel che chiedi:

- html agility pack
- watin

dipende dalla complessità delle pagine, per quello che hai menzionato la prima soluzione è più che sufficiente

ps il sito da te citato, cos'è?

DarkSiDE
26-09-2012, 10:05
Grazie della risposta.
Stò provando con html agility pack ma non riesco a recuperare il valore desiderato in nessun modo. A partire dall'html recuperato provo ad accedere con xpath ma nulla.
Ho postato anche alla community del progetto cercando uno spunto.
Ti mando pm con dettagli magari tu sei più ferrato e se hai 2 minuti magari mi illumini.
Grazie mille.

ciao,
le domande meglio farle qui, potrebbero tornare utili a qualcun altro.

Non ho capito perchè mi hai mandato il link alla community del framework che ti ho consigliato, posta il codice che lo vediamo assieme.

teol801
26-09-2012, 13:42
Vorrei recuperare il valore di un tag all'interno di una pagina.
Utilizzando Agility Pack sono arrivato a questo punto:

public static HtmlDocument ParseHtml(string URL)
{
HtmlDocument hDoc = new HtmlDocument();
try
{
WebClient wClient = new WebClient();
byte[] bData = wClient.DownloadData(URL);
hDoc.LoadHtml(ASCIIEncoding.ASCII.GetString(bData));
}
catch
{
hDoc.LoadHtml("");
}
return hDoc;
}

HtmlAgilityPack.HtmlDocument htmldoc = ParseHtml(url);

Da questo ottengo il sorgente della pagina.
Per leggere il valore specifico tento di accedere con il metodo SelectNodes passando come argomento il percorso specifico nel sorgente con xpath (recuperato con firebug + firepath):

HtmlNode hNode = htmldoc.DocumentNode.SelectNodes("/html/body/table/tbody/tr/td/table[5]/tbody/tr/td/table/tbody/tr/td[4]/table/tbody/tr[2]/td/table/tbody/tr/td/font")

Purtroppo però il risultato è null.

Il sorgente della pagina non è bellissimo e c'è pure un errore restituito dal parser alla riga 157 relatino ad un tag <font> non aperto.

Per l'esempio la pagina da cui leggere il dato è http://www.italianbulls.com/StockPage.asp?CompanyTicker=BMPS.MI&MarketTicker=Milan&Typ=S
Il valore da recuperare è BUY...attenzione che può cambiare nel tempo e può essere BUY-IF, SELL, SELL-IF, HOLD e cambiare di colore di conseguenza.

teol801
27-09-2012, 15:17
Nessun consiglio?

teol801
01-10-2012, 11:24
up