Hardware Upgrade Forum - View Single Post

PhysX · 21-12-2008, 21:27

Quello che vuoi fare se non ho capito male è HTML scraping. Non serve controllare un browser per farlo, basta che usi una libreria che fa il parsing della pagina html, eventualmente la ripulisce e poi ti mette a disposizione un albero DOM da cui accedere comodamente ai dati.

Per fare queste cose mi trovo bene con Python e la libreria BeautifulSoup, piu o meno viene cosi il codice (molto semplice):

Codice:

stringaDaCercare = "xxx"
numeroRisultato = 2

risultatiRicerca = BeautifulSoup("http://www.google.it/search?q=" + stringaDaCercare)
nodo = risultatiRicerca.html.body.div[3].div.ol.li[ numeroRisultato ].h3.a
link = nodo["href"].strip()
target = BeautifulSoup(link)
stringa = target.html.body.string.strip()
if stringa==stringaDaCercare: doSomething()

Il percorso alla riga 2 puoi ricavarlo usando l'estensione Firebug per Firefox, cliccando su 'analizza' e poi sull'elemento della pagina di cui vuoi ottenere il percorso.

Una volta l'ho fatto anche in C++ usando TidyLib, è un po piu complesso pero.

21-12-2008, 21:27	#2
PhysX Senior Member Iscritto dal: Jun 2008 Città: Treviso Messaggi: 1026	Quello che vuoi fare se non ho capito male è HTML scraping. Non serve controllare un browser per farlo, basta che usi una libreria che fa il parsing della pagina html, eventualmente la ripulisce e poi ti mette a disposizione un albero DOM da cui accedere comodamente ai dati. Per fare queste cose mi trovo bene con Python e la libreria BeautifulSoup, piu o meno viene cosi il codice (molto semplice): Codice: stringaDaCercare = "xxx" numeroRisultato = 2 risultatiRicerca = BeautifulSoup("http://www.google.it/search?q=" + stringaDaCercare) nodo = risultatiRicerca.html.body.div[3].div.ol.li[ numeroRisultato ].h3.a link = nodo["href"].strip() target = BeautifulSoup(link) stringa = target.html.body.string.strip() if stringa==stringaDaCercare: doSomething() Il percorso alla riga 2 puoi ricavarlo usando l'estensione Firebug per Firefox, cliccando su 'analizza' e poi sull'elemento della pagina di cui vuoi ottenere il percorso. Una volta l'ho fatto anche in C++ usando TidyLib, è un po piu complesso pero. Ultima modifica di PhysX : 22-12-2008 alle 10:14.