Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Ecovacs Goat O1200 LiDAR Pro: la prova del robot tagliaerba con tagliabordi integrato
Ecovacs Goat O1200 LiDAR Pro: la prova del robot tagliaerba con tagliabordi integrato
Nuova frontiera per i robot tagliaerba, con Ecovacs GOAT O1200 LiDAR Pro che riconosce l'ambiente in maniera perfetta, grazie a due sensori LiDAR, e dopo la falciatura può anche rifinire il bordo con il tagliabordi a filo integrato
Recensione Samsung Galaxy S26+: sfida l'Ultra, ma ha senso di esistere?
Recensione Samsung Galaxy S26+: sfida l'Ultra, ma ha senso di esistere?
Equilibrio e potenza definiscono il Samsung Galaxy S26+, un flagship che sfida la variante Ultra e la fascia alta del mercato con il primo processore mobile a 2nm. Pur mantenendo l'hardware fotografico precedente, lo smartphone brilla per un display QHD+ da 6,7 pollici d'eccellenza, privo però del trattamento antiriflesso dell'Ultra, e per prestazioni molto elevate. Completano il quadro la ricarica wireless a 20W e, soprattutto, un supporto software settennale
Zeekr X e 7X provate: prezzi, autonomia fino a 615 km e ricarica in 13 minuti
Zeekr X e 7X provate: prezzi, autonomia fino a 615 km e ricarica in 13 minuti
Zeekr sbarca ufficialmente in Italia con tre modelli elettrici premium, X, 7X e 001, distribuiti da Jameel Motors su una rete di 52 punti vendita già attivi. La Zeekr X parte da 39.900 euro, la 7X da 54.100: piattaforma a 800V, chip Snapdragon di ultima generazione, ricarica ultraveloce e un'autonomia dichiarata fino a 615 km WLTP. Le prime consegne sono previste a metà aprile
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 18-09-2007, 20:13   #1
arara
Senior Member
 
L'Avatar di arara
 
Iscritto dal: Aug 2007
Messaggi: 1270
[Python] Parsing di un file HTML (risolto)

Sto studiando come accedere a informazioni mirate contenute in una pagina web tramite Python, quindi con PyXML e DOM.

Questo è un esempio che sto studiando, deve aprire una pagina, listare tutte le immagini e stamparne l'attributo "src", però si comporta in modo strano:

Codice:
from xml.dom.ext.reader import HtmlLib

reader = HtmlLib.Reader()

doc_node = reader.fromUri("http://www.google.com/firefox")

images = doc_node.documentElement.getElementsByTagName("img")

for image in images:
	print image.getAttribute("src")
Il metodo getAttribute("src") ritorna una stringa vuota, e il metodo hasAttribute("src") ritorna false.
Se pero effettuo questa chiamata: image.attributes.item(0).nodeValue, ritorna l'attributo src corretto...

Mi chiedo perchè getAttribute("src") non mi ritorni pure lui il valore corretto, visto che serve apposta per quello.

Ultima modifica di arara : 18-09-2007 alle 22:11.
arara è offline   Rispondi citando il messaggio o parte di esso
Old 18-09-2007, 20:26   #2
arara
Senior Member
 
L'Avatar di arara
 
Iscritto dal: Aug 2007
Messaggi: 1270
Se eseguo dir(image) mi stampa questo, dovrebbe essere un dizionario di tuple e oggetti di tipo Node... è qui che il metodo getAttribute("tag") dovrebbe andare a cercare l'attributo.

(l'indentazione l'ho aggiunta io...)
Codice:
<NamedNodeMap at 8433b2c: 
	{
		(None, u'src'): <Attribute Node at 8433b8c: Name="src", Value="/images/firefox/clear.gif">, 
		(None, u'width'): <Attribute Node at 843742c: Name="width", Value="1">, 
		(None, u'height'): <Attribute Node at 8433fcc: Name="height", Value="20">
	}
>
arara è offline   Rispondi citando il messaggio o parte di esso
Old 18-09-2007, 21:25   #3
marco.r
Senior Member
 
Iscritto dal: Dec 2005
Città: Istanbul
Messaggi: 1817
Quote:
Originariamente inviato da arara Guarda i messaggi
Sto studiando come accedere a informazioni mirate contenute in una pagina web tramite Python, quindi con PyXML e DOM.

Questo è un esempio che sto studiando, deve aprire una pagina, listare tutte le immagini e stamparne l'attributo "src", però si comporta in modo strano:
L'html è una bestia insidiosa... soprattutto non fidarti del fatto che il codice che scarichi sia valido. A PyXML meglio secondo me una libreria apposita.
Una fatta molto bene e' BeautifulSoup:
http://www.crummy.com/software/BeautifulSoup/

Codice:
from BeautifulSoup import BeautifulSoup
from urllib2 import urlopen
soup = BeautifulSoup( urlopen('http://www.google.com/firefox').read() )
for image in soup.findAll('img'):
  print image['src']
Questo stampa gli indirizzi di tutte le immagini contenute. Ma ci sono un sacco di metodi per cercare per contenuto, regex, attributo etc., oltre che diverse funzioni per navigare l'albero. Consigliatissimo.
Se poi devi pure navigarci sulle pagine (autenticarti, cliccare un paio di link, scaricare un altro file...) usa anche http://wwwsearch.sourceforge.net/mechanize/
__________________
One of the conclusions that we reached was that the "object" need not be a primitive notion in a programming language; one can build objects and their behaviour from little more than assignable value cells and good old lambda expressions. —Guy Steele
marco.r è offline   Rispondi citando il messaggio o parte di esso
Old 18-09-2007, 22:00   #4
arara
Senior Member
 
L'Avatar di arara
 
Iscritto dal: Aug 2007
Messaggi: 1270
bene bene, funziona!

Questo metodo mi sembra perfetto per quello che devo fare:

titleTag = soup.html.head.title
print titleTag
arara è offline   Rispondi citando il messaggio o parte di esso
Old 19-09-2007, 08:51   #5
^TiGeRShArK^
Senior Member
 
L'Avatar di ^TiGeRShArK^
 
Iscritto dal: Jul 2002
Città: Reggio Calabria -> London
Messaggi: 12112
Quote:
Originariamente inviato da marco.r Guarda i messaggi
Se poi devi pure navigarci sulle pagine (autenticarti, cliccare un paio di link, scaricare un altro file...) usa anche http://wwwsearch.sourceforge.net/mechanize/
fiko c'è pure per python
io lo sto usando in ruby x ora

P.S. potevi rispondere anke al mio thread allora quando cercavo qualcosa ke facesse ciò prima di scoprire mechanize

__________________
^TiGeRShArK^ è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Ecovacs Goat O1200 LiDAR Pro: la prova del robot tagliaerba con tagliabordi integrato Ecovacs Goat O1200 LiDAR Pro: la prova del robot...
Recensione Samsung Galaxy S26+: sfida l'Ultra, ma ha senso di esistere? Recensione Samsung Galaxy S26+: sfida l'Ultra, m...
Zeekr X e 7X provate: prezzi, autonomia fino a 615 km e ricarica in 13 minuti Zeekr X e 7X provate: prezzi, autonomia fino a 6...
Marathon: arriva il Fortnite hardcore Marathon: arriva il Fortnite hardcore
HP Imagine 2026: abbiamo visto HP IQ all’opera, ecco cosa può (e non può) fare HP Imagine 2026: abbiamo visto HP IQ all’opera, ...
The Duskbloods potrebbe arrivare a fine ...
Il miglior pesce d'aprile del mondo Linu...
Monopattini elettrici a 62 km/h fermati ...
OpenAI porta la modalità vocale d...
Mercedes-Benz introduce lo steer-by-wire...
Hacker agli Uffizi, il museo smentisce: ...
Nvidia mostra il futuro della grafica co...
Windows 11, scattano gli aggiornamenti f...
TIM lancia l'offerta di Pasqua: Giga ill...
Prime foto reali per OPPO Find X9 Ultra:...
Il leak di Claude Code diventa un'esca: ...
Netflix, batosta in Italia: aumenti ille...
UFO e complotti: chi si cela dietro la n...
Batterie EV difficili da riciclare: il p...
Non vuoi targare il monopattino? Engwe h...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 15:43.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v