Torna indietro   Hardware Upgrade Forum > Software > Programmazione

L'Europa conta nella tecnologia e può essere autonoma. Cosa si è detto al Nextcloud Summit 2026
L'Europa conta nella tecnologia e può essere autonoma. Cosa si è detto al Nextcloud Summit 2026
La parola d'ordine al Nextcloud Summit 2026, che si è tenuto a Monaco, è stata "sovranità". Non come è spesso usato questo termine in politica ma, al contrario, come capacità positiva di decidere il proprio destino tecnologico, con modalità collaborative e aperte. L'Europa dice già molto nel mondo open source, che viene visto come mezzo per ottenere la tanto agognata autonomia digitale
Dreame X60 Pro Ultra Complete: i bracci si estendono sempre di più
Dreame X60 Pro Ultra Complete: i bracci si estendono sempre di più
Dreame X60 Pro Ultra Complete implementa due bracci estensibili, per spazzola e moccio, che si spingono ben oltre quanto visto sino ad oggi permettendo una pulizia di casa ancor più capillare e precisa
TCL 65C8L, la recensione del SQD-Mini LED da 4400 nit misurati
TCL 65C8L, la recensione del SQD-Mini LED da 4400 nit misurati
La tecnologia SQD-Mini LED di TCL arriva sul taglio da 65 pollici con la serie C8L: 2040 zone, pannello WHVA 2.0 e un picco che alle rilevazioni delle sonde tocca i 4400 nit nel profilo Filmmaker e un HDR quasi perfetto
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 18-09-2007, 20:13   #1
arara
Senior Member
 
L'Avatar di arara
 
Iscritto dal: Aug 2007
Messaggi: 1270
[Python] Parsing di un file HTML (risolto)

Sto studiando come accedere a informazioni mirate contenute in una pagina web tramite Python, quindi con PyXML e DOM.

Questo è un esempio che sto studiando, deve aprire una pagina, listare tutte le immagini e stamparne l'attributo "src", però si comporta in modo strano:

Codice:
from xml.dom.ext.reader import HtmlLib

reader = HtmlLib.Reader()

doc_node = reader.fromUri("http://www.google.com/firefox")

images = doc_node.documentElement.getElementsByTagName("img")

for image in images:
	print image.getAttribute("src")
Il metodo getAttribute("src") ritorna una stringa vuota, e il metodo hasAttribute("src") ritorna false.
Se pero effettuo questa chiamata: image.attributes.item(0).nodeValue, ritorna l'attributo src corretto...

Mi chiedo perchè getAttribute("src") non mi ritorni pure lui il valore corretto, visto che serve apposta per quello.

Ultima modifica di arara : 18-09-2007 alle 22:11.
arara è offline   Rispondi citando il messaggio o parte di esso
Old 18-09-2007, 20:26   #2
arara
Senior Member
 
L'Avatar di arara
 
Iscritto dal: Aug 2007
Messaggi: 1270
Se eseguo dir(image) mi stampa questo, dovrebbe essere un dizionario di tuple e oggetti di tipo Node... è qui che il metodo getAttribute("tag") dovrebbe andare a cercare l'attributo.

(l'indentazione l'ho aggiunta io...)
Codice:
<NamedNodeMap at 8433b2c: 
	{
		(None, u'src'): <Attribute Node at 8433b8c: Name="src", Value="/images/firefox/clear.gif">, 
		(None, u'width'): <Attribute Node at 843742c: Name="width", Value="1">, 
		(None, u'height'): <Attribute Node at 8433fcc: Name="height", Value="20">
	}
>
arara è offline   Rispondi citando il messaggio o parte di esso
Old 18-09-2007, 21:25   #3
marco.r
Senior Member
 
Iscritto dal: Dec 2005
Città: Istanbul
Messaggi: 1817
Quote:
Originariamente inviato da arara Guarda i messaggi
Sto studiando come accedere a informazioni mirate contenute in una pagina web tramite Python, quindi con PyXML e DOM.

Questo è un esempio che sto studiando, deve aprire una pagina, listare tutte le immagini e stamparne l'attributo "src", però si comporta in modo strano:
L'html è una bestia insidiosa... soprattutto non fidarti del fatto che il codice che scarichi sia valido. A PyXML meglio secondo me una libreria apposita.
Una fatta molto bene e' BeautifulSoup:
http://www.crummy.com/software/BeautifulSoup/

Codice:
from BeautifulSoup import BeautifulSoup
from urllib2 import urlopen
soup = BeautifulSoup( urlopen('http://www.google.com/firefox').read() )
for image in soup.findAll('img'):
  print image['src']
Questo stampa gli indirizzi di tutte le immagini contenute. Ma ci sono un sacco di metodi per cercare per contenuto, regex, attributo etc., oltre che diverse funzioni per navigare l'albero. Consigliatissimo.
Se poi devi pure navigarci sulle pagine (autenticarti, cliccare un paio di link, scaricare un altro file...) usa anche http://wwwsearch.sourceforge.net/mechanize/
__________________
One of the conclusions that we reached was that the "object" need not be a primitive notion in a programming language; one can build objects and their behaviour from little more than assignable value cells and good old lambda expressions. —Guy Steele
marco.r è offline   Rispondi citando il messaggio o parte di esso
Old 18-09-2007, 22:00   #4
arara
Senior Member
 
L'Avatar di arara
 
Iscritto dal: Aug 2007
Messaggi: 1270
bene bene, funziona!

Questo metodo mi sembra perfetto per quello che devo fare:

titleTag = soup.html.head.title
print titleTag
arara è offline   Rispondi citando il messaggio o parte di esso
Old 19-09-2007, 08:51   #5
^TiGeRShArK^
Senior Member
 
L'Avatar di ^TiGeRShArK^
 
Iscritto dal: Jul 2002
Città: Reggio Calabria -> London
Messaggi: 12112
Quote:
Originariamente inviato da marco.r Guarda i messaggi
Se poi devi pure navigarci sulle pagine (autenticarti, cliccare un paio di link, scaricare un altro file...) usa anche http://wwwsearch.sourceforge.net/mechanize/
fiko c'è pure per python
io lo sto usando in ruby x ora

P.S. potevi rispondere anke al mio thread allora quando cercavo qualcosa ke facesse ciò prima di scoprire mechanize

__________________
^TiGeRShArK^ è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


L'Europa conta nella tecnologia e può essere autonoma. Cosa si è detto al Nextcloud Summit 2026 L'Europa conta nella tecnologia e può ess...
Dreame X60 Pro Ultra Complete: i bracci si estendono sempre di più Dreame X60 Pro Ultra Complete: i bracci si esten...
TCL 65C8L, la recensione del SQD-Mini LED da 4400 nit misurati TCL 65C8L, la recensione del SQD-Mini LED da 440...
MSI Maestro 500 Wireless: ANC e 90 ore di autonomia a 70 euro MSI Maestro 500 Wireless: ANC e 90 ore di autono...
NL-LC1 è il primo dissipatore a liquido AIO di Noctua: silenzio è la parola d'ordine NL-LC1 è il primo dissipatore a liquido A...
Autopromotec Dialogues: a Milano abbiamo...
Google Pixel 10 Pro crolla a 699€ in off...
I primi computer quantistici utili a liv...
Washington punta il dito contro ASML: se...
Data center, IA e rinnovabili: cos&igrav...
Doppia memoria, doppia potenza: la GeFor...
Il Galaxy S26 FE sta arrivando ma non av...
Lenovo Idea Tab Plus in offerta al Prime...
Hisense: il Prime Day sorprende con un T...
Reolink apre il Prime Day 2026 con scont...
Android 17 sui Pixel con qualche intoppo...
Prime Day, le offerte per i giocatori: M...
Una Tesla Model 3 sfonda una casa e ucci...
La cometa 3I/Atlas è una finestra sul "m...
NVIDIA punta sui data center AI raffredd...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 18:14.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v