Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Lenovo Legion Go 2: Ryzen Z2 Extreme e OLED 8,8'' per spingere gli handheld gaming PC al massimo
Lenovo Legion Go 2: Ryzen Z2 Extreme e OLED 8,8'' per spingere gli handheld gaming PC al massimo
Lenovo Legion Go 2 è la nuova handheld PC gaming con processore AMD Ryzen Z2 Extreme (8 core Zen 5/5c, GPU RDNA 3.5 16 CU) e schermo OLED 8,8" 1920x1200 144Hz. È dotata anche di controller rimovibili TrueStrike con joystick Hall effect e una batteria da 74Wh. Rispetto al dispositivo che l'ha preceduta, migliora ergonomia e prestazioni a basse risoluzioni, ma pesa 920g e costa 1.299€ nella configurazione con 32GB RAM/1TB SSD e Z2 Extreme
AWS re:Invent 2025: inizia l'era dell'AI-as-a-Service con al centro gli agenti
AWS re:Invent 2025: inizia l'era dell'AI-as-a-Service con al centro gli agenti
A re:Invent 2025, AWS mostra un’evoluzione profonda della propria strategia: l’IA diventa una piattaforma di servizi sempre più pronta all’uso, con agenti e modelli preconfigurati che accelerano lo sviluppo, mentre il cloud resta la base imprescindibile per governare dati, complessità e lock-in in uno scenario sempre più orientato all’hybrid cloud
Cos'è la bolla dell'IA e perché se ne parla
Cos'è la bolla dell'IA e perché se ne parla
Si parla molto ultimamente di "bolla dell'intelligenza artificiale", ma non è sempre chiaro perché: l'IA è una tecnologia molto promettente e che ha già cambiato molte cose dentro e fuori le aziende, ma ci sono enormi aspettative che stanno gonfiando a dismisura i valori delle azioni e distorcendo il mercato. Il che, com'è facile intuire, può portare a una ripetizione della "bolla dotcom", e forse anche di quella dei mutui subprime. Vediamo perché
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 06-01-2017, 09:47   #1
Sasanta
Junior Member
 
Iscritto dal: Jun 2015
Messaggi: 23
copiare contenuti pagine internet python

Ciao ragazzi ho un piccolo problema con python nelle pagine web. Allora io vorrei copiare i contenuti delle pagine web per esempio su wikipedia alla pagina di leonardo da Vinci vorrei copiare la vita,opere ecc... , quindi copiare il testo e non la struttura come mi è successo se uso la funzione urllib2. Ed inoltre vorrei copiare solo alcune parti distinguendole dal font della scrittura per esempio h1, h2 ecc... io ho gia provato questo programma ma mi copia solo la struttura del sito web, ma io vorrei copiare il contenuto per favore aiutatemi ed inoltre buon anno
Sasanta è offline   Rispondi citando il messaggio o parte di esso
Old 06-01-2017, 15:36   #2
pabloski
Senior Member
 
Iscritto dal: Jan 2008
Messaggi: 8406
Quello che vuoi fare e' lo scraping delle pagine e Beautifulsoup e' lo strumento adatto.

Ovviamente sta a te dirgli come e dove prendere le varie componenti della pagina e salvarle in file/variabili differenti.
pabloski è offline   Rispondi citando il messaggio o parte di esso
Old 06-01-2017, 16:26   #3
Sasanta
Junior Member
 
Iscritto dal: Jun 2015
Messaggi: 23
esatto ragazzi quello che voglio fare è un web crawling con tutte pagine di wikipedia e sto usando sia bs4 che requests come librerie.
Ho però dei problemini per la copia dei contenuti dei file e uso questo codice:
Codice HTML:
import urllib2
with open("culumn.txt","w") as f:
    f.write(urllib2.urlopen("http://python.org/").read())
ma il contenuto del sito web non me lo copia
comunque alla fine è il web crawling il mio obiettivo ma questo insieme alla scelta dei contenuti da copiare è il mio problema più grande. Anche perche nel mio web crawling non sto inserendo eccezioni come try perche le pagine sono esistenti ed in formato HTML. Aiutatemi
Sasanta è offline   Rispondi citando il messaggio o parte di esso
Old 06-01-2017, 16:29   #4
Sasanta
Junior Member
 
Iscritto dal: Jun 2015
Messaggi: 23
Quote:
Originariamente inviato da coffe_killer Guarda i messaggi
Dovresti incollarci il codice per capire meglio come mai non ti funziona (magari inserendolo tra i tag CODE).

In ogni caso per la tesi io usai questa libreria che mi era risultata molto molto comoda:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#

Spero ti possa essere d'aiuto.
Grazie Coffee_killer ho letto il tuo link e devo dire che è un tesoro per il web crawling grazie
Sasanta è offline   Rispondi citando il messaggio o parte di esso
Old 07-01-2017, 15:48   #5
Sasanta
Junior Member
 
Iscritto dal: Jun 2015
Messaggi: 23
Quote:
Originariamente inviato da coffe_killer Guarda i messaggi
Felice di esserti stato d'aiuto
ciao Coffee, il link che mi hai mandato mi è stato utilissimo per capire il programma crawler scritto in un sito ora ti faccio la copia del codice:
Codice:
import bs4
import requests
 
def estrapola_sorgente(url):
    if 'http://' in url:
        sorgente = requests.get(url).text
        return(sorgente)
    else:
        return("L'url non è valido")
    
def estrapola_h1(sorgente):
    soup = bs4.BeautifulSoup(sorgente)
    elenco = soup.findAll('h1')
    if elenco:
        for a in elenco:
            print(a)
    else:
        print("Non ci sono H1 in questa pagina")
 
lista_siti = [
    'http://www.espertoseo.it',
    'http://www.example.org',
    'http://www.wired.it',
    'http://www.python.org',
    'http://www.w3.org',
    ]
 
for sito in lista_siti:
    sorgente = estrapola_sorgente(sito)
    print('Elenco degli H1 di ' + sito)
    estrapola_h1(sorgente)
    print()
ecco questo non è il mio codice ma l'ho prelevato da un sito, il codice l'ho capito, ma eseguendolo sul mio pc no mi funziona per esempio questa porzione di codice:
Codice:
def estrapola_sorgente(url):
    if 'http://' in url:
        sorgente = requests.get(url).text
        return(sorgente)
    else:
        return("L'url non è valido")
serve soltanto ad estrapolare il sorgente dal sito ma dentro URL non ci devo mettere l'indirizzo di wikipedia bensì nella lista_siti in basso vero??
Sasanta è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Lenovo Legion Go 2: Ryzen Z2 Extreme e OLED 8,8'' per spingere gli handheld gaming PC al massimo Lenovo Legion Go 2: Ryzen Z2 Extreme e OLED 8,8'...
AWS re:Invent 2025: inizia l'era dell'AI-as-a-Service con al centro gli agenti AWS re:Invent 2025: inizia l'era dell'AI-as-a-Se...
Cos'è la bolla dell'IA e perché se ne parla Cos'è la bolla dell'IA e perché se...
BOOX Palma 2 Pro in prova: l'e-reader diventa a colori, e davvero tascabile BOOX Palma 2 Pro in prova: l'e-reader diventa a ...
FRITZ!Repeater 1700 estende la rete super-veloce Wi-Fi 7 FRITZ!Repeater 1700 estende la rete super-veloce...
SpaceX: un satellite ha fotografato il s...
36 idee regalo con offerte Amazon sotto ...
Sony assume il controllo dei Peanuts: Sn...
DJI Neo scende a 149€ su Amazon, in vers...
Scoperto un nuovo esopianeta che orbita ...
Blue Origin NS-37: successo per la missi...
Potrebbe essere stata rilevata una super...
La cometa interstellare 3I/ATLAS è...
Xiaomi 17 Ultra: l'autonomia non sarà un...
Il processo produttivo a 2 nm di TSMC è ...
L'atteso aggiornamento dei driver della ...
The Elder Scrolls VI nel 2029 e Fallout ...
Il Ryzen 7 9850X3D appare nel catalogo d...
Weekend pre natalizio Amazon, ecco tutte...
Prezzi giù su Oral-B iO: spazzolini elet...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 04:49.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v