Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare
Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare
Realizzato da Lenovo e installato presso il Cineca di Casalecchio di Reno, Pitagora offre circa 44 PFlop/s di potenza di calcolo ed è dedicato alla simulazione della fisica del plasma e allo studio dei materiali avanzati per la fusione, integrandosi nell’ecosistema del Tecnopolo di Bologna come infrastruttura strategica finanziata da EUROfusion e gestita in collaborazione con ENEA
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA
Rullo di lavaggio dei pavimenti abbinato a un potente motore da 28.000 Pa e a bracci esterni che si estendono: queste, e molte altre, le caratteristiche tecniche di Z60 Ultra Roller Complete, l'ultimo robot di Mova che pulisce secondo le nostre preferenze oppure lasciando far tutto alla ricca logica di intelligenza artificiale integrata
Renault Twingo E-Tech Electric: che prezzo!
Renault Twingo E-Tech Electric: che prezzo!
Renault annuncia la nuova vettura compatta del segmento A, che strizza l'occhio alla tradizione del modello abbinandovi una motorizzazione completamente elettrica e caratteristiche ideali per i tragitti urbani. Renault Twingo E-Tech Electric punta su abitabilità, per una lunghezza di meno di 3,8 metri, abbinata a un prezzo di lancio senza incentivi di 20.000€
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 06-01-2017, 09:47   #1
Sasanta
Junior Member
 
Iscritto dal: Jun 2015
Messaggi: 23
copiare contenuti pagine internet python

Ciao ragazzi ho un piccolo problema con python nelle pagine web. Allora io vorrei copiare i contenuti delle pagine web per esempio su wikipedia alla pagina di leonardo da Vinci vorrei copiare la vita,opere ecc... , quindi copiare il testo e non la struttura come mi è successo se uso la funzione urllib2. Ed inoltre vorrei copiare solo alcune parti distinguendole dal font della scrittura per esempio h1, h2 ecc... io ho gia provato questo programma ma mi copia solo la struttura del sito web, ma io vorrei copiare il contenuto per favore aiutatemi ed inoltre buon anno
Sasanta è offline   Rispondi citando il messaggio o parte di esso
Old 06-01-2017, 15:36   #2
pabloski
Senior Member
 
Iscritto dal: Jan 2008
Messaggi: 8406
Quello che vuoi fare e' lo scraping delle pagine e Beautifulsoup e' lo strumento adatto.

Ovviamente sta a te dirgli come e dove prendere le varie componenti della pagina e salvarle in file/variabili differenti.
pabloski è offline   Rispondi citando il messaggio o parte di esso
Old 06-01-2017, 16:26   #3
Sasanta
Junior Member
 
Iscritto dal: Jun 2015
Messaggi: 23
esatto ragazzi quello che voglio fare è un web crawling con tutte pagine di wikipedia e sto usando sia bs4 che requests come librerie.
Ho però dei problemini per la copia dei contenuti dei file e uso questo codice:
Codice HTML:
import urllib2
with open("culumn.txt","w") as f:
    f.write(urllib2.urlopen("http://python.org/").read())
ma il contenuto del sito web non me lo copia
comunque alla fine è il web crawling il mio obiettivo ma questo insieme alla scelta dei contenuti da copiare è il mio problema più grande. Anche perche nel mio web crawling non sto inserendo eccezioni come try perche le pagine sono esistenti ed in formato HTML. Aiutatemi
Sasanta è offline   Rispondi citando il messaggio o parte di esso
Old 06-01-2017, 16:29   #4
Sasanta
Junior Member
 
Iscritto dal: Jun 2015
Messaggi: 23
Quote:
Originariamente inviato da coffe_killer Guarda i messaggi
Dovresti incollarci il codice per capire meglio come mai non ti funziona (magari inserendolo tra i tag CODE).

In ogni caso per la tesi io usai questa libreria che mi era risultata molto molto comoda:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#

Spero ti possa essere d'aiuto.
Grazie Coffee_killer ho letto il tuo link e devo dire che è un tesoro per il web crawling grazie
Sasanta è offline   Rispondi citando il messaggio o parte di esso
Old 07-01-2017, 15:48   #5
Sasanta
Junior Member
 
Iscritto dal: Jun 2015
Messaggi: 23
Quote:
Originariamente inviato da coffe_killer Guarda i messaggi
Felice di esserti stato d'aiuto
ciao Coffee, il link che mi hai mandato mi è stato utilissimo per capire il programma crawler scritto in un sito ora ti faccio la copia del codice:
Codice:
import bs4
import requests
 
def estrapola_sorgente(url):
    if 'http://' in url:
        sorgente = requests.get(url).text
        return(sorgente)
    else:
        return("L'url non è valido")
    
def estrapola_h1(sorgente):
    soup = bs4.BeautifulSoup(sorgente)
    elenco = soup.findAll('h1')
    if elenco:
        for a in elenco:
            print(a)
    else:
        print("Non ci sono H1 in questa pagina")
 
lista_siti = [
    'http://www.espertoseo.it',
    'http://www.example.org',
    'http://www.wired.it',
    'http://www.python.org',
    'http://www.w3.org',
    ]
 
for sito in lista_siti:
    sorgente = estrapola_sorgente(sito)
    print('Elenco degli H1 di ' + sito)
    estrapola_h1(sorgente)
    print()
ecco questo non è il mio codice ma l'ho prelevato da un sito, il codice l'ho capito, ma eseguendolo sul mio pc no mi funziona per esempio questa porzione di codice:
Codice:
def estrapola_sorgente(url):
    if 'http://' in url:
        sorgente = requests.get(url).text
        return(sorgente)
    else:
        return("L'url non è valido")
serve soltanto ad estrapolare il sorgente dal sito ma dentro URL non ci devo mettere l'indirizzo di wikipedia bensì nella lista_siti in basso vero??
Sasanta è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare Cineca inaugura Pitagora, il supercomputer Lenov...
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA Mova Z60 Ultra Roller Complete: pulisce bene gra...
Renault Twingo E-Tech Electric: che prezzo! Renault Twingo E-Tech Electric: che prezzo!
Il cuore digitale di F1 a Biggin Hill: l'infrastruttura Lenovo dietro la produzione media Il cuore digitale di F1 a Biggin Hill: l'infrast...
DJI Osmo Mobile 8: lo stabilizzatore per smartphone con tracking multiplo e asta telescopica DJI Osmo Mobile 8: lo stabilizzatore per smartph...
HONOR 500 Pro, scheda tecnica confermata...
GeForce NOW si prepara a vivere un mese ...
Exynos 2600: temperature più bass...
Apple si ispirerà a Nothing? Back...
Da Intel ad AMD, il grande salto di Kulk...
Velocità 12 volte superiore a que...
Una piccola Morte Nera è gi&agrav...
Sei frodi che minacciano gli utenti nel ...
BioShock 4: Take-Two rassicura sullo svi...
Tesla, Musk promette FSD 'quasi pronto' ...
BioWare conferma: il nuovo Mass Effect &...
5 robot aspirapolvere di fascia alta in ...
Xiaomi Redmi Note 14 5G a 179€ è ...
Veri affari con gli sconti de 15% Amazon...
Tutti gli iPhone 16 128GB a 699€, 16e a ...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 06:03.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v