Hardware Upgrade Forum - View Single Post - [Python] Script per scaricare solo testo di un sito

$te · 22-08-2019, 12:28

Quote:

Originariamente inviato da Kaya

non ho tempo per approfondire ma io farei uso di curl e poi un parser poi del file scaricato

quindi in step
prepari una lista di siti web
for line in lista
curl $line output $nomesito
parserizza il file di output per trovare i tag <a href>
ripeti quanto sopra per una seconda volta (altirmenti rischi di andare all'infinto)
end
tutti i file che hai in output poi li butti in un csv (anche se non capisco il senso)

Grazie per la risposta!

Non ho mai usato curl..

Quello che adesso sono riuscito a fare, usando scrapy, è semplicemente scaricare il body di un sito web:

import scrapy

class HeadphonesSpider(scrapy.Spider):

Codice HTML:

    name = "prova"

    def start_requests(self):
        urls = [
        'https://sito.it',
       
        ]

        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        body_urls = response.css('body').extract()
        with open('urls.txt', 'w') as f:
            for u in body_urls:
                f.write(u + "\n-------\n")

Tuttavia, in questo caso mi piacerebbe almeno riuscire a togliere tutti i vari tag..per pulire un po il testo salvato