View Single Post
Old 22-08-2019, 14:29   #5
Kaya
Senior Member
 
Iscritto dal: Apr 2005
Messaggi: 3225
Quote:
Originariamente inviato da $te Guarda i messaggi
Grazie per la risposta!

Non ho mai usato curl..

Quello che adesso sono riuscito a fare, usando scrapy, è semplicemente scaricare il body di un sito web:

import scrapy

class HeadphonesSpider(scrapy.Spider):

Codice HTML:
    name = "prova"

    def start_requests(self):
        urls = [
        'https://sito.it',
       
        ]

        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        body_urls = response.css('body').extract()
        with open('urls.txt', 'w') as f:
            for u in body_urls:
                f.write(u + "\n-------\n")

Tuttavia, in questo caso mi piacerebbe almeno riuscire a togliere tutti i vari tag..per pulire un po il testo salvato
Il problema di fondo in cui ti trovereai, è quello per cui all'interno di una pagina web ormai il testo "puro" è veramente minimale e il resto è tanta "porcheria" per i tuoi fini (tag div, script javascript, ecc ecc).

Comunque credo che qua trovi la risposta: https://stackoverflow.com/questions/...t-text-extract
Kaya è offline   Rispondi citando il messaggio o parte di esso