Quote:
Originariamente inviato da $te
Grazie per la risposta!
Non ho mai usato curl..
Quello che adesso sono riuscito a fare, usando scrapy, è semplicemente scaricare il body di un sito web:
import scrapy
class HeadphonesSpider(scrapy.Spider):
Codice HTML:
name = "prova"
def start_requests(self):
urls = [
'https://sito.it',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
body_urls = response.css('body').extract()
with open('urls.txt', 'w') as f:
for u in body_urls:
f.write(u + "\n-------\n")
Tuttavia, in questo caso mi piacerebbe almeno riuscire a togliere tutti i vari tag..per pulire un po il testo salvato
|
Il problema di fondo in cui ti trovereai, è quello per cui all'interno di una pagina web ormai il testo "puro" è veramente minimale e il resto è tanta "porcheria" per i tuoi fini (tag div, script javascript, ecc ecc).
Comunque credo che qua trovi la risposta:
https://stackoverflow.com/questions/...t-text-extract