Quote:
Originariamente inviato da Kaya
non ho tempo per approfondire ma io farei uso di curl e poi un parser poi del file scaricato
quindi in step
prepari una lista di siti web
for line in lista
curl $line output $nomesito
parserizza il file di output per trovare i tag <a href>
ripeti quanto sopra per una seconda volta (altirmenti rischi di andare all'infinto)
end
tutti i file che hai in output poi li butti in un csv (anche se non capisco il senso)
|
Grazie per la risposta!
Non ho mai usato curl..
Quello che adesso sono riuscito a fare, usando scrapy, è semplicemente scaricare il body di un sito web:
import scrapy
class HeadphonesSpider(scrapy.Spider):
Codice HTML:
name = "prova"
def start_requests(self):
urls = [
'https://sito.it',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
body_urls = response.css('body').extract()
with open('urls.txt', 'w') as f:
for u in body_urls:
f.write(u + "\n-------\n")
Tuttavia, in questo caso mi piacerebbe almeno riuscire a togliere tutti i vari tag..per pulire un po il testo salvato