View Single Post
Old 23-08-2019, 09:03   #6
$te
Senior Member
 
L'Avatar di $te
 
Iscritto dal: Aug 2006
Messaggi: 1262
Quote:
Originariamente inviato da Kaya Guarda i messaggi
Il problema di fondo in cui ti trovereai, è quello per cui all'interno di una pagina web ormai il testo "puro" è veramente minimale e il resto è tanta "porcheria" per i tuoi fini (tag div, script javascript, ecc ecc).

Comunque credo che qua trovi la risposta: https://stackoverflow.com/questions/...t-text-extract
Grande!!! Adesso ci sono quasi:

Codice HTML:
import scrapy
from bs4 import BeautifulSoup

class HeadphonesSpider(scrapy.Spider):

    name = "prova"

    def start_requests(self):
        urls = [
        'https://sito1.it',
        'https://sito2.it'
        ]

        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        body_urls = response.css('body').extract()     
        new_body = str(body_urls)
        soup = BeautifulSoup(new_body, 'html.parser')
        just_text = soup.get_text()
        just_text= just_text.replace('\\n',' ')
        
        with open('urls.csv', 'w') as f:
            for u in body_urls:
                f.write(just_text + "\nBLABLA")
f.close()
Adesso ho solo due problemini:
1 - nel file csv, non viene scritto tutto solo in una cella..ma in 3-4 tipo..e non capisco come mai
2 - nell'esempio ho messo due siti internet, ma alla fine mi controlla solo nel primo sito

Pero, ho fatto passi da giganti, grazie!!
$te è offline   Rispondi citando il messaggio o parte di esso