Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Boox Go 10.3 (Gen II) Lumi: il tablet e-ink con Android 15 e penna, dal prezzo super
Boox Go 10.3 (Gen II) Lumi: il tablet e-ink con Android 15 e penna, dal prezzo super
Arrivato sul mercato italiano a fine marzo, la serie Boox Go 10.3 (Gen II) offre Android 15, penna da 4096 livelli e retroilluminazione opzionale (nel modello da noi provato, Lumi, presente). La serie si compone di due tablet ePaper che fanno da e-reader, blocco note digitale e persino browser, tutto a un prezzo che fa dimenticare i prodotti di brand più blasonati
Gigabyte MO32U24 OLED: il 4K a 240Hz su un pannello OLED ideale per il gaming
Gigabyte MO32U24 OLED: il 4K a 240Hz su un pannello OLED ideale per il gaming
Pannello QD-OLED da 32 pollici con risoluzione 4K, frequenza di aggiornamento a 240Hz e tempi di risposta rapidissimi: il Gigabyte MO32U24 evolve il progetto del suo predecessore MO32U e alza ulteriormente l'asticella delle prestazioni. È ancora una volta un monitor indirizzato ai giocatori più esigenti
Recensione realme 16 5G: lo smartphone con Selfie Mirror ha una batteria da 6550mAh
Recensione realme 16 5G: lo smartphone con Selfie Mirror ha una batteria da 6550mAh
realme 16 5G è un nuovo smartphone con sensore Sony IMX 852 da 50MP sul retro e uno specchio selfie fisico integrato nella camera bar, una prima nel segmento di mercato. Batteria da 6550mAh in un corpo da 8,1mm e 183g, certificazione IP69K e ricarica da 45W completano un pacchetto aggressivo per la fascia media, per uno dei prodotti più interessanti del produttore sul piano commerciale
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 22-08-2019, 08:07   #1
$te
Senior Member
 
L'Avatar di $te
 
Iscritto dal: Aug 2006
Messaggi: 1262
[Python] Script per scaricare solo testo di un sito

Buongiorno,

pensavo di aver vita facile su internet: ho cercato e ricercato ma non trovo nulla che mi aiuta.

Avrei bisogno qualcosa di "semplice": uno script (pensavo in python, ma sono aperto ad altri linguaggi) per "scaricare" il testo di un sito web.

Quindi, a partire da una lista di siti web (anche 100 o più), per ogni sito devo avere (il top sarebbe su excel) tutto il testo contenuto nelle varie pagine (quindi non solo nella home).

Dopo, sarò io, penso in excel, a fare le mie analisi su questo testo.

Ho visto vari esempi con scrapy (Python), ma non riesco a fare quello che vorrei.

Avete dei consigli?

Grazie!
$te è offline   Rispondi citando il messaggio o parte di esso
Old 22-08-2019, 09:08   #2
Kaya
Senior Member
 
Iscritto dal: Apr 2005
Messaggi: 3301
non ho tempo per approfondire ma io farei uso di curl e poi un parser poi del file scaricato

quindi in step
prepari una lista di siti web
for line in lista
curl $line output $nomesito
parserizza il file di output per trovare i tag <a href>
ripeti quanto sopra per una seconda volta (altirmenti rischi di andare all'infinto)
end
tutti i file che hai in output poi li butti in un csv (anche se non capisco il senso)
Kaya è offline   Rispondi citando il messaggio o parte di esso
Old 22-08-2019, 11:28   #3
$te
Senior Member
 
L'Avatar di $te
 
Iscritto dal: Aug 2006
Messaggi: 1262
Quote:
Originariamente inviato da Kaya Guarda i messaggi
non ho tempo per approfondire ma io farei uso di curl e poi un parser poi del file scaricato

quindi in step
prepari una lista di siti web
for line in lista
curl $line output $nomesito
parserizza il file di output per trovare i tag <a href>
ripeti quanto sopra per una seconda volta (altirmenti rischi di andare all'infinto)
end
tutti i file che hai in output poi li butti in un csv (anche se non capisco il senso)
Grazie per la risposta!

Non ho mai usato curl..

Quello che adesso sono riuscito a fare, usando scrapy, è semplicemente scaricare il body di un sito web:

import scrapy

class HeadphonesSpider(scrapy.Spider):

Codice HTML:
    name = "prova"

    def start_requests(self):
        urls = [
        'https://sito.it',
       
        ]

        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        body_urls = response.css('body').extract()
        with open('urls.txt', 'w') as f:
            for u in body_urls:
                f.write(u + "\n-------\n")

Tuttavia, in questo caso mi piacerebbe almeno riuscire a togliere tutti i vari tag..per pulire un po il testo salvato
$te è offline   Rispondi citando il messaggio o parte di esso
Old 22-08-2019, 12:16   #4
$te
Senior Member
 
L'Avatar di $te
 
Iscritto dal: Aug 2006
Messaggi: 1262
Quote:
Originariamente inviato da Kaya Guarda i messaggi
non ho tempo per approfondire ma io farei uso di curl e poi un parser poi del file scaricato

quindi in step
prepari una lista di siti web
for line in lista
curl $line output $nomesito
parserizza il file di output per trovare i tag <a href>
ripeti quanto sopra per una seconda volta (altirmenti rischi di andare all'infinto)
end
tutti i file che hai in output poi li butti in un csv (anche se non capisco il senso)
Il mio obbiettivo finale è quello di avere un excell in cui nella prima colonna c'è il sito web in questione e nella colonna seguente tutto il testo, e questo per più siti.
Spero di essermi spiegato bene.

Grazie
$te è offline   Rispondi citando il messaggio o parte di esso
Old 22-08-2019, 14:29   #5
Kaya
Senior Member
 
Iscritto dal: Apr 2005
Messaggi: 3301
Quote:
Originariamente inviato da $te Guarda i messaggi
Grazie per la risposta!

Non ho mai usato curl..

Quello che adesso sono riuscito a fare, usando scrapy, è semplicemente scaricare il body di un sito web:

import scrapy

class HeadphonesSpider(scrapy.Spider):

Codice HTML:
    name = "prova"

    def start_requests(self):
        urls = [
        'https://sito.it',
       
        ]

        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        body_urls = response.css('body').extract()
        with open('urls.txt', 'w') as f:
            for u in body_urls:
                f.write(u + "\n-------\n")

Tuttavia, in questo caso mi piacerebbe almeno riuscire a togliere tutti i vari tag..per pulire un po il testo salvato
Il problema di fondo in cui ti trovereai, è quello per cui all'interno di una pagina web ormai il testo "puro" è veramente minimale e il resto è tanta "porcheria" per i tuoi fini (tag div, script javascript, ecc ecc).

Comunque credo che qua trovi la risposta: https://stackoverflow.com/questions/...t-text-extract
Kaya è offline   Rispondi citando il messaggio o parte di esso
Old 23-08-2019, 09:03   #6
$te
Senior Member
 
L'Avatar di $te
 
Iscritto dal: Aug 2006
Messaggi: 1262
Quote:
Originariamente inviato da Kaya Guarda i messaggi
Il problema di fondo in cui ti trovereai, è quello per cui all'interno di una pagina web ormai il testo "puro" è veramente minimale e il resto è tanta "porcheria" per i tuoi fini (tag div, script javascript, ecc ecc).

Comunque credo che qua trovi la risposta: https://stackoverflow.com/questions/...t-text-extract
Grande!!! Adesso ci sono quasi:

Codice HTML:
import scrapy
from bs4 import BeautifulSoup

class HeadphonesSpider(scrapy.Spider):

    name = "prova"

    def start_requests(self):
        urls = [
        'https://sito1.it',
        'https://sito2.it'
        ]

        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        body_urls = response.css('body').extract()     
        new_body = str(body_urls)
        soup = BeautifulSoup(new_body, 'html.parser')
        just_text = soup.get_text()
        just_text= just_text.replace('\\n',' ')
        
        with open('urls.csv', 'w') as f:
            for u in body_urls:
                f.write(just_text + "\nBLABLA")
f.close()
Adesso ho solo due problemini:
1 - nel file csv, non viene scritto tutto solo in una cella..ma in 3-4 tipo..e non capisco come mai
2 - nell'esempio ho messo due siti internet, ma alla fine mi controlla solo nel primo sito

Pero, ho fatto passi da giganti, grazie!!
$te è offline   Rispondi citando il messaggio o parte di esso
Old 23-08-2019, 10:07   #7
Kaya
Senior Member
 
Iscritto dal: Apr 2005
Messaggi: 3301
Per il primo punto faccio una ipotesi:
nel testo che prendi sono presenti , e ; .
Soluzione: fai una sostituzione nel testo dei doppia apici (") con un escape (\") e poi metti tutto il testo che ottieni tra doppi apici. In questo modo quanto importi lo considera un unico campo

Per il secondo punto non sono in grado di aiutarti
Kaya è offline   Rispondi citando il messaggio o parte di esso
Old 11-09-2019, 16:46   #8
$te
Senior Member
 
L'Avatar di $te
 
Iscritto dal: Aug 2006
Messaggi: 1262
Quote:
Originariamente inviato da Kaya Guarda i messaggi
Per il primo punto faccio una ipotesi:
nel testo che prendi sono presenti , e ; .
Soluzione: fai una sostituzione nel testo dei doppia apici (") con un escape (\") e poi metti tutto il testo che ottieni tra doppi apici. In questo modo quanto importi lo considera un unico campo

Per il secondo punto non sono in grado di aiutarti
alla fine, ho già una buona parte di quello che volevo, grazie mille!
Riesco quindi ad andare in una pagina, prendere il testo e togliere i vari tag!

Ora, sto cercando come fare per ottenere tutte le pagine di un sito web, per poi avviare lo script. Purtroppo, vedo che non tutti posseggono un sitemap (o magari sbaglio?) che renderebbe il lavoro molto piu facile...
$te è offline   Rispondi citando il messaggio o parte di esso
Old 31-10-2019, 10:33   #9
$te
Senior Member
 
L'Avatar di $te
 
Iscritto dal: Aug 2006
Messaggi: 1262
Quote:
Originariamente inviato da $te Guarda i messaggi
alla fine, ho già una buona parte di quello che volevo, grazie mille!
Riesco quindi ad andare in una pagina, prendere il testo e togliere i vari tag!

Ora, sto cercando come fare per ottenere tutte le pagine di un sito web, per poi avviare lo script. Purtroppo, vedo che non tutti posseggono un sitemap (o magari sbaglio?) che renderebbe il lavoro molto piu facile...
Ho scoperto che basta aggiungere un follow=True per ottenere tutte le pagine di un sito web, perfetto!!
$te è offline   Rispondi citando il messaggio o parte di esso
Old 13-12-2019, 14:05   #10
$te
Senior Member
 
L'Avatar di $te
 
Iscritto dal: Aug 2006
Messaggi: 1262
Riscrivo..perché adesso avrei bisogno di analizzare le pagine di un sito, ma solo quelle in inglese (se esiste la versione in inglese).

Il problema è che se no mi ritrovo ad analizzare siti multilingua (con più di 5 lingue) e quindi di un contenuto identico ma in lingue differenti.

Sto utilizzando scrapy, nel setting.py si può settare la lingua di default dello spyder, ma questo significa solo che partirà dalle pagine in inglese, per poi continuare con le altre lingue.

Come posso fare?

Grazie
$te è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Boox Go 10.3 (Gen II) Lumi: il tablet e-ink con Android 15 e penna, dal prezzo super Boox Go 10.3 (Gen II) Lumi: il tablet e-ink con ...
Gigabyte MO32U24 OLED: il 4K a 240Hz su un pannello OLED ideale per il gaming Gigabyte MO32U24 OLED: il 4K a 240Hz su un panne...
Recensione realme 16 5G: lo smartphone con Selfie Mirror ha una batteria da 6550mAh Recensione realme 16 5G: lo smartphone con Selfi...
Come rispettare tutte le nuove regole per i monopattini elettrici? La guida per non rischiare sanzioni Come rispettare tutte le nuove regole per i mono...
DLSS 4.5: con Dynamic Frame Generation e MFG 6X NVIDIA alza la posta DLSS 4.5: con Dynamic Frame Generation e MFG 6X ...
Isar Aerospace rinvia ancora il lancio d...
La nomina di Luca Parmitano per la missi...
Controaccusa di Netgear a TP-Link: 'non ...
GoldenEye 007: dopo oltre 20 anni, &egra...
Snowflake arricchisce le funzionalit&agr...
American Express pronta ad acquisire The...
Batterie liquide senza metalli: scoperto...
FRITZ!, devolo, LANCOM e TDT danno vita ...
Quanto tempo passiamo online? In Italia ...
Fox Corporation si compra Roku per 22 mi...
AMD resuscita Zen+: due nuovi processori...
Debutto cinematografico per HONOR Robot ...
Copilot+ PC, ogni PC con una GPU dedicat...
Dreame taglia i prezzi: come orientarsi ...
L'Italia entra nell'era dei 2 nanometri!...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 22:26.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v