Torna indietro   Hardware Upgrade Forum > Software > Programmazione

ASUS ROG Kithara: quando HIFIMAN incontra il gaming con driver planari da 100mm
ASUS ROG Kithara: quando HIFIMAN incontra il gaming con driver planari da 100mm
ASUS e HIFIMAN uniscono le forze per creare ROG Kithara, cuffie gaming con driver magnetici planari da 100mm, design open-back e microfono MEMS full-band. Una proposta che ambisce a coniugare fedeltà per audiofili e performance ludiche, disponibili a 319 euro
Roborock Qrevo Curv 2 Flow: ora lava con un rullo
Roborock Qrevo Curv 2 Flow: ora lava con un rullo
Qrevo Curv 2 Flow è l'ultima novità di casa Roborock per la pulizia di casa: un robot completo, forte di un sistema di lavaggio dei pavimenti basato su rullo che si estende a seguire il profilo delle pareti abbinato ad un potente motore di aspirazione con doppia spazzola laterale
Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite
Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite
Abbiamo guidato per diversi giorni la Alpine A290, la prima elettrica del nuovo corso della marca. Non è solo una Renault 5 sotto steroidi, ha una sua identità e vuole farsi guidare
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 15-02-2008, 19:43   #1
spk
Senior Member
 
L'Avatar di spk
 
Iscritto dal: Jul 2002
Città: Hampstead, London
Messaggi: 2449
[Regular expression] selezionare tag html

problema apparentemente banale:

- ho una pagina web che non conosce il significato di "standard"
- devo estrarre tramite un programma java delle informazioni da queste pagine web, procedendo ad albero con determinati link selezionati dalla prima pagina

le soluzioni sono molteplici: parserHTML, dom, sax, parser manuale (in ordine di complessità)

tuttavia per i primi tre casi ho bisogno comunque di "ripulire" il il codice html della pagina dalla tonnellata di sporcizie, per poter passare il file al parser.
Basandomi sul concetto che tutto ciò che mi interessa da quella pagina è una sua versione gerarchicamente strutturata (senza necessariamente mantenere intatti tutti i tag html) ho iniziato a sostituire diverse stringhe con una versione "pulita" ed eliminando quelle "unpaired" (img e compagnia bella) tramite espressioni regolari.
Il procedimento di pulitura proseguiva liscio per ogni capriccio del creatore del DOM finchè mi sono ritrovato a combattere con l'eliminazione dei tag <script> ... </script>

problema 1: alcune righe del file usano il carriage return, altre il new line, altre il tab new line (nella sintassi regexp /r/n/t) il .(punto) non comprende questi caratteri
problema 2: mi ritrovo alcune parentesi acute all'interno dello script, non posso utilizzare [^<]* per terminare la selezione del tag, come ho fatto per gli altri

probabilmente ho fatto anche altri tentativi, ma penso di avervi detto tutto

PS: se avete anche dei consigli su come risolvere il problema in modo alternativo sono molto ben accetti
__________________
stabilmente instabile
spk è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


ASUS ROG Kithara: quando HIFIMAN incontra il gaming con driver planari da 100mm ASUS ROG Kithara: quando HIFIMAN incontra il gam...
Roborock Qrevo Curv 2 Flow: ora lava con un rullo Roborock Qrevo Curv 2 Flow: ora lava con un rull...
Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite Alpine A290 alla prova: un'auto bella che ti fa ...
Recensione HONOR Magic 8 Lite: lo smartphone indistruttibile e instancabile Recensione HONOR Magic 8 Lite: lo smartphone ind...
Sony WF-1000X M6: le cuffie in-ear di riferimento migliorano ancora Sony WF-1000X M6: le cuffie in-ear di riferiment...
TV Toshiba 4K a prezzi folli: il QLED 65...
Sony svela i requisiti PC di Death Stran...
Addio GPU? MatX promette un chip 10 volt...
Amazon taglia i prezzi dei dispositivi F...
Amazon, stop del Garante alla raccolta d...
LEGO Game Boy a 45,99€ su Amazon: la con...
Kit Logitech MK950 Signature Slim a 79,9...
Discord rinvia la verifica dell'et&agrav...
Blizzard annuncia Overwatch Rush, lo spi...
Windows 11, l'ultimo aggiornamento opzio...
Intel e SambaNova, nessuna acquisizione ...
Marvel's Wolverine: rivelata la data d'u...
Samsung contrasta la crisi delle memorie...
Stampante Wi-Fi a meno di 40€? HP DeskJe...
Google Pixel 10 base a 563€ è il ...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 11:01.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v