Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Lenovo Legion Go 2: Ryzen Z2 Extreme e OLED 8,8'' per spingere gli handheld gaming PC al massimo
Lenovo Legion Go 2: Ryzen Z2 Extreme e OLED 8,8'' per spingere gli handheld gaming PC al massimo
Lenovo Legion Go 2 è la nuova handheld PC gaming con processore AMD Ryzen Z2 Extreme (8 core Zen 5/5c, GPU RDNA 3.5 16 CU) e schermo OLED 8,8" 1920x1200 144Hz. È dotata anche di controller rimovibili TrueStrike con joystick Hall effect e una batteria da 74Wh. Rispetto al dispositivo che l'ha preceduta, migliora ergonomia e prestazioni a basse risoluzioni, ma pesa 920g e costa 1.299€ nella configurazione con 32GB RAM/1TB SSD e Z2 Extreme
AWS re:Invent 2025: inizia l'era dell'AI-as-a-Service con al centro gli agenti
AWS re:Invent 2025: inizia l'era dell'AI-as-a-Service con al centro gli agenti
A re:Invent 2025, AWS mostra un’evoluzione profonda della propria strategia: l’IA diventa una piattaforma di servizi sempre più pronta all’uso, con agenti e modelli preconfigurati che accelerano lo sviluppo, mentre il cloud resta la base imprescindibile per governare dati, complessità e lock-in in uno scenario sempre più orientato all’hybrid cloud
Cos'è la bolla dell'IA e perché se ne parla
Cos'è la bolla dell'IA e perché se ne parla
Si parla molto ultimamente di "bolla dell'intelligenza artificiale", ma non è sempre chiaro perché: l'IA è una tecnologia molto promettente e che ha già cambiato molte cose dentro e fuori le aziende, ma ci sono enormi aspettative che stanno gonfiando a dismisura i valori delle azioni e distorcendo il mercato. Il che, com'è facile intuire, può portare a una ripetizione della "bolla dotcom", e forse anche di quella dei mutui subprime. Vediamo perché
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 29-09-2008, 12:50   #1
mfonz85
Member
 
L'Avatar di mfonz85
 
Iscritto dal: Sep 2005
Città: Bus PCI 1, periferica 0, funzione 0 (Torino)
Messaggi: 213
[Regex] Estrarre codice HTML all'interno di tag

Ciao a tutti,
sto creando un programma in C# che deve estrarre dati da pagine html in questo formato:

Codice:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head>
</head>
<body>

<div id="title">
   <!-- DATI -->
</div>

<div id="artist">
   <!-- DATI -->
</div>

<div id="lyrics">
   <!-- DATI -->
</div>

<div id="admin">
   <!-- ROBA INUTILE -->
</div>

<div id="header">
   <!-- ROBA INUTILE -->
</div>

</body>
</html>
Ok, mi servirebbero le regular expression per estrarre i dati contenuti dentro i div "title", "artist" e "lyrics" ...
Inoltre, qualcuno mi consiglia qualche testo semplice ed immediato per capire queste maledettissime regular expression, magari solo tramite esempi? Nella maggior parte dei casi con Google vengono fuori solo siti dove non si capisce (o meglio, dove non ci capisco) quasi nulla...

Grazie anticipatamente!
__________________
Ho concluso affari con: Ippo 2001, Klintf, albert78, Piripikkio, starsky, oldfield e IL0V€INT€R. da EVITARE zarovat
mfonz85 è offline   Rispondi citando il messaggio o parte di esso
Old 29-09-2008, 18:35   #2
wingman87
Senior Member
 
Iscritto dal: Nov 2005
Messaggi: 2782
Questo è un tutorial java sulle regex, ma il succo è lo stesso per tutti i linguaggi: LINK

Per la regex che ti serve in particolare, prova questa, non sono sicuro che funzioni perché non sono molto pratico di queste cose:
Codice:
<div id=""(title|artist|lyrics)"">(?<testoUtile>[\w\W]*?)</div>
wingman87 è offline   Rispondi citando il messaggio o parte di esso
Old 29-09-2008, 19:37   #3
Vincenzo1968
Bannato
 
Iscritto dal: Mar 2008
Città: Villabate(PA)
Messaggi: 2515
Con le regex è difficile gestire la cosa considerando che un tag potrebbe, per esempio, essere scritto anche su più righe.
Io utilizzerei un bell'automa a stati finiti:

File Prova.html :
Codice:
<html>
<head>
</head>
<body>

<div id="title">
   <!-- DATI -->
</div>

<div id="artist">
   <!-- DATI -->
   dati dell'artista
</div>

<div id="lyrics">
   <!-- DATI -->
</div>

<div id="admin">
   <!-- ROBA INUTILE -->
</div>

<div id="header">
   <!-- ROBA INUTILE -->
</div>

</body>
</html>



Codice:
using System;
using System.Text;
using System.IO;
using System.Windows.Forms;

namespace HtmlAutomaton
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }

        private void buttonFile_Click(object sender, EventArgs e)
        {
            OpenFileDialog dlg = new OpenFileDialog();
            if (dlg.ShowDialog() == DialogResult.OK)
            {
                textBoxFile.Text = dlg.FileName;
            }
        }

        private void buttonSearch_Click(object sender, EventArgs e)
        {
            string strFile = textBoxFile.Text.Trim();
            string strDivID = textBoxID.Text.Trim();

            textBoxContenuto.Text = "";

            if (strFile.Length <= 0)
            {
                MessageBox.Show("Specificare il nome di un file, prego.");
                buttonFile.Focus();
                return;
            }

            if (strDivID.Length <= 0)
            {
                MessageBox.Show("Specificare l'ID della sezione DIV, prego.");
                textBoxID.Focus();
                return;
            }

            Automaton a = new Automaton(strFile);
            textBoxContenuto.Text = a.ReadDivContent(strDivID);
        }
    }

    public class Automaton
    {
        private string buffer = "";
        private enum Stati {S_ERROR = -1, S0, S1, S2, S3, S4, S5, S6, S7, S8, S9}

        public Automaton(string strFileName)
        {
            if (File.Exists(strFileName))
            {
                buffer = File.ReadAllText(strFileName);
            }
            else
            {
                buffer = "";
            }
        }

        public string ReadDivContent(string divID)
        {
            Stati stato = Stati.S0;
            string strContent = "Ciao Ciao";

            StringBuilder sbContent = new StringBuilder();
            StringBuilder sbTemp = new StringBuilder();

            int k = 0;

            while (k < buffer.Length)
            {
                switch (stato)
                {
                    case Stati.S0:
                        if (buffer[k] == '<')
                            stato = Stati.S1;
                        break;

                    case Stati.S1:
                        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
                        {
                            stato = Stati.S1;
                        }
                        else if (buffer[k] == 'd' || buffer[k] == 'D')
                        {
                            stato = Stati.S0;
                            if (k < buffer.Length - 2)
                            {
                                if (buffer[k + 1] == 'i' || buffer[k + 1] == 'I')
                                {
                                    if (buffer[k + 2] == 'v' || buffer[k + 2] == 'V')
                                    {
                                        k += 2;
                                        stato = Stati.S2;
                                    }
                                }
                            }
                        }
                        else
                        {
                            stato = Stati.S0;
                        }
                        break;

                    case Stati.S2:
                        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
                        {
                            stato = Stati.S3;
                        }
                        else
                        {
                            stato = Stati.S0;
                        }
                        break;

                    case Stati.S3:
                        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
                        {
                            stato = Stati.S3;
                        }
                        else if (buffer[k] == 'i' || buffer[k] == 'I')
                        {
                            stato = Stati.S0;
                            if (k < buffer.Length - 1)
                            {
                                if (buffer[k + 1] == 'd' || buffer[k + 1] == 'D')
                                {
                                    k++;
                                    stato = Stati.S4;
                                }
                            }
                        }
                        break;

                    case Stati.S4:
                        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
                        {
                            stato = Stati.S4;
                        }
                        else if (buffer[k] == '=')
                        {
                            stato = Stati.S5;
                        }
                        break; 
                       
                    case Stati.S5:
                        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
                        {
                            stato = Stati.S4;
                        }
                        else if (buffer[k] == '"')
                        {
                            k++;
                            while (k < buffer.Length && buffer[k] != '"')
                            {
                                sbTemp.Append(buffer[k]);
                                k++;
                            }

                            if (sbTemp.ToString() == divID)
                                stato = Stati.S6;
                            else
                                stato = Stati.S0;

                            sbTemp.Remove(0, sbTemp.ToString().Length);
                        }
                        break;

                    case Stati.S6:
                        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
                        {
                            stato = Stati.S6;
                        }
                        else if (buffer[k] == '>')
                        {
                            stato = Stati.S7;
                        }
                        break;

                    case Stati.S7:
                        while (k < buffer.Length)
                        {
                            if (buffer[k] != '<')
                            {
                                sbContent.Append(buffer[k]);
                            }
                            else
                            {
                                stato = Stati.S8;
                                break;
                            }
                            k++;
                        }
                        break;

                    case Stati.S8:
                        if (buffer[k] == '/')
                        {
                            k++;
                            while (k < buffer.Length && (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n'))
                            {
                                k++;
                            }
                            if (k < buffer.Length - 3)
                            {
                                if (buffer[k] == 'd' || buffer[k] == 'D')
                                {
                                    if (buffer[k + 1] == 'i' || buffer[k + 1] == 'I')
                                    {
                                        if (buffer[k + 2] == 'v' || buffer[k + 2] == 'V')
                                        {
                                            k += 2;
                                            stato = Stati.S9;
                                        }
                                    }
                                }
                            }
                        }
                        else
                        {
                            sbContent.Append('<');
                            sbContent.Append(buffer[k]);
                            stato = Stati.S7;
                        }
                        break;

                    case Stati.S9:
                        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
                        {
                            stato = Stati.S9;
                        }
                        else if (buffer[k] == '>')
                        {
                            strContent = sbContent.ToString();
                        }
                        break;
                }

                k++;
            }

            return strContent;
        }
    }
}
Un bel sito sulle regex, con tanti esempi:

http://www.regular-expressions.info/

Ultima modifica di Vincenzo1968 : 29-09-2008 alle 20:23.
Vincenzo1968 è offline   Rispondi citando il messaggio o parte di esso
Old 30-09-2008, 16:38   #4
Vincenzo1968
Bannato
 
Iscritto dal: Mar 2008
Città: Villabate(PA)
Messaggi: 2515
C'è un piccolo errore nel codice che ho postato.

Codice errato:
Codice:
...
    case Stati.S5:
        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
        {
            stato = Stati.S4; // Qui l'errore: S4 va sostituito con S5
        }
...
Codice corretto:
Codice:
...
    case Stati.S5:
        if (buffer[k] == ' ' || buffer[k] == '\t' || buffer[k] == '\r' || buffer[k] == '\n')
        {
            stato = Stati.S5;                      
        }
...
Vincenzo1968 è offline   Rispondi citando il messaggio o parte di esso
Old 06-10-2008, 19:49   #5
SnakePlissken
Member
 
L'Avatar di SnakePlissken
 
Iscritto dal: Aug 2004
Messaggi: 39
Quote:
Con le regex è difficile gestire la cosa considerando che un tag potrebbe, per esempio, essere scritto anche su più righe.
Io utilizzerei un bell'automa a stati finiti:
Senza complicarsi inutilmente la vita con altre cose, in C# esce semplicemente così:
(devi usare System.Text.RegularExpressions)

Codice:
public static string LeggiDati(string id)
{
    Match m = Regex.Match(input, "<div\\s+id=\"" + id + "\"[^>]*>(?<dati>((?!</div>)(.|\\n))*)</div>");
    return (m.Success ? m.Result("${dati}") : null);
}
Ti spiego brevemente la regex:

Codice:
<div                   riconosce esattamente la stringa "<div"
\\s+                   riconosce uno o più spazi (anche gli "a capo" sono spazi)
"id=\"" + id + "\""    corrisponde a id="title" o id="artist", ...
[^>]*                  riconosce zero o più caratteri diversi da '>'
>                      riconosce il carattere '>'
(?<dati>...)           "cattura" il suo contenuto (i puntini ...) denominandolo "dati"

per quanto riguarda: ((?!</div>)(.|\\n))*
(.|\\n)                riconosce un carattere che può essere:
                         - un carattere qualsiasi tranne l'"a capo"
                         - l'"a capo"
                       cioè riconosce un carattere qualsiasi.
(.|\\n)*               riconosce zero p più caratteri qualsiasi
((?!</div>)(.|\\n))*   impone il vincolo "(?!</div>)" che per ciascun
                       carattere riconosciuto, esso sia tale che la parte di stringa
                       che da esso inizia non coincida con "</div>"

</div>                 riconosce esattamente la stringa "</div>"

Infine, siccome ti cattura anche degli spazi iniziali e finali, usa la string.Trim() per cancellarli (questo poteva essere fatto anche a livello di Regex ma poi rischiava di risultare un tantino oscuro il pattern).


Per inciso, puoi sempre usare le Regex per eliminare gli spazi multipli o sostituire gli \n e \r con semplici spazi (cosa che in genere va fatta nella traduzione Html --> stringa):

Codice:
nuovaStringa = Regex.Replace(vecchiaStringa, "((\\s{2,})|\\n|\\r)", " ");
E similmente con Regex puoi sostituire i tag <br> con \n.


Spero di esserti stato utile!
Ciao!
__________________
Quello che davvero mi interessa è se Dio, quando creò il mondo, aveva scelta.
SnakePlissken è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Lenovo Legion Go 2: Ryzen Z2 Extreme e OLED 8,8'' per spingere gli handheld gaming PC al massimo Lenovo Legion Go 2: Ryzen Z2 Extreme e OLED 8,8'...
AWS re:Invent 2025: inizia l'era dell'AI-as-a-Service con al centro gli agenti AWS re:Invent 2025: inizia l'era dell'AI-as-a-Se...
Cos'è la bolla dell'IA e perché se ne parla Cos'è la bolla dell'IA e perché se...
BOOX Palma 2 Pro in prova: l'e-reader diventa a colori, e davvero tascabile BOOX Palma 2 Pro in prova: l'e-reader diventa a ...
FRITZ!Repeater 1700 estende la rete super-veloce Wi-Fi 7 FRITZ!Repeater 1700 estende la rete super-veloce...
Il Ryzen 7 9850X3D appare nel catalogo d...
Weekend pre natalizio Amazon, ecco tutte...
Prezzi giù su Oral-B iO: spazzolini elet...
19.000 Pa a un prezzo senza precedenti: ...
Narwal in super offerta su Amazon: robot...
SK hynix e NVIDIA lavorano a un SSD spec...
Roborock in super offerta su Amazon: pre...
Dreame abbassa i prezzi su Amazon: robot...
ECOVACS Deebot torna protagonista su Ama...
Il primo iPhone pieghevole potrebbe esse...
Apple 'apre' iOS alle terze parti anche ...
Cloud sovrano: l'approccio di Broadcom c...
HONOR conferma l'arrivo in Italia di Mag...
La Cina sotto pressione impone maniglie ...
OpenAI integra le app in ChatGPT per tra...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 11:17.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v