Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Lenovo ThinkPad X1 2-in-1 G10 Aura Edition: il convertibile di classe
Lenovo ThinkPad X1 2-in-1 G10 Aura Edition: il convertibile di classe
La flessibilità di configurazione è il punto di forza di questo 2-in-1, che ripropone in un form factor alternativo tutta la tipica qualità dei prodotti Lenovo della famiglia ThinkPad. Qualità costruttiva ai vertici, ottima dotazione hardware ma costo che si presenta molto elevato.
Intervista a Stop Killing Games: distruggere videogiochi è come bruciare la musica di Mozart
Intervista a Stop Killing Games: distruggere videogiochi è come bruciare la musica di Mozart
Mentre Ubisoft vorrebbe chiedere agli utenti, all'occorrenza, di distruggere perfino le copie fisiche dei propri giochi, il movimento Stop Killing Games si sta battendo per preservare quella che l'Unione Europea ha già riconosciuto come una forma d'arte. Abbiamo avuto modo di parlare con Daniel Ondruska, portavoce dell'Iniziativa Europa volta a preservare la conservazione dei videogiochi
Samsung Galaxy S25 Edge: il top di gamma ultrasottile e leggerissimo. La recensione
Samsung Galaxy S25 Edge: il top di gamma ultrasottile e leggerissimo. La recensione
Abbiamo provato il nuovo Galaxy S25 Edge, uno smartphone unico per il suo spessore di soli 5,8 mm e un peso super piuma. Parliamo di un device che ha pro e contro, ma sicuramente si differenzia dalla massa per la sua portabilità, ma non senza qualche compromesso. Ecco la nostra prova completa.
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 09-12-2009, 20:56   #1
Sbungy
Junior Member
 
Iscritto dal: Jan 2008
Messaggi: 19
ESPRESSIONI REGOLARI: Estrazione dati complicata! La parola agli esperti..

Ragazzi ho un estrazione dati da codice HTML che mi sta facendo impazzire.. Devo estrarre dei dati da una tabella in una pagina html, ed ho creato una funzione apposita tramite le espressioni regolari, che fa il suo lavoro. Il fatto è che riesco ad estrarre gli argomenti in blocco, cioè tutto il blocco all'interno dei tag di tabella quando a me servirebbe estrarre i valori contenuti nei campi singolarmente. La tabella è molto carica di informazioni "spazzatura" e mi interessa isolare solo l'info effettivamente a me utile.

Mi spiego meglio direttamente tramite il codice:

QUESTA è LA TABELLA

Codice HTML:
<TABLE  CLASS="menuplaintable" summary="This layout table holds the menu items">
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_GenMnu"  class=submenulinktext2 onMouseover="window.status='Personal Information'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Personal Information'; return true" onBlur="window.status=''; return true" >Personal Information</A>
<BR>
<SPAN class=menulinkdesctext >View and update emergency contact information;  Review name or social security number change information.</SPAN>
</TD>
</TR>
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_StuMainMnu"  class=submenulinktext2 onMouseover="window.status='Student and Financial Aid'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Student and Financial Aid'; return true" onBlur="window.status=''; return true" >Student and Financial Aid</A>
<BR>

<SPAN class=menulinkdesctext >Register for classes; Display your class schedule; View your holds; Display grades/transcripts; Review financial aid requirements/awards; <b>Charges/Payments/Refunds - Please view your account through the online Account Center.  The link is located after you login to Braveweb but before you enter Banner Self Service.</b></SPAN>
</TD>
</TR>
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=pmenu.P_MainMnu"  class=submenulinktext2 onMouseover="window.status='Employee Information'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Employee Information'; return true" onBlur="window.status=''; return true" >Employee</A>
<BR>
<SPAN class=menulinkdesctext >Time sheets, time off, benefits, leave or job data, paystubs, W4 data.</SPAN>
</TD>
</TR>
</TABLE>
Questo è lo script php che ho realizzato:
Codice PHP:
<?php 
//salvo la tabella sotto stringa

$url "lapaginachecontienelatabella.html";
$page = @file_get_contents($url) or die('Could not access file: $url');

//estraggo in blocco la tabella che mi serve

$regexp "/\s<TABLE  CLASS=\"menuplaintable\" summary=\"This layout table holds the menu items\">(.*)<\/TABLE>/siU";
preg_match_all("$regexp"$page$matchesPREG_SET_ORDER);
foreach(
$matches as $match) {
//print_r($match);
$Result $match[0];
}
echo 
$Result;
?>
Quello che vorrei ottenere è raffinare la ricerca per isolare solamente i 3 links e i relativi 3 nomi con relativi 3 descrizioni. Magari inserendo i dati estratti in 3 array differenti per poi richiamarli quando li devo riutilizzare:

ARRAY UNO: arrayurl
conterrà i vari link nudi e crudi
$arrayurl [0] = "/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_GenMnu";

$arrayurl [1] = "/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_StuMainMnu";

$arrayurl[2] ="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=pmenu.P_MainMnu" ;

ARRAY DUE: arraytitoli
conterrà i nomi associati ai link
$arraytitoli [0] = "Personal Information";
$arraytitoli [1] = "Student and Financial Aid";
$arraytitoli [2] = "Employee";

ARRAY TRE: arraydescrizioni
conterrà le tre descrizioni delle pagine a cui puntano i link.
$arraydescrizioni [0] = "View and update emergency contact information; Review name or social security number change information."

$arraydescrizioni [1] = "Register for classes; Display your class schedule; View your holds; Display grades/transcripts; Review financial aid requirements/awards; <b>Charges/Payments/Refunds - Please view your account through the online Account Center. The link is located after you login to Braveweb but before you enter Banner Self Service.";

$arraydescrizioni [2] = "Time sheets, time off, benefits, leave or job data, paystubs, W4 data.";

Come fareste per isolare questi valori singolarmente cosi come li ho proposti in quel caos di tag e codice html mal scritto che è in quella tabella?

Sbungy è offline   Rispondi citando il messaggio o parte di esso
Old 10-12-2009, 09:46   #2
flx2000
Bannato
 
L'Avatar di flx2000
 
Iscritto dal: Nov 2002
Città: Roma
Messaggi: 810
Innanzitutto, se fai sovrascrivere $Result ad ogni ciclo alla fine vedrai solo l'ultimo risultato, quindi già quello è sbagliato. Meglio dapprima inizializzare un array con "$Result = array()" e poi usare "$Result[] =" per aggiungere i valori della regex che fai ciclare nella while.

Per ricavare le url puoi usare:

$regexp = "|<TD CLASS=\"mpdefault\">\n<A HREF=\"([^\"]+)\"|";
preg_match_all($regexp,$page,$matches,PREG_SET_ORDER);
$Result = array();
foreach ( $matches as $match )
{
$Result[] = $match[1];
}

Puoi verificarne il funzionamento con:
print_r($Result);

Con lo stesso modo di concepire la regex puoi facilmente ricavare gli altri due valori.
flx2000 è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Lenovo ThinkPad X1 2-in-1 G10 Aura Edition: il convertibile di classe Lenovo ThinkPad X1 2-in-1 G10 Aura Edition: il c...
Intervista a Stop Killing Games: distruggere videogiochi è come bruciare la musica di Mozart Intervista a Stop Killing Games: distruggere vid...
Samsung Galaxy S25 Edge: il top di gamma ultrasottile e leggerissimo. La recensione Samsung Galaxy S25 Edge: il top di gamma ultraso...
HP Elitebook Ultra G1i 14 è il notebook compatto, potente e robusto HP Elitebook Ultra G1i 14 è il notebook c...
Microsoft Surface Pro 12 è il 2 in 1 più compatto e silenzioso Microsoft Surface Pro 12 è il 2 in 1 pi&u...
IA come persone: avranno una personalit&...
Scoppia la bufera NSFW: la mano di Colle...
Philips porta OneBlade su Fortnite: arri...
Il consumo dei data center AI esplode: r...
Dimenticate tutto quello che avete visto...
Prodotti illegali su Temu: l'UE avvia pr...
La Cina vuole una governance globale del...
Aperta la CALL4INNOVIT 2025: al centro r...
ECOVACS DEEBOT T50 OMNI è recente...
Torvalds rilascia Linux 6.16, le novit&a...
Top 7 Amazon Bestseller: GoPro MAX fa un...
Steam cambia volto: scopri la nuova orga...
Hai una AnkerMake? Potrebbe essere gi&ag...
Lanciato il razzo spaziale Vega-C VV27 c...
Facebook è la prima piattaforma p...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 15:20.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v