Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare
Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare
Realizzato da Lenovo e installato presso il Cineca di Casalecchio di Reno, Pitagora offre circa 44 PFlop/s di potenza di calcolo ed è dedicato alla simulazione della fisica del plasma e allo studio dei materiali avanzati per la fusione, integrandosi nell’ecosistema del Tecnopolo di Bologna come infrastruttura strategica finanziata da EUROfusion e gestita in collaborazione con ENEA
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA
Rullo di lavaggio dei pavimenti abbinato a un potente motore da 28.000 Pa e a bracci esterni che si estendono: queste, e molte altre, le caratteristiche tecniche di Z60 Ultra Roller Complete, l'ultimo robot di Mova che pulisce secondo le nostre preferenze oppure lasciando far tutto alla ricca logica di intelligenza artificiale integrata
Renault Twingo E-Tech Electric: che prezzo!
Renault Twingo E-Tech Electric: che prezzo!
Renault annuncia la nuova vettura compatta del segmento A, che strizza l'occhio alla tradizione del modello abbinandovi una motorizzazione completamente elettrica e caratteristiche ideali per i tragitti urbani. Renault Twingo E-Tech Electric punta su abitabilità, per una lunghezza di meno di 3,8 metri, abbinata a un prezzo di lancio senza incentivi di 20.000€
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 09-12-2009, 21:56   #1
Sbungy
Junior Member
 
Iscritto dal: Jan 2008
Messaggi: 19
ESPRESSIONI REGOLARI: Estrazione dati complicata! La parola agli esperti..

Ragazzi ho un estrazione dati da codice HTML che mi sta facendo impazzire.. Devo estrarre dei dati da una tabella in una pagina html, ed ho creato una funzione apposita tramite le espressioni regolari, che fa il suo lavoro. Il fatto è che riesco ad estrarre gli argomenti in blocco, cioè tutto il blocco all'interno dei tag di tabella quando a me servirebbe estrarre i valori contenuti nei campi singolarmente. La tabella è molto carica di informazioni "spazzatura" e mi interessa isolare solo l'info effettivamente a me utile.

Mi spiego meglio direttamente tramite il codice:

QUESTA è LA TABELLA

Codice HTML:
<TABLE  CLASS="menuplaintable" summary="This layout table holds the menu items">
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_GenMnu"  class=submenulinktext2 onMouseover="window.status='Personal Information'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Personal Information'; return true" onBlur="window.status=''; return true" >Personal Information</A>
<BR>
<SPAN class=menulinkdesctext >View and update emergency contact information;  Review name or social security number change information.</SPAN>
</TD>
</TR>
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_StuMainMnu"  class=submenulinktext2 onMouseover="window.status='Student and Financial Aid'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Student and Financial Aid'; return true" onBlur="window.status=''; return true" >Student and Financial Aid</A>
<BR>

<SPAN class=menulinkdesctext >Register for classes; Display your class schedule; View your holds; Display grades/transcripts; Review financial aid requirements/awards; <b>Charges/Payments/Refunds - Please view your account through the online Account Center.  The link is located after you login to Braveweb but before you enter Banner Self Service.</b></SPAN>
</TD>
</TR>
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=pmenu.P_MainMnu"  class=submenulinktext2 onMouseover="window.status='Employee Information'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Employee Information'; return true" onBlur="window.status=''; return true" >Employee</A>
<BR>
<SPAN class=menulinkdesctext >Time sheets, time off, benefits, leave or job data, paystubs, W4 data.</SPAN>
</TD>
</TR>
</TABLE>
Questo è lo script php che ho realizzato:
Codice PHP:
<?php 
//salvo la tabella sotto stringa

$url "lapaginachecontienelatabella.html";
$page = @file_get_contents($url) or die('Could not access file: $url');

//estraggo in blocco la tabella che mi serve

$regexp "/\s<TABLE  CLASS=\"menuplaintable\" summary=\"This layout table holds the menu items\">(.*)<\/TABLE>/siU";
preg_match_all("$regexp"$page$matchesPREG_SET_ORDER);
foreach(
$matches as $match) {
//print_r($match);
$Result $match[0];
}
echo 
$Result;
?>
Quello che vorrei ottenere è raffinare la ricerca per isolare solamente i 3 links e i relativi 3 nomi con relativi 3 descrizioni. Magari inserendo i dati estratti in 3 array differenti per poi richiamarli quando li devo riutilizzare:

ARRAY UNO: arrayurl
conterrà i vari link nudi e crudi
$arrayurl [0] = "/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_GenMnu";

$arrayurl [1] = "/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_StuMainMnu";

$arrayurl[2] ="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=pmenu.P_MainMnu" ;

ARRAY DUE: arraytitoli
conterrà i nomi associati ai link
$arraytitoli [0] = "Personal Information";
$arraytitoli [1] = "Student and Financial Aid";
$arraytitoli [2] = "Employee";

ARRAY TRE: arraydescrizioni
conterrà le tre descrizioni delle pagine a cui puntano i link.
$arraydescrizioni [0] = "View and update emergency contact information; Review name or social security number change information."

$arraydescrizioni [1] = "Register for classes; Display your class schedule; View your holds; Display grades/transcripts; Review financial aid requirements/awards; <b>Charges/Payments/Refunds - Please view your account through the online Account Center. The link is located after you login to Braveweb but before you enter Banner Self Service.";

$arraydescrizioni [2] = "Time sheets, time off, benefits, leave or job data, paystubs, W4 data.";

Come fareste per isolare questi valori singolarmente cosi come li ho proposti in quel caos di tag e codice html mal scritto che è in quella tabella?

Sbungy è offline   Rispondi citando il messaggio o parte di esso
Old 10-12-2009, 10:46   #2
flx2000
Bannato
 
L'Avatar di flx2000
 
Iscritto dal: Nov 2002
Città: Roma
Messaggi: 810
Innanzitutto, se fai sovrascrivere $Result ad ogni ciclo alla fine vedrai solo l'ultimo risultato, quindi già quello è sbagliato. Meglio dapprima inizializzare un array con "$Result = array()" e poi usare "$Result[] =" per aggiungere i valori della regex che fai ciclare nella while.

Per ricavare le url puoi usare:

$regexp = "|<TD CLASS=\"mpdefault\">\n<A HREF=\"([^\"]+)\"|";
preg_match_all($regexp,$page,$matches,PREG_SET_ORDER);
$Result = array();
foreach ( $matches as $match )
{
$Result[] = $match[1];
}

Puoi verificarne il funzionamento con:
print_r($Result);

Con lo stesso modo di concepire la regex puoi facilmente ricavare gli altri due valori.
flx2000 è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare Cineca inaugura Pitagora, il supercomputer Lenov...
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA Mova Z60 Ultra Roller Complete: pulisce bene gra...
Renault Twingo E-Tech Electric: che prezzo! Renault Twingo E-Tech Electric: che prezzo!
Il cuore digitale di F1 a Biggin Hill: l'infrastruttura Lenovo dietro la produzione media Il cuore digitale di F1 a Biggin Hill: l'infrast...
DJI Osmo Mobile 8: lo stabilizzatore per smartphone con tracking multiplo e asta telescopica DJI Osmo Mobile 8: lo stabilizzatore per smartph...
Apple si ispirerà a Nothing? Back...
Da Intel ad AMD, il grande salto di Kulk...
Velocità 12 volte superiore a que...
Una piccola Morte Nera è gi&agrav...
Sei frodi che minacciano gli utenti nel ...
BioShock 4: Take-Two rassicura sullo svi...
Tesla, Musk promette FSD 'quasi pronto' ...
BioWare conferma: il nuovo Mass Effect &...
5 robot aspirapolvere di fascia alta in ...
Xiaomi Redmi Note 14 5G a 179€ è ...
Veri affari con gli sconti de 15% Amazon...
Tutti gli iPhone 16 128GB a 699€, 16e a ...
Take-Two ammette: vendite di Borderlands...
Tutti i Macbook Air e Pro con chip M4 ch...
GeForce RTX 50 SUPER: non cancellate, ma...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 16:40.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v