Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Deep Tech Revolution: così Area Science Park apre i laboratori alle startup
Deep Tech Revolution: così Area Science Park apre i laboratori alle startup
Siamo tornati nel parco tecnologico di Trieste per il kick-off del programma che mette a disposizione di cinque startup le infrastrutture di ricerca, dal sincrotrone Elettra ai laboratori di genomica e HPC. Roberto Pillon racconta il modello e la visione
HP OMEN MAX 16 con RTX 5080: potenza da desktop replacement a prezzo competitivo
HP OMEN MAX 16 con RTX 5080: potenza da desktop replacement a prezzo competitivo
HP OMEN MAX 16-ak0001nl combina RTX 5080 Laptop e Ryzen AI 9 HX 375 in un desktop replacement potente e ben raffreddato, con display 240 Hz e dotazione completa. Autonomia limitata e calibrazione non perfetta frenano l'entusiasmo, ma a 2.609 euro è tra le proposte più interessanti della categoria.
Recensione Google Pixel 10a, si migliora poco ma è sempre un'ottima scelta
Recensione Google Pixel 10a, si migliora poco ma è sempre un'ottima scelta
Google ha appena rinnovato la sua celebre serie A con il Pixel 10a, lo smartphone della serie più conveniente se consideriamo il rapporto tra costo e prestazioni. Con il chip Tensor G4, un design raffinato soprattutto sul retro e l'integrazione profonda di Gemini, il colosso di Mountain View promette un'esperienza premium a un prezzo accessibile. E il retro non ha nessuno scalino
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 09-12-2009, 21:56   #1
Sbungy
Junior Member
 
Iscritto dal: Jan 2008
Messaggi: 19
ESPRESSIONI REGOLARI: Estrazione dati complicata! La parola agli esperti..

Ragazzi ho un estrazione dati da codice HTML che mi sta facendo impazzire.. Devo estrarre dei dati da una tabella in una pagina html, ed ho creato una funzione apposita tramite le espressioni regolari, che fa il suo lavoro. Il fatto è che riesco ad estrarre gli argomenti in blocco, cioè tutto il blocco all'interno dei tag di tabella quando a me servirebbe estrarre i valori contenuti nei campi singolarmente. La tabella è molto carica di informazioni "spazzatura" e mi interessa isolare solo l'info effettivamente a me utile.

Mi spiego meglio direttamente tramite il codice:

QUESTA è LA TABELLA

Codice HTML:
<TABLE  CLASS="menuplaintable" summary="This layout table holds the menu items">
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_GenMnu"  class=submenulinktext2 onMouseover="window.status='Personal Information'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Personal Information'; return true" onBlur="window.status=''; return true" >Personal Information</A>
<BR>
<SPAN class=menulinkdesctext >View and update emergency contact information;  Review name or social security number change information.</SPAN>
</TD>
</TR>
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_StuMainMnu"  class=submenulinktext2 onMouseover="window.status='Student and Financial Aid'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Student and Financial Aid'; return true" onBlur="window.status=''; return true" >Student and Financial Aid</A>
<BR>

<SPAN class=menulinkdesctext >Register for classes; Display your class schedule; View your holds; Display grades/transcripts; Review financial aid requirements/awards; <b>Charges/Payments/Refunds - Please view your account through the online Account Center.  The link is located after you login to Braveweb but before you enter Banner Self Service.</b></SPAN>
</TD>
</TR>
<TR>
<TD CLASS="mpdefault">&nbsp;</TD>
<TD CLASS="mpdefault">
<A HREF="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=pmenu.P_MainMnu"  class=submenulinktext2 onMouseover="window.status='Employee Information'; return true" onMouseout="window.status=''; return true" onFocus="window.status='Employee Information'; return true" onBlur="window.status=''; return true" >Employee</A>
<BR>
<SPAN class=menulinkdesctext >Time sheets, time off, benefits, leave or job data, paystubs, W4 data.</SPAN>
</TD>
</TR>
</TABLE>
Questo è lo script php che ho realizzato:
Codice PHP:
<?php 
//salvo la tabella sotto stringa

$url "lapaginachecontienelatabella.html";
$page = @file_get_contents($url) or die('Could not access file: $url');

//estraggo in blocco la tabella che mi serve

$regexp "/\s<TABLE  CLASS=\"menuplaintable\" summary=\"This layout table holds the menu items\">(.*)<\/TABLE>/siU";
preg_match_all("$regexp"$page$matchesPREG_SET_ORDER);
foreach(
$matches as $match) {
//print_r($match);
$Result $match[0];
}
echo 
$Result;
?>
Quello che vorrei ottenere è raffinare la ricerca per isolare solamente i 3 links e i relativi 3 nomi con relativi 3 descrizioni. Magari inserendo i dati estratti in 3 array differenti per poi richiamarli quando li devo riutilizzare:

ARRAY UNO: arrayurl
conterrà i vari link nudi e crudi
$arrayurl [0] = "/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_GenMnu";

$arrayurl [1] = "/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=bmenu.P_StuMainMnu";

$arrayurl[2] ="/tsbss/pls/TEST/twbkwbis.P_GenMenu?name=pmenu.P_MainMnu" ;

ARRAY DUE: arraytitoli
conterrà i nomi associati ai link
$arraytitoli [0] = "Personal Information";
$arraytitoli [1] = "Student and Financial Aid";
$arraytitoli [2] = "Employee";

ARRAY TRE: arraydescrizioni
conterrà le tre descrizioni delle pagine a cui puntano i link.
$arraydescrizioni [0] = "View and update emergency contact information; Review name or social security number change information."

$arraydescrizioni [1] = "Register for classes; Display your class schedule; View your holds; Display grades/transcripts; Review financial aid requirements/awards; <b>Charges/Payments/Refunds - Please view your account through the online Account Center. The link is located after you login to Braveweb but before you enter Banner Self Service.";

$arraydescrizioni [2] = "Time sheets, time off, benefits, leave or job data, paystubs, W4 data.";

Come fareste per isolare questi valori singolarmente cosi come li ho proposti in quel caos di tag e codice html mal scritto che è in quella tabella?

Sbungy è offline   Rispondi citando il messaggio o parte di esso
Old 10-12-2009, 10:46   #2
flx2000
Bannato
 
L'Avatar di flx2000
 
Iscritto dal: Nov 2002
Città: Roma
Messaggi: 810
Innanzitutto, se fai sovrascrivere $Result ad ogni ciclo alla fine vedrai solo l'ultimo risultato, quindi già quello è sbagliato. Meglio dapprima inizializzare un array con "$Result = array()" e poi usare "$Result[] =" per aggiungere i valori della regex che fai ciclare nella while.

Per ricavare le url puoi usare:

$regexp = "|<TD CLASS=\"mpdefault\">\n<A HREF=\"([^\"]+)\"|";
preg_match_all($regexp,$page,$matches,PREG_SET_ORDER);
$Result = array();
foreach ( $matches as $match )
{
$Result[] = $match[1];
}

Puoi verificarne il funzionamento con:
print_r($Result);

Con lo stesso modo di concepire la regex puoi facilmente ricavare gli altri due valori.
flx2000 è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Deep Tech Revolution: così Area Science Park apre i laboratori alle startup Deep Tech Revolution: così Area Science P...
HP OMEN MAX 16 con RTX 5080: potenza da desktop replacement a prezzo competitivo HP OMEN MAX 16 con RTX 5080: potenza da desktop ...
Recensione Google Pixel 10a, si migliora poco ma è sempre un'ottima scelta Recensione Google Pixel 10a, si migliora poco ma...
6G, da rete che trasporta dati a rete intelligente: Qualcomm accelera al MWC 2026 6G, da rete che trasporta dati a rete intelligen...
CHUWI CoreBook Air alla prova: design premium, buona autonomia e qualche compromesso CHUWI CoreBook Air alla prova: design premium, b...
Crollo del mercato PC nel 2026: secondo ...
Come dimostrare che gli agenti di IA fan...
Galaxy AI potrebbe creare app funzionant...
Luce solare anche di notte con i satelli...
The Witcher 4 con ambientazioni da urlo ...
007 First Light e Control Resonant avran...
DLSS 4.5 con Dynamic Multi Frame Generat...
Meta acquisisce Moltbook, il social netw...
Red Hat al MWC 2026: attenzione all'IA n...
Amazon espande 'Paga in Contanti': ora d...
Samsung Galaxy S26 Ultra, promosso ma se...
Gemini sempre più integrato in Go...
NVIDIA investe in Thinking Machines Lab:...
NVIDIA prepara NemoClaw, piattaforma ope...
Samsung testa una batteria da 20.000 mAh...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 05:36.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v