Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Renault Twingo E-Tech Electric: che prezzo!
Renault Twingo E-Tech Electric: che prezzo!
Renault annuncia la nuova vettura compatta del segmento A, che strizza l'occhio alla tradizione del modello abbinandovi una motorizzazione completamente elettrica e caratteristiche ideali per i tragitti urbani. Renault Twingo E-Tech Electric punta su abitabilità, per una lunghezza di meno di 3,8 metri, abbinata a un prezzo di lancio senza incentivi di 20.000€
Il cuore digitale di F1 a Biggin Hill: l'infrastruttura Lenovo dietro la produzione media
Il cuore digitale di F1 a Biggin Hill: l'infrastruttura Lenovo dietro la produzione media
Nel Formula 1 Technology and Media Centre di Biggin Hill, la velocità delle monoposto si trasforma in dati, immagini e decisioni in tempo reale grazie all’infrastruttura Lenovo che gestisce centinaia di terabyte ogni weekend di gara e collega 820 milioni di spettatori nel mondo
DJI Osmo Mobile 8: lo stabilizzatore per smartphone con tracking multiplo e asta telescopica
DJI Osmo Mobile 8: lo stabilizzatore per smartphone con tracking multiplo e asta telescopica
Il nuovo gimbal mobile DJI evolve il concetto di tracciamento automatico con tre modalità diverse, un modulo multifunzionale con illuminazione integrata e controlli gestuali avanzati. Nel gimbal è anche presente un'asta telescopica da 215 mm con treppiede integrato, per un prodotto completo per content creator di ogni livello
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 11-06-2011, 11:56   #1
starmar
Senior Member
 
L'Avatar di starmar
 
Iscritto dal: Nov 2008
Messaggi: 583
[PHP] Semplice crawler in php

devo cstrutire un semplice crawler in php senza gestione dei thread o flag su pagine viste. Il codice scritto fin'ora è :
Codice:
<?php
$testoiniziale=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag
$testodopo=strip_tags($testoiniziale,"<a>"); // rimuovo tutti i tag tranne quello definito dopo la virgola
preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testodopo,$matches);//tramite questa er posso avere soltanto tutti i link dopo ahref
file_put_contents("codicehtml.txt",$matches[1]);
for($i=0;$i<count($matches[1]);$i++) {
	$link=array_shift($matches[1]);
	//print($link);
	$testodipartenza=file_get_contents($link);
	$testolink=strip_tags($testodipartenza,"<a>");
	preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testolink,$ancore);
	print($ancore[1]);
	
	
	}
	$testoiniziale2=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag 
$testodopot=strip_tags($testoiniziale2);
$array=explode(" ",$testodopot);
file_put_contents("termini.txt",$array);
?>
Voglio parsare ogni pagina links e testo.. tutti il testo andrà in termini.txt mentre i links, staranno in memoria per velocizzare il tutto. Ho usato quindi un vettore a mo' di coda, che mi preleva ogni volta la testa del vettore (array-shift) e la apre. Mi restituisce un'errore su file_get_contents($link), come mai?? Tente prensente che per ora è solo un abbozzo, linea guida... sono sulla buona strada ?
Ah dimenticavo che all'interno del for implemento solo il parsing dei link, il parsing del testo vale solo per la pagina seme per ora...

Ultima modifica di starmar : 11-06-2011 alle 12:01.
starmar è offline   Rispondi citando il messaggio o parte di esso
Old 13-06-2011, 19:42   #2
starmar
Senior Member
 
L'Avatar di starmar
 
Iscritto dal: Nov 2008
Messaggi: 583
up !
starmar è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Renault Twingo E-Tech Electric: che prezzo! Renault Twingo E-Tech Electric: che prezzo!
Il cuore digitale di F1 a Biggin Hill: l'infrastruttura Lenovo dietro la produzione media Il cuore digitale di F1 a Biggin Hill: l'infrast...
DJI Osmo Mobile 8: lo stabilizzatore per smartphone con tracking multiplo e asta telescopica DJI Osmo Mobile 8: lo stabilizzatore per smartph...
Recensione Pura 80 Pro: HUAWEI torna a stupire con foto spettacolari e ricarica superveloce Recensione Pura 80 Pro: HUAWEI torna a stupire c...
Opera Neon: il browser AI agentico di nuova generazione Opera Neon: il browser AI agentico di nuova gene...
Google lancia l'allarme: attenzione ai m...
Primo test drive con Leapmotor B10: le c...
'Non può essere un robot': l'uman...
Monopattino elettrico Segway Ninebot Max...
Syberia Remastered è disponibile:...
Sony scopre che tutti i modelli AI hanno...
Amazon nasconde un -15% su 'Seconda Mano...
Due occasioni Apple su Amazon: iPhone 16...
Verso la fine della TV tradizionale? I g...
Cassa JBL a 39€, portatili, smartphone, ...
Cometa interstellare 3I/ATLAS: la sonda ...
Jensen Huang e Bill Dally di NVIDIA prem...
Il futuro della birra è green: H...
ECOVACS GOAT G1-2000: il robot tagliaerb...
Allarme sui bus elettrici cinesi: centin...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 16:37.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v