Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Recensione Borderlands 4, tra divertimento e problemi tecnici
Recensione Borderlands 4, tra divertimento e problemi tecnici
Gearbox Software rilancia la saga con Borderlands 4, ora disponibile su PS5, Xbox Series X|S e PC. Tra le novità spiccano nuove abilità di movimento, un pianeta inedito da esplorare e una campagna che lascia al giocatore piena libertà di approccio
TCL NXTPAPER 60 Ultra: lo smartphone che trasforma la lettura da digitale a naturale
TCL NXTPAPER 60 Ultra: lo smartphone che trasforma la lettura da digitale a naturale
NXTPAPER 60 Ultra è il primo smartphone con tecnologia NXTPAPER 4.0 per il display, un ampio IPS da 7,2 pollici. Con finitura anti-riflesso, processore MediaTek Dimensity 7400, fotocamera periscopica e modalità Max Ink per il detox digitale, NXTPAPER 60 Ultra punta a essere il riferimento tra gli smartphone pensati per il benessere degli occhi.
Un fulmine sulla scrivania, Corsair Sabre v2 Pro ridefinisce la velocità nel gaming
Un fulmine sulla scrivania, Corsair Sabre v2 Pro ridefinisce la velocità nel gaming
Questo mouse ultraleggero, con soli 36 grammi di peso, è stato concepito per offrire un'esperienza di gioco di alto livello ai professionisti degli FPS, grazie al polling rate a 8.000 Hz e a un sensore ottico da 33.000 DPI. La recensione esplora ogni dettaglio di questo dispositivo di gioco, dalla sua agilità estrema alle specifiche tecniche che lo pongono un passo avanti
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 11-06-2011, 10:56   #1
starmar
Senior Member
 
L'Avatar di starmar
 
Iscritto dal: Nov 2008
Messaggi: 583
[PHP] Semplice crawler in php

devo cstrutire un semplice crawler in php senza gestione dei thread o flag su pagine viste. Il codice scritto fin'ora è :
Codice:
<?php
$testoiniziale=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag
$testodopo=strip_tags($testoiniziale,"<a>"); // rimuovo tutti i tag tranne quello definito dopo la virgola
preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testodopo,$matches);//tramite questa er posso avere soltanto tutti i link dopo ahref
file_put_contents("codicehtml.txt",$matches[1]);
for($i=0;$i<count($matches[1]);$i++) {
	$link=array_shift($matches[1]);
	//print($link);
	$testodipartenza=file_get_contents($link);
	$testolink=strip_tags($testodipartenza,"<a>");
	preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testolink,$ancore);
	print($ancore[1]);
	
	
	}
	$testoiniziale2=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag 
$testodopot=strip_tags($testoiniziale2);
$array=explode(" ",$testodopot);
file_put_contents("termini.txt",$array);
?>
Voglio parsare ogni pagina links e testo.. tutti il testo andrà in termini.txt mentre i links, staranno in memoria per velocizzare il tutto. Ho usato quindi un vettore a mo' di coda, che mi preleva ogni volta la testa del vettore (array-shift) e la apre. Mi restituisce un'errore su file_get_contents($link), come mai?? Tente prensente che per ora è solo un abbozzo, linea guida... sono sulla buona strada ?
Ah dimenticavo che all'interno del for implemento solo il parsing dei link, il parsing del testo vale solo per la pagina seme per ora...

Ultima modifica di starmar : 11-06-2011 alle 11:01.
starmar è offline   Rispondi citando il messaggio o parte di esso
Old 13-06-2011, 18:42   #2
starmar
Senior Member
 
L'Avatar di starmar
 
Iscritto dal: Nov 2008
Messaggi: 583
up !
starmar è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Recensione Borderlands 4, tra divertimento e problemi tecnici Recensione Borderlands 4, tra divertimento e pro...
TCL NXTPAPER 60 Ultra: lo smartphone che trasforma la lettura da digitale a naturale TCL NXTPAPER 60 Ultra: lo smartphone che trasfor...
Un fulmine sulla scrivania, Corsair Sabre v2 Pro ridefinisce la velocità nel gaming Un fulmine sulla scrivania, Corsair Sabre v2 Pro...
Nokia Innovation Day 2025: l’Europa ha bisogno di campioni nelle telecomunicazioni Nokia Innovation Day 2025: l’Europa ha bisogno d...
Sottile, leggero e dall'autonomia WOW: OPPO Reno14 F conquista con stile e sostanza Sottile, leggero e dall'autonomia WOW: OPPO Reno...
Tesla acquista pubblicità sui soc...
Eureka J15 Max Ultra a 899€ contro J15 U...
Forza Horizon 6 porta i giocatori in Gia...
Battlefield 6: dall'ultimo State of Play...
Amazon fa crollare i prezzi: componenti ...
Gli italiani spendono fino al 50% della ...
Boom del ricondizionato in Italia: conso...
Marvel's Wolverine: svelato il periodo d...
OPPO annuncia il lancio globale della se...
Saros: annunciata la data d'uscita su PS...
Samsung espande il suo impero audio: acq...
Apple, è scontro con l'Europa sul DMA: "...
Renault alla Milano Fashion Week, una mo...
L'utente con più giochi su Steam ...
iPhone 17 Pro, esplode lo Scratchgate: A...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 11:02.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v