Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Wind Tre 'accende' il 5G Standalone in Italia: si apre una nuova era basata sui servizi
Wind Tre 'accende' il 5G Standalone in Italia: si apre una nuova era basata sui servizi
Con la prima rete 5G Standalone attiva in Italia, WINDTRE compie un passo decisivo verso un modello di connettività intelligente che abilita scenari avanzati per imprese e pubbliche amministrazioni, trasformando la rete da infrastruttura a piattaforma per servizi a valore aggiunto
OPPO Find X9 Pro: il camera phone con teleobiettivo da 200MP e batteria da 7500 mAh
OPPO Find X9 Pro: il camera phone con teleobiettivo da 200MP e batteria da 7500 mAh
OPPO Find X9 Pro punta a diventare uno dei riferimenti assoluti nel segmento dei camera phone di fascia alta. Con un teleobiettivo Hasselblad da 200 MP, una batteria al silicio-carbonio da 7500 mAh e un display da 6,78 pollici con cornici ultra ridotte, il nuovo flagship non teme confronti con la concorrenza, e non solo nel comparto fotografico mobile. La dotazione tecnica include il processore MediaTek Dimensity 9500, certificazione IP69 e un sistema di ricarica rapida a 80W
DJI Romo, il robot aspirapolvere tutto trasparente
DJI Romo, il robot aspirapolvere tutto trasparente
Anche DJI entra nel panorama delle aziende che propongono una soluzione per la pulizia di casa, facendo leva sulla propria esperienza legata alla mappatura degli ambienti e all'evitamento di ostacoli maturata nel mondo dei droni. Romo è un robot preciso ed efficace, dal design decisamente originale e unico ma che richiede per questo un costo d'acquisto molto elevato
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 11-06-2011, 11:56   #1
starmar
Senior Member
 
L'Avatar di starmar
 
Iscritto dal: Nov 2008
Messaggi: 583
[PHP] Semplice crawler in php

devo cstrutire un semplice crawler in php senza gestione dei thread o flag su pagine viste. Il codice scritto fin'ora è :
Codice:
<?php
$testoiniziale=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag
$testodopo=strip_tags($testoiniziale,"<a>"); // rimuovo tutti i tag tranne quello definito dopo la virgola
preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testodopo,$matches);//tramite questa er posso avere soltanto tutti i link dopo ahref
file_put_contents("codicehtml.txt",$matches[1]);
for($i=0;$i<count($matches[1]);$i++) {
	$link=array_shift($matches[1]);
	//print($link);
	$testodipartenza=file_get_contents($link);
	$testolink=strip_tags($testodipartenza,"<a>");
	preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testolink,$ancore);
	print($ancore[1]);
	
	
	}
	$testoiniziale2=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag 
$testodopot=strip_tags($testoiniziale2);
$array=explode(" ",$testodopot);
file_put_contents("termini.txt",$array);
?>
Voglio parsare ogni pagina links e testo.. tutti il testo andrà in termini.txt mentre i links, staranno in memoria per velocizzare il tutto. Ho usato quindi un vettore a mo' di coda, che mi preleva ogni volta la testa del vettore (array-shift) e la apre. Mi restituisce un'errore su file_get_contents($link), come mai?? Tente prensente che per ora è solo un abbozzo, linea guida... sono sulla buona strada ?
Ah dimenticavo che all'interno del for implemento solo il parsing dei link, il parsing del testo vale solo per la pagina seme per ora...

Ultima modifica di starmar : 11-06-2011 alle 12:01.
starmar è offline   Rispondi citando il messaggio o parte di esso
Old 13-06-2011, 19:42   #2
starmar
Senior Member
 
L'Avatar di starmar
 
Iscritto dal: Nov 2008
Messaggi: 583
up !
starmar è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Wind Tre 'accende' il 5G Standalone in Italia: si apre una nuova era basata sui servizi Wind Tre 'accende' il 5G Standalone in Italia: s...
OPPO Find X9 Pro: il camera phone con teleobiettivo da 200MP e batteria da 7500 mAh OPPO Find X9 Pro: il camera phone con teleobiett...
DJI Romo, il robot aspirapolvere tutto trasparente DJI Romo, il robot aspirapolvere tutto trasparen...
DJI Osmo Nano: la piccola fotocamera alla prova sul campo DJI Osmo Nano: la piccola fotocamera alla prova ...
FUJIFILM X-T30 III, la nuova mirrorless compatta FUJIFILM X-T30 III, la nuova mirrorless compatta
La missione con equipaggio Shenzhou-21 h...
Il Galaxy S26 Edge potrebbe essere ancor...
Google riaccenderà una centrale n...
Crollo per Pornhub nel Regno Unito:-77% ...
La Germania accende il suo cannone laser...
Il meglio di Amazon in 2 minuti: tira ar...
ECOVACS risponde a Eureka e dimezza il p...
Durissimo colpo per Nintendo: l'ufficio ...
Scope elettriche al minimo storico su Am...
Blue Jay e Project Eluna: robotica e AI ...
Scede a 949€ il Samsung Galaxy S25 Ultra...
Blue Yeti Nano in super offerta su Amazo...
Netflix sta preparando un'offerta per Wa...
Prezzo impossibile, è sceso ancor...
Torna il migliore dei mini PC economici:...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 20:10.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v