[PHP] Semplice crawler in php

starmar · 11-06-2011, 10:56

devo cstrutire un semplice crawler in php senza gestione dei thread o flag su pagine viste. Il codice scritto fin'ora è :

Codice:

<?php
$testoiniziale=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag
$testodopo=strip_tags($testoiniziale,"<a>"); // rimuovo tutti i tag tranne quello definito dopo la virgola
preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testodopo,$matches);//tramite questa er posso avere soltanto tutti i link dopo ahref
file_put_contents("codicehtml.txt",$matches[1]);
for($i=0;$i<count($matches[1]);$i++) {
	$link=array_shift($matches[1]);
	//print($link);
	$testodipartenza=file_get_contents($link);
	$testolink=strip_tags($testodipartenza,"<a>");
	preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testolink,$ancore);
	print($ancore[1]);
	
	
	}
	$testoiniziale2=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag 
$testodopot=strip_tags($testoiniziale2);
$array=explode(" ",$testodopot);
file_put_contents("termini.txt",$array);
?>

Voglio parsare ogni pagina links e testo.. tutti il testo andrà in termini.txt mentre i links, staranno in memoria per velocizzare il tutto. Ho usato quindi un vettore a mo' di coda, che mi preleva ogni volta la testa del vettore (array-shift) e la apre. Mi restituisce un'errore su file_get_contents($link), come mai?? Tente prensente che per ora è solo un abbozzo, linea guida... sono sulla buona strada ?

Ah dimenticavo che all'interno del for implemento solo il parsing dei link, il parsing del testo vale solo per la pagina seme per ora...

starmar · 13-06-2011, 18:42

up !

13-06-2011, 18:42	#2
starmar Senior Member Iscritto dal: Nov 2008 Messaggi: 583	up !

Strumenti
Mostra una versione stampabile Invia questa pagina per email