|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
Senior Member
Iscritto dal: Nov 2008
Messaggi: 583
|
[PHP] Semplice crawler in php
devo cstrutire un semplice crawler in php senza gestione dei thread o flag su pagine viste. Il codice scritto fin'ora è :
Codice:
<?php $testoiniziale=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag $testodopo=strip_tags($testoiniziale,"<a>"); // rimuovo tutti i tag tranne quello definito dopo la virgola preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testodopo,$matches);//tramite questa er posso avere soltanto tutti i link dopo ahref file_put_contents("codicehtml.txt",$matches[1]); for($i=0;$i<count($matches[1]);$i++) { $link=array_shift($matches[1]); //print($link); $testodipartenza=file_get_contents($link); $testolink=strip_tags($testodipartenza,"<a>"); preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testolink,$ancore); print($ancore[1]); } $testoiniziale2=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag $testodopot=strip_tags($testoiniziale2); $array=explode(" ",$testodopot); file_put_contents("termini.txt",$array); ?> ![]() Ah dimenticavo che all'interno del for implemento solo il parsing dei link, il parsing del testo vale solo per la pagina seme per ora... Ultima modifica di starmar : 11-06-2011 alle 11:01. |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Nov 2008
Messaggi: 583
|
up !
|
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 11:02.