PDA

View Full Version : [PHP] Efficienza algoritmo


spk
09-06-2007, 15:32
ciao,

ho una pagina php il cui compito è prelevare testi da un database mysql, filtrare tutte le parole in base a determinati criteri, e restituire ciò che rimane

in poche parole estraggo le keyword da un documento

come potete immaginare utilizzo dei file di testo contenenti dizionari di parole italiane e inglesi (attualmente il file è di 64000 righe) ed esegui operazioni su queste per poi decidere in base ad altri criteri la valenza della parola nel testo.

mi rivolgo a voi per una questione tecnica: l'algoritmo in questione è molto oneroso di processore, e richiede più di due minuti prima di completare tutti gli articoli....mi interessa chiedervi quali strumenti posso utilizzare per "scovare" quali porzioni di codice sono più onerose delle altre.

ho provato a dimezzare il dizionario: il tempo impiegato è diminuito ma non dimezzato. Ho altre funzioni all'apparenza veloci ma che probabilmente stanno eseguendo istruzioni superflue...non riesco a ottimizzare il codice :D

esiste qualcosa che mi può aiutare?

cionci
09-06-2007, 15:57
Fammi capire meglio...devi cercare una o più parole all'interno di uno o più testi contenuti in un database MySQL ? In tal caso MySQL prevede un'indicizzazione particolare chiamata Full Text Index che permette in maniera notevolmente ottimizzata di cercare parole all'interno di campi di testo di grosse dimensioni.
Cerca Full Text Search nel manuale sul sito di MySQL...

spk
09-06-2007, 20:52
molto molto interessante

ho letto qualche pagine della documentazione.
se ho ben compreso sembra possibile sostituire l'intero script da me fatto in php con una "Boolean Full-Text Search" ben formata, facendo ampio uso delle wildcard, tuttavia non ritorna ciò che cerco!

spiego meglio come lavora il mio script, tralascio volontariamente tutti i passaggi che raffinano il lavoro:
1) faccio una query a un database di articoli e ne estraggo il corpo.
2) trasformo un grosso file dizionario di parole in un array. Questo dizionario non tiene parole intere, ma solo la parte iniziale della parola, cercando di evitare i suffissi più comuni.
es.: ABBANDON , che uso per filtrare "abbandon-are" , "abbandon-ato" , ecc..
3) restituisco le parole sopravvissute come keywords, o comunque parole di interesse - come nomi propri e cose simili.

sembra che scaricare il lavoro a mysql sia possibile, ma servirebbe che retituisse un elenco di parole invece di un intero articolo

cionci
09-06-2007, 21:37
Quindi te cerchi abbandon* e quindi vorresti che ritornasse l'id dell'articolo e la lista di parole che matchano ?

Comunque già il solo fatto che ti ritorni l'articolo che matcha, se hai tanti articoli, potrebbe essere un notevole miglioramento. Dopo ti resterebbe solo da individuare le parole che matchano tramite codice.

PS: che brutto "matchare" :D

spk
10-06-2007, 11:17
matchare è veramente orrendo :D

quasi: io cerco abbandon* e mi deve restituire le parole che NON matchano

es.: in "il prodotto XYZ è il migliore"
il mio algoritmo filtra "il" "prodotto" "è" "il" "migliore" e restituisce "XYZ"

PS: penso che sarebbe utilile modificare il titolo del thread, siamo entrati nello specifico ora, si può scegliere di meglio :)