[PHP] Efficienza algoritmo

spk · 09-06-2007, 15:32

ciao,

ho una pagina php il cui compito è prelevare testi da un database mysql, filtrare tutte le parole in base a determinati criteri, e restituire ciò che rimane

in poche parole estraggo le keyword da un documento

come potete immaginare utilizzo dei file di testo contenenti dizionari di parole italiane e inglesi (attualmente il file è di 64000 righe) ed esegui operazioni su queste per poi decidere in base ad altri criteri la valenza della parola nel testo.

mi rivolgo a voi per una questione tecnica: l'algoritmo in questione è molto oneroso di processore, e richiede più di due minuti prima di completare tutti gli articoli....mi interessa chiedervi quali strumenti posso utilizzare per "scovare" quali porzioni di codice sono più onerose delle altre.

ho provato a dimezzare il dizionario: il tempo impiegato è diminuito ma non dimezzato. Ho altre funzioni all'apparenza veloci ma che probabilmente stanno eseguendo istruzioni superflue...non riesco a ottimizzare il codice

esiste qualcosa che mi può aiutare?

cionci · 09-06-2007, 15:57

Fammi capire meglio...devi cercare una o più parole all'interno di uno o più testi contenuti in un database MySQL ? In tal caso MySQL prevede un'indicizzazione particolare chiamata Full Text Index che permette in maniera notevolmente ottimizzata di cercare parole all'interno di campi di testo di grosse dimensioni.
Cerca Full Text Search nel manuale sul sito di MySQL...

spk · 09-06-2007, 20:52

molto molto interessante

ho letto qualche pagine della documentazione.
se ho ben compreso sembra possibile sostituire l'intero script da me fatto in php con una "Boolean Full-Text Search" ben formata, facendo ampio uso delle wildcard, tuttavia non ritorna ciò che cerco!

spiego meglio come lavora il mio script, tralascio volontariamente tutti i passaggi che raffinano il lavoro:
1) faccio una query a un database di articoli e ne estraggo il corpo.
2) trasformo un grosso file dizionario di parole in un array. Questo dizionario non tiene parole intere, ma solo la parte iniziale della parola, cercando di evitare i suffissi più comuni.
es.: ABBANDON , che uso per filtrare "abbandon-are" , "abbandon-ato" , ecc..
3) restituisco le parole sopravvissute come keywords, o comunque parole di interesse - come nomi propri e cose simili.

sembra che scaricare il lavoro a mysql sia possibile, ma servirebbe che retituisse un elenco di parole invece di un intero articolo

cionci · 09-06-2007, 21:37

Quindi te cerchi abbandon* e quindi vorresti che ritornasse l'id dell'articolo e la lista di parole che matchano ?

Comunque già il solo fatto che ti ritorni l'articolo che matcha, se hai tanti articoli, potrebbe essere un notevole miglioramento. Dopo ti resterebbe solo da individuare le parole che matchano tramite codice.

PS: che brutto "matchare"

spk · 10-06-2007, 11:17

matchare è veramente orrendo

quasi: io cerco abbandon* e mi deve restituire le parole che NON matchano

es.: in "il prodotto XYZ è il migliore"
il mio algoritmo filtra "il" "prodotto" "è" "il" "migliore" e restituisce "XYZ"

PS: penso che sarebbe utilile modificare il titolo del thread, siamo entrati nello specifico ora, si può scegliere di meglio

09-06-2007, 15:32	#1
spk Senior Member Iscritto dal: Jul 2002 Città: Hampstead, London Messaggi: 2449	[PHP] Efficienza algoritmo ciao, ho una pagina php il cui compito è prelevare testi da un database mysql, filtrare tutte le parole in base a determinati criteri, e restituire ciò che rimane in poche parole estraggo le keyword da un documento come potete immaginare utilizzo dei file di testo contenenti dizionari di parole italiane e inglesi (attualmente il file è di 64000 righe) ed esegui operazioni su queste per poi decidere in base ad altri criteri la valenza della parola nel testo. mi rivolgo a voi per una questione tecnica: l'algoritmo in questione è molto oneroso di processore, e richiede più di due minuti prima di completare tutti gli articoli....mi interessa chiedervi quali strumenti posso utilizzare per "scovare" quali porzioni di codice sono più onerose delle altre. ho provato a dimezzare il dizionario: il tempo impiegato è diminuito ma non dimezzato. Ho altre funzioni all'apparenza veloci ma che probabilmente stanno eseguendo istruzioni superflue...non riesco a ottimizzare il codice esiste qualcosa che mi può aiutare? __________________ stabilmente instabile

09-06-2007, 20:52	#3
spk Senior Member Iscritto dal: Jul 2002 Città: Hampstead, London Messaggi: 2449	molto molto interessante ho letto qualche pagine della documentazione. se ho ben compreso sembra possibile sostituire l'intero script da me fatto in php con una "Boolean Full-Text Search" ben formata, facendo ampio uso delle wildcard, tuttavia non ritorna ciò che cerco! spiego meglio come lavora il mio script, tralascio volontariamente tutti i passaggi che raffinano il lavoro: 1) faccio una query a un database di articoli e ne estraggo il corpo. 2) trasformo un grosso file dizionario di parole in un array. Questo dizionario non tiene parole intere, ma solo la parte iniziale della parola, cercando di evitare i suffissi più comuni. es.: ABBANDON , che uso per filtrare "abbandon-are" , "abbandon-ato" , ecc.. 3) restituisco le parole sopravvissute come keywords, o comunque parole di interesse - come nomi propri e cose simili. sembra che scaricare il lavoro a mysql sia possibile, ma servirebbe che retituisse un elenco di parole invece di un intero articolo __________________ stabilmente instabile

10-06-2007, 11:17	#5
spk Senior Member Iscritto dal: Jul 2002 Città: Hampstead, London Messaggi: 2449	matchare è veramente orrendo quasi: io cerco abbandon* e mi deve restituire le parole che NON matchano es.: in "il prodotto XYZ è il migliore" il mio algoritmo filtra "il" "prodotto" "è" "il" "migliore" e restituisce "XYZ" PS: penso che sarebbe utilile modificare il titolo del thread, siamo entrati nello specifico ora, si può scegliere di meglio __________________ stabilmente instabile

09-06-2007, 15:57	#2
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Fammi capire meglio...devi cercare una o più parole all'interno di uno o più testi contenuti in un database MySQL ? In tal caso MySQL prevede un'indicizzazione particolare chiamata Full Text Index che permette in maniera notevolmente ottimizzata di cercare parole all'interno di campi di testo di grosse dimensioni. Cerca Full Text Search nel manuale sul sito di MySQL...

09-06-2007, 21:37	#4
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Quindi te cerchi abbandon* e quindi vorresti che ritornasse l'id dell'articolo e la lista di parole che matchano ? Comunque già il solo fatto che ti ritorni l'articolo che matcha, se hai tanti articoli, potrebbe essere un notevole miglioramento. Dopo ti resterebbe solo da individuare le parole che matchano tramite codice. PS: che brutto "matchare"

Strumenti
Mostra una versione stampabile Invia questa pagina per email