View Full Version : [Vari] Contest 19: Full Text Search(e non solo).
Vincenzo1968
27-02-2013, 13:04
Se sono tutti ASCII lasciano il tempo che trovano.
Occhio! da qui si possono scaricare un bel po' di file per fare le prove:
http://www.cl.cam.ac.uk/~mgk25/ucs/examples/
Ho capito, ma devi porti questa domanda: "mi serve il conteggio delle parole per quello che sto andando a fare?". Se la risposta è sì, allora lo implementi. Se è no, lascia perdere.
Prima di rispondere mettiti nelle condizioni di un utente qualunque e delle sue esigenze "medie" / "standard".
No ma, come dicevo prima(qualche pagina fa), il core della libreria farà quello che fanno Lucene e programmi simili: indicizzazione e ricerca. Poi voglio implementare una serie di librerie satellite: gestione dei formati più comuni(pdf, xml, html, etc), statistiche(frequenza delle parole, etc).
;)
banryu79
27-02-2013, 13:11
Ohé! altro gran bell'articolo:
...http://www.tbray.org/ongoing/When/200x/2003/04/26/UTF...
Può essere interessante tutta la serie di post sull'argomento "Testo" presenti del blog di quel tizio:
http://www.tbray.org/ongoing/What/Technology/Coding/Text/
Vincenzo1968
27-02-2013, 13:12
Azz, Cesare ha scritto il millesimo post!
Cosa vince? Fossimo un centro commerciale potremmo dargli un buono sconto. Ma qui? Che ci possiamo inventare?
:D
Vincenzo1968
27-02-2013, 13:13
Può essere interessante tutta la serie di post sull'argomento "Testo" presenti del blog di quel tizio:
http://www.tbray.org/ongoing/What/Technology/Coding/Text/
Ottimo! Thanks a lot! :D
Vincenzo1968
27-02-2013, 13:46
Ohé, un po' di pappa pronta per il parsing dei file in formato xml:
http://sourceforge.net/projects/expat/?source=dlp
http://expat.sourceforge.net/
Articolo how-to:
http://www.xml.com/pub/a/1999/09/expat/index.html
:D
Vincenzo1968
27-02-2013, 15:06
M'è appena arrivato:
http://shop.oreilly.com/product/0636920022862.do?green=326D491A-96FA-5835-9B00-A4C785FD4C04&intcmp=af-mybuy-0636920022862.IP
http://akamaicovers.oreilly.com/images/0636920022862/cat.gif
:yeah: :winner: :yeah:
EDIT: Capitolo 21: titolo: Git e GitHub. :yeah:
Vincenzo1968
27-02-2013, 16:42
Ovviamente C batte tutti. Ovvio dai:
http://www.xml.com/pub/a/Benchmark/article.html?page=3
Figure 1. Comparison of Six XML Parsers Processing rec.xml:
http://www.xml.com/Benchmark/graphics/xmlparser3.gif
Figure 2. Comparison of Six XML Parsers Processing chrmed.xml:
http://www.xml.com/Benchmark/graphics/xmlparser4.gif
Figure 3. Comparison of Six XML Parsers Processing Each Test File:
http://www.xml.com/Benchmark/graphics/xml-parser.gif
http://www.hwupgrade.org/public/style_emoticons/default/coolface.png
Ovviamente C batte tutti. Ovvio dai:
http://www.xml.com/pub/a/Benchmark/article.html?page=3
…
1999, processore da 200 bogomips, java 1.2… Vincenzo ma per trovare questi articoli del cretaceo dove vai a cercare? Spero non in un cimitero. :asd:
Vincenzo1968
27-02-2013, 18:39
1999, processore da 200 bogomips, java 1.2… Vincenzo ma per trovare questi articoli del cretaceo dove vai a cercare? Spero non in un cimitero. :asd:
Ah ma io ho scaricato i sorgenti e i file dal link dell'articolo. Ho rifatto i benchmark.
Se vuoi posto i dati. Ma non ti conviene. :D
http://www.hwupgrade.org/public/style_emoticons/default/challenge.png
Sono a pag. 2; il file da scaricare è "Xmlbench.tar.gz" ;)
Vincenzo1968
27-02-2013, 18:49
Vabbuò, direi che questo contest possiamo archiviarlo. Gli algoritmi li abbiamo visti, libri e documentazione ne abbiamo parlato.
Appena è pronta la mia libreria vi do il link per scaricare sorgenti(GitHub ;) ) ed eseguibili.
Ci sarebbe il nuovo contest sulle regexp da aprire. Scalpita... :bimbo:
1999, processore da 200 bogomips, java 1.2… Vincenzo ma per trovare questi articoli del cretaceo dove vai a cercare? Spero non in un cimitero. :asd:
:asd:
Vabbuò, direi che questo contest possiamo archiviarlo. Gli algoritmi li abbiamo visti, libri e documentazione ne abbiamo parlato.
Appena è pronta la mia libreria vi do il link per scaricare sorgenti(GitHub ;) ) ed eseguibili.
Ci sarebbe il nuovo contest sulle regexp da aprire. Scalpita... :bimbo:
Farò attenzione a quando aprire che così vi inizio a seguire fin da subito! ;)
Volevo chiedere un'ultima cosa agli esperti di Python: ma se si fosse fatto uso dei generatori per il punto B1, la soluzione non sarebbe stata più veloce?
Se ho ben capito avrebbero dato un filo di velocità in più rispetto ad usare delle liste
cdimauro
01-03-2013, 19:18
Non ho visto l'implementazione per questo punto, ma leggendo il testo del problema non mi pare di vedere possibile l'utilizzo dei generatori.
Non ho visto l'implementazione per questo punto, ma leggendo il testo del problema non mi pare di vedere possibile l'utilizzo dei generatori.
Mi riferivo alla leggerezza in termini di memoria occupata, ovvero:
Il generatore si usa normalmente all'interno di cicli for ma, contrariamente alle sequenze come liste o stringhe, non contiene una serie di valori predeterminati. I valori vengono calcolati e restituiti ad ogni iterazione.
In questo modo il generatore, oltre a costituire un risparmio di memoria in caso di sequenze lunghe, può rappresentare sequenze che non possono essere predeterminate o che non hanno fine.
Preso da http://redomino.com/it/labs/documentazione/how-to/python-e-i-generatori
cdimauro
02-03-2013, 12:47
Sì, siamo d'accordo, ma bisogna vedere se è possibile utilizzarli oppure no.
In quel contesto, mi pare di no.
Vincenzo1968
02-03-2013, 13:01
http://www.qlibri.it/narrativa-italiana/romanzi/il-contesto/
http://www.qlibri.it/images/stories/jreviews/tn/tn_1388_Ilcontesto_1209372053.jpg
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.