PDA

View Full Version : [Vari] Contest 19: Full Text Search(e non solo).


Pagine : 1 2 3 4 [5]

Vincenzo1968
27-02-2013, 13:04
Se sono tutti ASCII lasciano il tempo che trovano.


Occhio! da qui si possono scaricare un bel po' di file per fare le prove:

http://www.cl.cam.ac.uk/~mgk25/ucs/examples/



Ho capito, ma devi porti questa domanda: "mi serve il conteggio delle parole per quello che sto andando a fare?". Se la risposta è sì, allora lo implementi. Se è no, lascia perdere.

Prima di rispondere mettiti nelle condizioni di un utente qualunque e delle sue esigenze "medie" / "standard".


No ma, come dicevo prima(qualche pagina fa), il core della libreria farà quello che fanno Lucene e programmi simili: indicizzazione e ricerca. Poi voglio implementare una serie di librerie satellite: gestione dei formati più comuni(pdf, xml, html, etc), statistiche(frequenza delle parole, etc).

;)

banryu79
27-02-2013, 13:11
Ohé! altro gran bell'articolo:
...http://www.tbray.org/ongoing/When/200x/2003/04/26/UTF...

Può essere interessante tutta la serie di post sull'argomento "Testo" presenti del blog di quel tizio:
http://www.tbray.org/ongoing/What/Technology/Coding/Text/

Vincenzo1968
27-02-2013, 13:12
Azz, Cesare ha scritto il millesimo post!

Cosa vince? Fossimo un centro commerciale potremmo dargli un buono sconto. Ma qui? Che ci possiamo inventare?
:D

Vincenzo1968
27-02-2013, 13:13
Può essere interessante tutta la serie di post sull'argomento "Testo" presenti del blog di quel tizio:
http://www.tbray.org/ongoing/What/Technology/Coding/Text/

Ottimo! Thanks a lot! :D

Vincenzo1968
27-02-2013, 13:46
Ohé, un po' di pappa pronta per il parsing dei file in formato xml:

http://sourceforge.net/projects/expat/?source=dlp
http://expat.sourceforge.net/

Articolo how-to:
http://www.xml.com/pub/a/1999/09/expat/index.html

:D

Vincenzo1968
27-02-2013, 15:06
M'è appena arrivato:

http://shop.oreilly.com/product/0636920022862.do?green=326D491A-96FA-5835-9B00-A4C785FD4C04&intcmp=af-mybuy-0636920022862.IP
http://akamaicovers.oreilly.com/images/0636920022862/cat.gif

:yeah: :winner: :yeah:

EDIT: Capitolo 21: titolo: Git e GitHub. :yeah:

Vincenzo1968
27-02-2013, 16:42
Ovviamente C batte tutti. Ovvio dai:

http://www.xml.com/pub/a/Benchmark/article.html?page=3

Figure 1. Comparison of Six XML Parsers Processing rec.xml:
http://www.xml.com/Benchmark/graphics/xmlparser3.gif

Figure 2. Comparison of Six XML Parsers Processing chrmed.xml:
http://www.xml.com/Benchmark/graphics/xmlparser4.gif

Figure 3. Comparison of Six XML Parsers Processing Each Test File:
http://www.xml.com/Benchmark/graphics/xml-parser.gif

http://www.hwupgrade.org/public/style_emoticons/default/coolface.png

VICIUS
27-02-2013, 17:40
Ovviamente C batte tutti. Ovvio dai:

http://www.xml.com/pub/a/Benchmark/article.html?page=3

1999, processore da 200 bogomips, java 1.2… Vincenzo ma per trovare questi articoli del cretaceo dove vai a cercare? Spero non in un cimitero. :asd:

Vincenzo1968
27-02-2013, 18:39
1999, processore da 200 bogomips, java 1.2… Vincenzo ma per trovare questi articoli del cretaceo dove vai a cercare? Spero non in un cimitero. :asd:

Ah ma io ho scaricato i sorgenti e i file dal link dell'articolo. Ho rifatto i benchmark.
Se vuoi posto i dati. Ma non ti conviene. :D

http://www.hwupgrade.org/public/style_emoticons/default/challenge.png

Sono a pag. 2; il file da scaricare è "Xmlbench.tar.gz" ;)

Vincenzo1968
27-02-2013, 18:49
Vabbuò, direi che questo contest possiamo archiviarlo. Gli algoritmi li abbiamo visti, libri e documentazione ne abbiamo parlato.

Appena è pronta la mia libreria vi do il link per scaricare sorgenti(GitHub ;) ) ed eseguibili.

Ci sarebbe il nuovo contest sulle regexp da aprire. Scalpita... :bimbo:

kwb
27-02-2013, 21:34
1999, processore da 200 bogomips, java 1.2… Vincenzo ma per trovare questi articoli del cretaceo dove vai a cercare? Spero non in un cimitero. :asd:
:asd:

Vabbuò, direi che questo contest possiamo archiviarlo. Gli algoritmi li abbiamo visti, libri e documentazione ne abbiamo parlato.

Appena è pronta la mia libreria vi do il link per scaricare sorgenti(GitHub ;) ) ed eseguibili.

Ci sarebbe il nuovo contest sulle regexp da aprire. Scalpita... :bimbo:

Farò attenzione a quando aprire che così vi inizio a seguire fin da subito! ;)

kwb
01-03-2013, 12:00
Volevo chiedere un'ultima cosa agli esperti di Python: ma se si fosse fatto uso dei generatori per il punto B1, la soluzione non sarebbe stata più veloce?
Se ho ben capito avrebbero dato un filo di velocità in più rispetto ad usare delle liste

cdimauro
01-03-2013, 19:18
Non ho visto l'implementazione per questo punto, ma leggendo il testo del problema non mi pare di vedere possibile l'utilizzo dei generatori.

kwb
02-03-2013, 11:56
Non ho visto l'implementazione per questo punto, ma leggendo il testo del problema non mi pare di vedere possibile l'utilizzo dei generatori.
Mi riferivo alla leggerezza in termini di memoria occupata, ovvero:

Il generatore si usa normalmente all'interno di cicli for ma, contrariamente alle sequenze come liste o stringhe, non contiene una serie di valori predeterminati. I valori vengono calcolati e restituiti ad ogni iterazione.

In questo modo il generatore, oltre a costituire un risparmio di memoria in caso di sequenze lunghe, può rappresentare sequenze che non possono essere predeterminate o che non hanno fine.
Preso da http://redomino.com/it/labs/documentazione/how-to/python-e-i-generatori

cdimauro
02-03-2013, 12:47
Sì, siamo d'accordo, ma bisogna vedere se è possibile utilizzarli oppure no.

In quel contesto, mi pare di no.

Vincenzo1968
02-03-2013, 13:01
http://www.qlibri.it/narrativa-italiana/romanzi/il-contesto/

http://www.qlibri.it/images/stories/jreviews/tn/tn_1388_Ilcontesto_1209372053.jpg