Torna indietro   Hardware Upgrade Forum > Software > Linux, Unix, OS alternativi

Intervista a Stop Killing Games: distruggere videogiochi è come bruciare la musica di Mozart
Intervista a Stop Killing Games: distruggere videogiochi è come bruciare la musica di Mozart
Mentre Ubisoft vorrebbe chiedere agli utenti, all'occorrenza, di distruggere perfino le copie fisiche dei propri giochi, il movimento Stop Killing Games si sta battendo per preservare quella che l'Unione Europea ha già riconosciuto come una forma d'arte. Abbiamo avuto modo di parlare con Daniel Ondruska, portavoce dell'Iniziativa Europa volta a preservare la conservazione dei videogiochi
Samsung Galaxy S25 Edge: il top di gamma ultrasottile e leggerissimo. La recensione
Samsung Galaxy S25 Edge: il top di gamma ultrasottile e leggerissimo. La recensione
Abbiamo provato il nuovo Galaxy S25 Edge, uno smartphone unico per il suo spessore di soli 5,8 mm e un peso super piuma. Parliamo di un device che ha pro e contro, ma sicuramente si differenzia dalla massa per la sua portabilità, ma non senza qualche compromesso. Ecco la nostra prova completa.
HP Elitebook Ultra G1i 14 è il notebook compatto, potente e robusto
HP Elitebook Ultra G1i 14 è il notebook compatto, potente e robusto
Pensato per il professionista sempre in movimento, HP Elitebook Ultra G1i 14 abbina una piattaforma Intel Core Ultra 7 ad una costruzione robusta, riuscendo a mantenere un peso contenuto e una facile trasportabilità. Ottime prestazioni per gli ambiti di produttività personale con un'autonomia lontano dalla presa di corrente che permette di lavorare per tutta la giornata
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 10-06-2012, 14:38   #1
francescopi
Senior Member
 
Iscritto dal: Mar 2007
Messaggi: 471
Migliorare performance grep su script .sh

Salve a tutti,

ho il seguente problema ho 2 file csv.

Il primo che chiaamo confronto.csv solo una colonna a lunghezza fissa di circa 10000 righe

aaa
bbb
ccc
ddd

il secondo di 5 colonne che chiamo master.csv di 20 mega e circa 300000 righe del tipo

"aaa";"pippo";"pluto";"paperino";"data"
"aaa";"casa";"albero";"finestra";"data"
"fff";"prova";"prova";"prova";"data"

ecc
ecc


io devo pulire il file master.csv delle righe con la prima colonna contenente i valori del file confronto

il comando che ho inserito nello script è del tipo

grep -v -f confronto.csv master.csv > pulito.csv

pulito.csv dovrebbe contenere

"fff";"prova";"prova";"prova";"data"

Siccome ho 30 minuti di tempo per far eseguire la cosa è ho visto che ci mette di più cè un modo per sfruttare il multiprocessore con grep visto che mi sa sfrutta solo un processore?

O cmq un comando che faccia la stessa cosa in tempi molto più veloci o un ottimizzazione di grep?

Grazie mille..

Non so se sia la corretta sezione o andava in programmazione.

cmq la macchina è una red hat con 16 gb di ram e 8 processori.....

Ultima modifica di francescopi : 10-06-2012 alle 14:41.
francescopi è offline   Rispondi citando il messaggio o parte di esso
Old 10-06-2012, 18:27   #2
Gimli[2BV!2B]
Senior Member
 
L'Avatar di Gimli[2BV!2B]
 
Iscritto dal: Feb 2006
Città: Parma
Messaggi: 3010
  • Se non ti interessa l'ordine dell'output potresti provare sgrep (se lo hai disponibile in Red Hat o puoi compilartelo)
    Codice:
    sgrep -v -f confronto.csv <(sort master.csv) > pulito.csv
  • Ho provato a parallelizzare la soluzione dividendo il file master.csv da elaborare in n parti (combinabile con sgrep):
    Codice:
    #!/bin/bash
    
    set -m # Abilita controllo processi
    
    # Percorso base dei file temporanei di output
    OUTPUT=/tmp/multi_threaded_script_out
    
    if [ -z "$1" ]; then
      echo "Specificare come primo parametro il file di input di confronto"
      exit 1
    fi
    if [ -z "$2" ]; then
      echo "Specificare come primo parametro il file di input di dati"
      exit 1
    fi
    if [ -z "$3" ]; then
      echo "Specificare come terzo parametro il numero di thread"
      exit 1
    fi
    
    # Pulisci tmp al segnale EXIT
    trap "rm -f \"$OUTPUT\"*" EXIT
    # Anche in caso di control-c
    trap "rm -f \"$OUTPUT\"*" SIGINT
    
    LENGTH=$(wc -l < "$2")
    STEP=$(($LENGTH / $(($3 - 1))))
    CURRENT_LINE=0
    ITERATION=0
    
    # Questa funzione sarà lanciata come processo figlio
    # - 1° argomento, $1, sono i dati che verranno elaborati
    # - 2° argomento, $2, è il numero dell'iterazione che identifica questo figlio
    #   e relativo file di output
    process()
    {
    # sleep $3
    #  grep -v -f "$1" <(echo "$2") > "$OUTPUT$3"
      fgrep -v -f "$1" <(echo "$2") > "$OUTPUT$3"
    };
    
    # Variazione con sgrep, non attiva
    process_sgrep()
    {
      sgrep -v -f <(echo "$1") <(sort <(cat "$2")) > "$OUTPUT$3"
    };
    
    while [ $CURRENT_LINE -lt $LENGTH ]; do
      if [ $(($CURRENT_LINE + $STEP)) -gt $LENGTH ]; then
        STEP=$(($LENGTH - $CURRENT_LINE))
      fi
    
      CURRENT_LINE=$(($CURRENT_LINE + $STEP))
    
      CHUNK=$(head -$CURRENT_LINE "$2" | tail -$STEP)
    
      # Lancia l'esecuzione del figlio!
      process $1 "$CHUNK" $ITERATION &
    
      ((ITERATION++))
    done
    
    # Attendi il termine di tutti i processi figli
    while [ 1 ]; do fg >/dev/null 2>&1; [ $? == 1 ] && break; done
    
    # Cicla sui file temporanei di output stampandoli in stdout
    for ((nOut=0 ; nOut < $3 ; nOut++)); do
      cat "$OUTPUT$nOut"
    done
    Esempio di utilizzo con 8 processi figli:
    Codice:
    bash multi.sh confronto.csv master.csv 8 > pulito.csv
    Per sfruttare la RAM è consigliabile mettere i file temporanei $OUTPUT nella cartella in /dev/shm o equivalente percorso in Red Hat.

    Ovviamente, non avendo i tuoi dati, non posso garantirti che in questo modo impieghi meno tempo.
    Ho notato che l'esecuzione risulta appena appena più veloce usando esplicitamente fgrep.
  • Un'altra prova che si può fare è con sed, ho letto che in alcuni casi può risultare più veloce.
__________________
~Breve riferimento ai comandi GNU/Linux (ormai non molto breve...)

Ultima modifica di Gimli[2BV!2B] : 11-06-2012 alle 21:16. Motivo: Tolto sleep inutile
Gimli[2BV!2B] è offline   Rispondi citando il messaggio o parte di esso
Old 10-06-2012, 20:09   #3
francescopi
Senior Member
 
Iscritto dal: Mar 2007
Messaggi: 471
ti ringrazio per la risposta....la devo un'attimo elaborare che ho iniziato da poco a usare script unix e linux..

cmq anche io ho letto che fgrep e comm sono più performanti..magari prima provo a vedere se

fgrep -vFf è più performante e poi provo a studiarmi la tua soluzione....


io per paralelizzare volevo splittare il file master in 4 file con spli t poi usare 4 grep -vf in parallelo per sfruttare ognuna un processore...

é possibile come cosa?il problema che i file splittati sono diversi ma il file di confronto è lo stesso.....cè un comando che possa paralelizzare le grep senz farli sequenziali del tippo :

grep -vf confronto.csv file1 >pulito1.csv
grep -vf confronto.csv file2 >pulito2.csv
grep -vf confronto.csv file3 >pulito3.csv
grep -vf confronto.csv file4 >pulito4sv

e pio unire i 4 file puliti in un unico file?ma senza fargli fare le grep una dopo l' altra ma tutte in parallelo?

Ultima modifica di francescopi : 10-06-2012 alle 20:12.
francescopi è offline   Rispondi citando il messaggio o parte di esso
Old 10-06-2012, 20:52   #4
Gimli[2BV!2B]
Senior Member
 
L'Avatar di Gimli[2BV!2B]
 
Iscritto dal: Feb 2006
Città: Parma
Messaggi: 3010
Lo script esegue esattamente N grep contemporaneamente (N è il terzo argomento).

Suddivide il fine di input in N parti, in RAM, quindi lancia N grep, salvando l'output in file temporanei.
Aspetta quindi che tutti i grep terminino, e da come output il contenuto degli N file temporanei rispettando l'ordine iniziale.
In uscita elimina i file temporanei.
__________________
~Breve riferimento ai comandi GNU/Linux (ormai non molto breve...)
Gimli[2BV!2B] è offline   Rispondi citando il messaggio o parte di esso
Old 10-06-2012, 23:34   #5
francescopi
Senior Member
 
Iscritto dal: Mar 2007
Messaggi: 471
Quote:
Originariamente inviato da Gimli[2BV!2B] Guarda i messaggi
Lo script esegue esattamente N grep contemporaneamente (N è il terzo argomento).

Suddivide il fine di input in N parti, in RAM, quindi lancia N grep, salvando l'output in file temporanei.
Aspetta quindi che tutti i grep terminino, e da come output il contenuto degli N file temporanei rispettando l'ordine iniziale.
In uscita elimina i file temporanei.

pensavo fosse piu semplicefare una split invece hai fatto uno script bello lungoi con tutte quelle variabili complimenti ..bisogna per froza usare variabili temporanee con la ram? non si può fare più snello?
cmq sgrep su red hat non cè e nemmeno fgrep cè solo grep -f che ci si avvicina mi sa....

ma multi.sh è il nome dello script che divide i file e laancia i grep in parallelo? quindi nel mio script devo richiamarlo?
francescopi è offline   Rispondi citando il messaggio o parte di esso
Old 10-06-2012, 23:46   #6
Gimli[2BV!2B]
Senior Member
 
L'Avatar di Gimli[2BV!2B]
 
Iscritto dal: Feb 2006
Città: Parma
Messaggi: 3010
Sì, io l'ho chiamato multi.sh, tu puoi dargli il nome che desideri.

L'alternativa più manuale, dividendo il file master.csv in più parti, è simile a quanto hai scritto:
Codice:
grep -vf confronto.csv file1 >pulito1.csv &
grep -vf confronto.csv file2 >pulito2.csv &
grep -vf confronto.csv file3 >pulito3.csv &
grep -vf confronto.csv file4 >pulito4.csv &
Aggiungendo l'& alla fine del comando questo rimarrà in esecuzione in secondo piano, ma dovrai poi controllare con fg o altro per capire se tutti saranno terminati.
Non dovrai nemmeno chiudere il terminale in cui hai lanciato l'esecuzione per non bloccare l'elaborazione, anche se non avrai riscontro visivo della sua esecuzione.
__________________
~Breve riferimento ai comandi GNU/Linux (ormai non molto breve...)
Gimli[2BV!2B] è offline   Rispondi citando il messaggio o parte di esso
Old 11-06-2012, 20:55   #7
francescopi
Senior Member
 
Iscritto dal: Mar 2007
Messaggi: 471
Quote:
Originariamente inviato da Gimli[2BV!2B] Guarda i messaggi
Sì, io l'ho chiamato multi.sh, tu puoi dargli il nome che desideri.

L'alternativa più manuale, dividendo il file master.csv in più parti, è simile a quanto hai scritto:
Codice:
grep -vf confronto.csv file1 >pulito1.csv &
grep -vf confronto.csv file2 >pulito2.csv &
grep -vf confronto.csv file3 >pulito3.csv &
grep -vf confronto.csv file4 >pulito4.csv &
Aggiungendo l'& alla fine del comando questo rimarrà in esecuzione in secondo piano, ma dovrai poi controllare con fg o altro per capire se tutti saranno terminati.
Non dovrai nemmeno chiudere il terminale in cui hai lanciato l'esecuzione per non bloccare l'elaborazione, anche se non avrai riscontro visivo della sua esecuzione.

ti ringrazio della cosa.....ma fg cosa fa? un mio amico che lavora ed è espeto di linux mi consigliava di fare un cilco infinito con while finchè tutte le grep non fossero finite e poi interromperlo con break....con fg è piu facile?
siccome le grep le dovrebbe eseguire uno scritp non è meglio

nohup grep1 &
nohup gep2 &

ecc ecc
?
Grazie sei gentilissimo e mi sa sei un guru di linux

Tu come controlleresti che le grep poi sono finite e assemblare i file puliti in un unico file?
francescopi è offline   Rispondi citando il messaggio o parte di esso
Old 11-06-2012, 21:13   #8
Gimli[2BV!2B]
Senior Member
 
L'Avatar di Gimli[2BV!2B]
 
Iscritto dal: Feb 2006
Città: Parma
Messaggi: 3010
Nello script ho usato un ciclo simile a quello che descrivi, in questo caso usando fg come "sentinella":
Codice:
# Attendi il termine di tutti i processi figli
while [ 1 ]; do fg >/dev/null 2>&1; [ $? == 1 ] && break; done
(Ho tolto uno sleep inutile, ora lo elimino anche dal post che lo contiene)

Versione semplificata:
Codice:
grep -vf confronto.csv master1.csv > pulito1.csv &
grep -vf confronto.csv master2.csv > pulito2.csv &
grep -vf confronto.csv master3.csv > pulito3.csv &
grep -vf confronto.csv master4.csv > pulito4.csv &

#ciclo di attesa termine grep
while [ 1 ]; do
  fg >/dev/null 2>&1
  [ $? == 1 ] && break
done

#unione output
#il primo crea il file
cat pulito1.csv > pulito.csv
#i seguenti aggiungono
cat pulito2.csv >> pulito.csv
cat pulito3.csv >> pulito.csv
cat pulito4.csv >> pulito.csv

#pulizie di primavera
rm pulito1.csv
rm pulito2.csv
rm pulito3.csv
rm pulito4.csv
__________________
~Breve riferimento ai comandi GNU/Linux (ormai non molto breve...)
Gimli[2BV!2B] è offline   Rispondi citando il messaggio o parte di esso
Old 11-06-2012, 21:27   #9
francescopi
Senior Member
 
Iscritto dal: Mar 2007
Messaggi: 471
Quote:
Originariamente inviato da Gimli[2BV!2B] Guarda i messaggi
Nello script ho usato un ciclo simile a quello che descrivi, in questo caso usando fg come "sentinella":
Codice:
# Attendi il termine di tutti i processi figli
while [ 1 ]; do fg >/dev/null 2>&1; [ $? == 1 ] && break; done
(Ho tolto uno sleep inutile, ora lo elimino anche dal post che lo contiene)

Versione semplificata:
Codice:
grep -vf confronto.csv master1.csv > pulito1.csv &
grep -vf confronto.csv master2.csv > pulito2.csv &
grep -vf confronto.csv master3.csv > pulito3.csv &
grep -vf confronto.csv master4.csv > pulito4.csv &

#ciclo di attesa termine grep
while [ 1 ]; do
  fg >/dev/null 2>&1
  [ $? == 1 ] && break
done

#unione output
#il primo crea il file
cat pulito1.csv > pulito.csv
#i seguenti aggiungono
cat pulito2.csv >> pulito.csv
cat pulito3.csv >> pulito.csv
cat pulito4.csv >> pulito.csv

#pulizie di primavera
rm pulito1.csv
rm pulito2.csv
rm pulito3.csv
rm pulito4.csv


grazie sei gentilissimo era un po l'idea che volevo fare..
volevo poerti altre questioni
1)considera che oggi ho fatto una prova con il file master da 20 mega e circa 200K record e il file di confronto di circa 3000 record una grep ha messo 1 ora ( troppo per me)
Quindi direi di parallelizzare in 3-4 grep anche se ho visto che la cpu dal 12% passa al 40% di lavoro e penso non crei problemi no?
Il mio amico mi indicava di usare sleep tu dici di no? se puta cosa una grep si impalla o il ciclo va infinito satura la cpu e blocca la macchina invece con uno sleep 1 magari ogni 1 minuto tenta la cosa e non manda la cpu al 100%...
Tu che dici?

2)

while [ 1 ]; do
fg >/dev/null 2>&1
[ $? == 1 ] && break
done

questo dice finche è true il whiel metti i processi in background sul path buco nero /dev/null 2 giusto?
ma >&1 invece cosa fa?
poi se l 'ultimo comando è ok interrompe il ciclo giusto? e si inizia a unire i file...

Grzie delle risposte esaurienti e pronte..devi avere proprio tanta passione su queste cose
francescopi è offline   Rispondi citando il messaggio o parte di esso
Old 11-06-2012, 22:04   #10
Gimli[2BV!2B]
Senior Member
 
L'Avatar di Gimli[2BV!2B]
 
Iscritto dal: Feb 2006
Città: Parma
Messaggi: 3010
Classico ciclo infinito
Codice:
while [ 1 ]; do
Esecuzione comando fg, foreground (con redirezione che serviva nello script iniziale, qui non è indispensabile)
  • Riporta in primo piano l'ultimo processo lanciato
  • fg termina quando finisce l'esecuzione del comando "agganciato"
  • Il valore che ritorna è il risultato dell'esecuzione del comando (n questo caso si assume che tutto vada liscio...)
  • 2>&1 redirige gli errori nello stdout, cioè gli output normali
  • >/dev/null fa sparire lo stdout nel nulla, unito alla redirezione precedente rende il comando "muto"
Codice:
  fg >/dev/null 2>&1
Condizione per interrompere ciclo
  • $? è il valore di ritorno del comando immediatamente precedente, se è pari ad 1 significa che fg (o anche il comando a cui si è agganciato) è terminato con errore
  • Se tutti i comandi terminano correttamente, fg termina con errore quando non ci sono più comandi figli in esecuzione
  • Se l'equivalenza è soddisfatta interrompi il ciclo con break
Codice:
  [ $? == 1 ] && break
done
A dirla tutta quell'esempio l'ho copiato paro paro cercando quel che mi serviva.
Una scrittura funzionalmente equivalente che esegue meno comandi, risultando quindi più elegante secondo i miei standard, è questa:
Codice:
while fg; do
  :;
done >/dev/null 2>&1
__________________
~Breve riferimento ai comandi GNU/Linux (ormai non molto breve...)
Gimli[2BV!2B] è offline   Rispondi citando il messaggio o parte di esso
Old 11-06-2012, 22:17   #11
francescopi
Senior Member
 
Iscritto dal: Mar 2007
Messaggi: 471
Quote:
Originariamente inviato da Gimli[2BV!2B] Guarda i messaggi
Classico ciclo infinito
Codice:
while [ 1 ]; do
Esecuzione comando fg, foreground (con redirezione che serviva nello script iniziale, qui non è indispensabile)
  • Riporta in primo piano l'ultimo processo lanciato
  • fg termina quando finisce l'esecuzione del comando "agganciato"
  • Il valore che ritorna è il risultato dell'esecuzione del comando (n questo caso si assume che tutto vada liscio...)
  • 2>&1 redirige gli errori nello stdout, cioè gli output normali
  • >/dev/null fa sparire lo stdout nel nulla, unito alla redirezione precedente rende il comando "muto"
Codice:
  fg >/dev/null 2>&1
Condizione per interrompere ciclo
  • $? è il valore di ritorno del comando immediatamente precedente, se è pari ad 1 significa che fg (o anche il comando a cui si è agganciato) è terminato con errore
  • Se tutti i comandi terminano correttamente, fg termina con errore quando non ci sono più comandi figli in esecuzione
  • Se l'equivalenza è soddisfatta interrompi il ciclo con break
Codice:
  [ $? == 1 ] && break
done
A dirla tutta quell'esempio l'ho copiato paro paro cercando quel che mi serviva.
Una scrittura funzionalmente equivalente che esegue meno comandi, risultando quindi più elegante secondo i miei standard, è questa:
Codice:
while fg; do
  :;
done >/dev/null 2>&1

cmq farò un po di prove quindi dici sleep non serve....
ma l'ultimo comando è proprio cosi :

fg; do
:;
done >/dev/null 2>&1

cioè in mezzo ha solo :; ? Non fa nulla?



Ultima cosa per dividere iol file in 4 volevo usare uno split
variabile=wc -l master.csv ( colo che l output èdel tipo 200000 master.csv)
variabile1=variabile:4

split -l variabile1 master.csv (crea 4 file xaa,xab.xac,xad)

Che dici si può fare?il codice non è proprio cosi ma va ottimizzato...
francescopi è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Intervista a Stop Killing Games: distruggere videogiochi è come bruciare la musica di Mozart Intervista a Stop Killing Games: distruggere vid...
Samsung Galaxy S25 Edge: il top di gamma ultrasottile e leggerissimo. La recensione Samsung Galaxy S25 Edge: il top di gamma ultraso...
HP Elitebook Ultra G1i 14 è il notebook compatto, potente e robusto HP Elitebook Ultra G1i 14 è il notebook c...
Microsoft Surface Pro 12 è il 2 in 1 più compatto e silenzioso Microsoft Surface Pro 12 è il 2 in 1 pi&u...
Recensione REDMAGIC Astra Gaming Tablet: che spettacolo di tablet! Recensione REDMAGIC Astra Gaming Tablet: che spe...
La Corea del Sud vorrebbe costruire una ...
Rilasciati i primi risultati delle anali...
Robot umanoidi low cost? Unitree ci prov...
Non solo Rocket Lab, anche Avio potrebbe...
Chips Act UE: 41,5 milioni di euro a Eph...
Ryzen Threadripper 9000 al debutto il 31...
Nuovi coupon nascosti Amazon (aggiorname...
Chatbot e salute mentale: nascono i prim...
Prezzi in ribasso su Amazon su tante com...
Eureka J15 Ultra spiazza la concorrenza ...
Stufi di tagliare il prato? Questi robot...
Anche Dyson si adegua: sconti fino a 200...
Mi sono rotto un dito, e le avventure gr...
Tutto vero: costa solo 899€ il portatile...
Lefant M330Pro da 5.000Pa a 104€ o i due...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 20:46.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v