Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza
Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza
Motorola edge 70 porta il concetto di smartphone ultrasottile su un terreno più concreto e accessibile: abbina uno spessore sotto i 6 mm a una batteria di capacità relativamente elevata, un display pOLED da 6,7 pollici e un comparto fotografico triplo da 50 MP. Non punta ai record di potenza, ma si configura come alternativa più pragmatica rispetto ai modelli sottili più costosi di Samsung e Apple
Display, mini PC, periferiche e networking: le novità ASUS al CES 2026
Display, mini PC, periferiche e networking: le novità ASUS al CES 2026
Sono molte le novità che ASUS ha scelto di presentare al CES 2026 di Las Vegas, partendo da una gamma di soluzioni NUC con varie opzioni di processore passando sino agli schermi gaming con tecnologia OLED. Il tutto senza dimenticare le periferiche di input della gamma ROG e le soluzioni legate alla connettività domestica
Le novità ASUS per il 2026 nel settore dei PC desktop
Le novità ASUS per il 2026 nel settore dei PC desktop
Molte le novità anticipate da ASUS per il 2026 al CES di Las Vegas: da schede madri per processori AMD Ryzen top di gamma a chassis e ventole, passando per i kit di raffreddamento all in one integrati sino a una nuova scheda video GeForce RTX 5090. In sottofondo il tema dell'intelligenza artificiale con una workstation molto potente per installazioni non in datacenter
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 29-06-2009, 22:03   #1
Unrue
Senior Member
 
L'Avatar di Unrue
 
Iscritto dal: Nov 2002
Messaggi: 6424
[C] Ottimizzazione spinta

Ciao ragazzi,
avrei bisogno di ultraottimizzare questo spezzone di codice:


Codice:
register float32 * punt;
register float32 sample_r,sample_i;

punt = &trdiff[4*i_idx1];

for(m = 0; m < *ntot; m++)
 for( k = 0; k < i_idx2-i_idx1+1 ; k++) {

          sample_r = *punt + up_interp* *(punt+1);
          sample_i = *(punt + 2) +up_interp* *(punt + 3);

          punt +=4;

          numm[ m][k].r += sample_r;
          numm[ m][k].i += sample_i;
          denom[m]      += sample_r * sample_r + sample_i * sample_i;
        }
Secondo voi si può migliorare utilizzando l'aritmetica dei puntatori o richiamando direttamenre istruzioni assembly?( denom e trdiff sono float32, numm è complex32)

Grazie

Ultima modifica di Unrue : 29-06-2009 alle 22:14.
Unrue è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 01:52   #2
Ikon O'Cluster
Registered User
 
Iscritto dal: May 2009
Messaggi: 300
Secondo me oltre un certo punto ogni ottimizzazione "sintattica" apporta vantaggi trascurabili... ad un certo punto bisogna considerare l'ottimizzazione "semantica". Ad esempio il tuo codice ha complessità O(N*M) dove:

N = max(*ntot)
M = max(i_idx2-i_idx1+1)

Puoi fare di meglio?

P.S.: Se vuoi ottimizzare (sintatticamente) al max devi avere una grande conoscenza del compilatore. Non so quale usi, ma cmq non sono espertissimo in questo campo. Prova a studiare le tecniche di ottimizzazione che usa il tuo compilatore e cerca di scrivere il codice che le sfrutti al meglio. Ma il gioco non vale la candela... almeno per la maggior parte delle applicazioni che riesco ad immaginare!
Ikon O'Cluster è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 08:50   #3
Unrue
Senior Member
 
L'Avatar di Unrue
 
Iscritto dal: Nov 2002
Messaggi: 6424
Ciao,
grazie per la risposta. Dunque, sto utilizzando il compilatore Intel. Diciamo che questa applicazione non dove girare su molte macchine ma più o meno sempre sulla stessa ( AMD Opteron)

Riguardo il tuo consiglio, purtroppo non posso eliminare il doppio ciclo.
Unrue è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 10:37   #4
Ikon O'Cluster
Registered User
 
Iscritto dal: May 2009
Messaggi: 300
Eh... su quello non avevo dubbi! Non intendevo eliminarlo, ma se per esempio da O(N*M) riesci a passare a O(N*log(M)) soprattutto se M >> N allora può essere conveniente... se poi quella è già la soluzione più efficiente pace! Cmq io penso che una ottimizzazione spinta del codice non ti permetta di guadagnare poi tanto... voglio esagerare e dico un 7% (sul tempo di esecuzione).
Ikon O'Cluster è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 10:40   #5
Ikon O'Cluster
Registered User
 
Iscritto dal: May 2009
Messaggi: 300
Ma forse ho esagerato troppo...
Ikon O'Cluster è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 12:37   #6
^TiGeRShArK^
Senior Member
 
L'Avatar di ^TiGeRShArK^
 
Iscritto dal: Jul 2002
Città: Reggio Calabria -> London
Messaggi: 12112
se hai + di un core a disposizione sulla tua macchina puoi usare i thread, altrimenti credo che la cosa migliore sarebbe ottimizzare l'algoritmo come ha già detto ikon'cluster....
cmq è una matrice completa?
o magari è sparsa o diagonale?
Negli ultimi due casi dovresti poter guadagnare molto a livello algoritmico.....
__________________
^TiGeRShArK^ è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 12:59   #7
Tommo
Senior Member
 
L'Avatar di Tommo
 
Iscritto dal: Feb 2006
Messaggi: 1304
Dato che lo stride di punt è 4 elementi, dovrebbe essere possibile usare le SIMD... forse

Oppure potresti spezzare il for interno su tutti i cores con threads che lo eseguirebbero più o meno parallelamente.

L'unica ottimizzazione che mi viene in mente in quel codice è salvarsi i_idx2-i_idx1+1 invece che ricalcolarlo N*M volte... ed anche usare ++k e ++m invece che k++ e m++... dovrebbe risparmiare un paio di istruzioni asm.
__________________
*ToMmO*

devlog | twitter
Tommo è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 13:21   #8
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
Quote:
Originariamente inviato da Tommo Guarda i messaggi
ed anche usare ++k e ++m invece che k++ e m++... dovrebbe risparmiare un paio di istruzioni asm.
[OT]Il preincremento è più "economico" del postincremento in termini di assembly? Nel senso, lo è sempre? Non conosco niente di assembly...[/OT]
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 13:59   #9
^TiGeRShArK^
Senior Member
 
L'Avatar di ^TiGeRShArK^
 
Iscritto dal: Jul 2002
Città: Reggio Calabria -> London
Messaggi: 12112
con i compilatori moderni utilizzare a++ o ++a dovrebbe essere la stessa cosa.
Anche il fatto di salvarsi la sottrazione in una variabile locale *dovrebbe* essere già fatto dal compilatore...
__________________
^TiGeRShArK^ è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 14:15   #10
Tommo
Senior Member
 
L'Avatar di Tommo
 
Iscritto dal: Feb 2006
Messaggi: 1304
Quote:
Originariamente inviato da banryu79 Guarda i messaggi
[OT]Il preincremento è più "economico" del postincremento in termini di assembly? Nel senso, lo è sempre? Non conosco niente di assembly...[/OT]
teoricamente (da quello che mi hanno detto) il posticremento prende il valore dell'espressione ci aggiunge 1 e lo rimette al suo posto... invece il preincremento aggiunge direttamente 1 al valore.

quindi si dovrebbe risparmiare una creazione ed un'assegnazione.
Ma non so niente di assembly
Cmq io lo uso sempre perchè non costa niente, se funziona meglio

In ogni caso il compilatore *dovrebbe* farle da solo ste cose, ma dato che qua si parla di ottimizzazione massima il *dovrebbe* non è ammesso...
__________________
*ToMmO*

devlog | twitter

Ultima modifica di Tommo : 30-06-2009 alle 14:17.
Tommo è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 14:48   #11
Ikon O'Cluster
Registered User
 
Iscritto dal: May 2009
Messaggi: 300
Quote:
Originariamente inviato da ^TiGeRShArK^ Guarda i messaggi
se hai + di un core a disposizione sulla tua macchina puoi usare i thread, altrimenti credo che la cosa migliore sarebbe ottimizzare l'algoritmo come ha già detto ikon'cluster....
cmq è una matrice completa?
o magari è sparsa o diagonale?
Negli ultimi due casi dovresti poter guadagnare molto a livello algoritmico.....
C'è da dire che ottimizzare in sè x sè non dice niente... bisogna sapere se uno ha vincoli stretti su memoria o processore e in quale proporzione...
Ikon O'Cluster è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 14:57   #12
Unrue
Senior Member
 
L'Avatar di Unrue
 
Iscritto dal: Nov 2002
Messaggi: 6424
Quote:
Originariamente inviato da Ikon O'Cluster Guarda i messaggi
C'è da dire che ottimizzare in sè x sè non dice niente... bisogna sapere se uno ha vincoli stretti su memoria o processore e in quale proporzione...
Intendo ottimizzare il tempo di esecuzione.
Unrue è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 15:18   #13
wingman87
Senior Member
 
Iscritto dal: Nov 2005
Messaggi: 2782
Potresti anche salvare il valore di *ntot in una variabile per evitare la dereferenziazione, risparmieresti un accesso alla memoria. Ma temo che tutte le ottimizzazioni che stiamo proponendo siano già attuate dal compilatore...
wingman87 è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 16:06   #14
cionci
Senior Member
 
L'Avatar di cionci
 
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
Allora...io proverei così:

sample_r = A + K * B;
sample_i = C + K * D;

Quindi

denom[m] += A^2 + K^2*B^2 + AKB + C^2 + K^2*D^2 + CKB

N = i_idx2 - i_idx1

denom[m] = somma per K che va da 0 a N(A^2 + K^2*B^2 + AKB + C^2 + K^2*D^2 + CKB) = NA^2 + NC^2 + (B^2 + D^2)*somma(K^2) + (AB + CD)*somma(K)

somma(K) = (N*(N+1))/2
somma(K^2) = N(N+1)(2N+1)/6

Da numm[m][k] ci passi solo una volta, cosa c'è prima dentro la struct ?
cionci è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 16:29   #15
Unrue
Senior Member
 
L'Avatar di Unrue
 
Iscritto dal: Nov 2002
Messaggi: 6424
Quote:
Originariamente inviato da cionci Guarda i messaggi
Allora...io proverei così:

sample_r = A + K * B;
sample_i = C + K * D;

Quindi

denom[m] += A^2 + K^2*B^2 + AKB + C^2 + K^2*D^2 + CKB

N = i_idx2 - i_idx1

denom[m] = somma per K che va da 0 a N(A^2 + K^2*B^2 + AKB + C^2 + K^2*D^2 + CKB) = NA^2 + NC^2 + (B^2 + D^2)*somma(K^2) + (AB + CD)*somma(K)

somma(K) = (N*(N+1))/2
somma(K^2) = N(N+1)(2N+1)/6

Da numm[m][k] ci passi solo una volta, cosa c'è prima dentro la struct ?
Ciao cionci. In numm[m][k] non c'è nulla prima, sono inizializzate a 0.0.

Ultima modifica di Unrue : 30-06-2009 alle 16:34.
Unrue è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 16:32   #16
cionci
Senior Member
 
L'Avatar di cionci
 
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
Aspetta, non avevo visto che punt viene incrementato di 4...cancella tutto quello che ho scritto
cionci è offline   Rispondi citando il messaggio o parte di esso
Old 30-06-2009, 19:40   #17
Ikon O'Cluster
Registered User
 
Iscritto dal: May 2009
Messaggi: 300
Quote:
Originariamente inviato da cionci Guarda i messaggi
Aspetta, non avevo visto che punt viene incrementato di 4...cancella tutto quello che ho scritto
AUAUHAUHAUH Grandissima sola...
Ikon O'Cluster è offline   Rispondi citando il messaggio o parte di esso
Old 01-07-2009, 20:53   #18
fracarro
Senior Member
 
L'Avatar di fracarro
 
Iscritto dal: Jul 2002
Messaggi: 869
Quote:
Originariamente inviato da Unrue Guarda i messaggi
Intendo ottimizzare il tempo di esecuzione.
Potresti provare a compilare con il gcc insieme all'opzione -O3 e vedere come va l'eseguibile rispetto a quello compilato con l'intel.
Da quello che ho letto in giro il compilatore intel dovrebbe generare codici più performanti a patto di compilare con i flag giusti che sfruttano l'architettura. Fai il confronto tra i due eseguibili e se va meglio quello prodotto dal gcc allora forse devi usare qualche altro flag sul compilatore intel.

P.S. Anche se sono poche righe di codice, potresti analizzarle sfruttando il valgrind come profiler e il kcachegrind per vedere ogni istruzione e ogni ciclo quando tempo di cpu impiega (è il modo migliore per trovare i colli di bottiglia).
__________________
Notebook: MBP 15 i7 Retina, (Mid 2014)
fracarro è offline   Rispondi citando il messaggio o parte di esso
Old 01-07-2009, 21:30   #19
Ikon O'Cluster
Registered User
 
Iscritto dal: May 2009
Messaggi: 300
fracarro x esempio è uno furbo...
Ikon O'Cluster è offline   Rispondi citando il messaggio o parte di esso
Old 02-07-2009, 09:25   #20
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
Magari può interessarti Acovea
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza Motorola edge 70: lo smartphone ultrasottile che...
Display, mini PC, periferiche e networking: le novità ASUS al CES 2026 Display, mini PC, periferiche e networking: le n...
Le novità ASUS per il 2026 nel settore dei PC desktop Le novità ASUS per il 2026 nel settore de...
Le novità MSI del 2026 per i videogiocatori Le novità MSI del 2026 per i videogiocato...
I nuovi schermi QD-OLED di quinta generazione di MSI, per i gamers I nuovi schermi QD-OLED di quinta generazione di...
Il tasso di adozione di iOS 26 è ...
Inserire link in un documento Word diven...
Auto svuotamento, senza sacchetti: ECOVA...
Torna a soli 499€ Dreame L40 Ultra AE, 1...
Il nuovo Snapdragon 8 Elite Gen 6 sar&ag...
Nintendo Switch 2: risultati sotto le at...
Weekend con tante sorprese su Amazon: to...
HONOR non si ferma più: il 2025 &...
Speciale best seller: EUREKA J15 Evo Ult...
Roborock Q10 X5+ da 10.000 Pa a 199€ &eg...
E-mail reset password di Instagram: la c...
La NASA ha discusso le problematiche del...
Il razzo spaziale NASA SLS e la capsula ...
Stazione Spaziale Internazionale: Crew-1...
Samsung Galaxy S26 Ultra: la ricarica de...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 08:19.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v