Compilatore Intel e disparità di trattamento verso processori AMD/VIA - Pagina 9

Vash_85 · 10-02-2010, 10:13

Ma su intel hai usato le sse4.1 mentre su amd le sse3...

Prova a fare i test con sse3 per entrambi

Life bringer · 10-02-2010, 11:15

Quote:

Originariamente inviato da Vash_85

Ma su intel hai usato le sse4.1 mentre su amd le sse3...

Prova a fare i test con sse3 per entrambi

Chissà perchè mi aspettavo questa uscita (che sembra un po' un'entrata siamo sinceri), ho ripetuto il test anche con le sse3, l'ho integrato proprio un paio di ore fa

sguerad · 10-02-2010, 11:30

non si possono fare confronti a prescindere dal costo delle cpu (imho). siccome le architetture sono molto diverse bisognerebbe quantomeno avere l'onestà intellettuale di dire questa va meglio su questi test ma costa il doppio..

Pihippo · 10-02-2010, 12:35

Quote:

Originariamente inviato da Life bringer

Ecco qui, ho eseguito il test con il programma indicato dal buon blackshard, in breve i risultati da me ottenuti credo non siano in linea con i suoi...

Macchina intel:
Cpu: C2D E8500 @ default (3.160 mhz)
MB: Asus P5Q-E
Ram: 4gb a 800mhz (native 1066)

Macchina amd:
Cpu: Phenom 2 x2 555 C3 (3.200 mhz)
MB: AsRock AOD790GX-128M
Ram: 8gb a 800mhz

Informazioni sparse: il test è stato condotto su windows 7 home premium a 64bit e in ambo i computer c'è il sistema di risparmio dell'energia (quindi speed step & cnq) attivi.

Istruzioni supportate (secondo il programma)

cpu Intel:
x64, 64-bit OS, MMX, SSE, SSE2, SSE3, SSE4.1
Version: x64 SSE4.1 ~ Nagisa

cpu Amd:
x64, 64-bit OS, MMX, SSE, SSE2, SSE3, SSE4a
Version: x64 SSE3 ~ Kasumi

Risultato single-threaded (hotkey 0-0-4)

Intel
Summing Series: 17,628,420 terms
Time: 461.947 seconds ( 0.128 hours )
InvSqrt...
Time: 16.118 seconds ( 0.004 hours )
Final Multiply...
Time: 9.793 seconds ( 0.003 hours )

Pi: 487.865 seconds ( 0.136 hours )

Constructing Base Conversion Table:
Time: 23.538 seconds ( 0.007 hours )
Base Converting (Primary Cutting Parameters):
Time: 116.615 seconds ( 0.032 hours )

Total Computation Time: 628.071 seconds ( 0.174 hours )
Total Time (including writing digits): 634.113 seconds ( 0.176 hours )

CPU Utilization: 99.8293 %
Multi-core Efficiency: 49.9147 %

Version: 0.4.4 Build 7762b (fix 2) (x64 SSE4.1 - Windows ~ Nagisa)
Processor(s): Intel(R) Core(TM)2 Duo CPU E8500 @ 3.16GHz
CPU Frequency: 3,172,597,855 Hz (frequency may be inaccurate)
Thread(s): 1
Digits: 250,000,000
Total Time: 628.071 seconds
Checksum: f2f98e1714f710001192b2ac31d0301c

Amd
Summing Series: 17,628,420 terms
Time: 500.580 seconds ( 0.139 hours )
InvSqrt...
Time: 16.941 seconds ( 0.005 hours )
Final Multiply...
Time: 10.513 seconds ( 0.003 hours )

Pi: 528.039 seconds ( 0.147 hours )

Constructing Base Conversion Table:
Time: 23.789 seconds ( 0.007 hours )
Base Converting (Primary Cutting Parameters):
Time: 124.609 seconds ( 0.035 hours )

Total Computation Time: 676.479 seconds ( 0.188 hours )
Total Time (including writing digits): 684.359 seconds ( 0.190 hours )

CPU Utilization: 99.8944 %
Multi-core Efficiency: 49.9472 %

Version: 0.4.4 Build 7762b (fix 2) (x64 SSE3 - Windows ~ Kasumi)
Processor(s): AMD Phenom(tm) II X2 555 Processor
CPU Frequency: 3,193,122,607 Hz (frequency may be inaccurate)
Thread(s): 1
Digits: 250,000,000
Total Time: 676.479 seconds
Checksum: 43c8a9c6d855145a1002e4f71d7048df

Risultato multi-threaded (hotkey 0-1-4)
Intel
Summing Series: 17,628,420 terms
Time: 241.596 seconds ( 0.067 hours )
InvSqrt...
Time: 8.988 seconds ( 0.002 hours )
Final Multiply...
Time: 5.381 seconds ( 0.001 hours )

Pi: 255.971 seconds ( 0.071 hours )

Constructing Base Conversion Table:
Time: 12.822 seconds ( 0.004 hours )
Base Converting (Primary Cutting Parameters):
Time: 61.977 seconds ( 0.017 hours )

Total Computation Time: 330.824 seconds ( 0.092 hours )
Total Time (including writing digits): 336.598 seconds ( 0.093 hours )

CPU Utilization: 196.52 %
Multi-core Efficiency: 98.2598 %

Version: 0.4.4 Build 7762b (fix 2) (x64 SSE4.1 - Windows ~ Nagisa)
Processor(s): Intel(R) Core(TM)2 Duo CPU E8500 @ 3.16GHz
CPU Frequency: 3,172,566,064 Hz (frequency may be inaccurate)
Thread(s): 2
Digits: 250,000,000
Total Time: 330.824 seconds
Checksum: b122d055435b445d17ba8a2a1fbf3804

Amd
Summing Series: 17,628,420 terms
Time: 256.140 seconds ( 0.071 hours )
InvSqrt...
Time: 9.045 seconds ( 0.003 hours )
Final Multiply...
Time: 5.365 seconds ( 0.001 hours )

Pi: 270.555 seconds ( 0.075 hours )

Constructing Base Conversion Table:
Time: 12.717 seconds ( 0.004 hours )
Base Converting (Primary Cutting Parameters):
Time: 64.698 seconds ( 0.018 hours )

Total Computation Time: 348.012 seconds ( 0.097 hours )
Total Time (including writing digits): 355.848 seconds ( 0.099 hours )

CPU Utilization: 195.99 %
Multi-core Efficiency: 97.9948 %

Version: 0.4.4 Build 7762b (fix 2) (x64 SSE3 - Windows ~ Kasumi)
Processor(s): AMD Phenom(tm) II X2 555 Processor
CPU Frequency: 3,193,135,407 Hz (frequency may be inaccurate)
Thread(s): 2
Digits: 250,000,000
Total Time: 348.012 seconds
Checksum: 64831f42424379a10be84b3cd31463b6

Insulti, commenti, proposte indecenti:
Personalmente, mi aspettavo una situazione di vantaggio per quanto riguarda la cpu amd, calcolando che con le ram a 1066 (per intel) il vantaggio era più ampio, c'è da dire però che ritengo l'architettura intel migliore per questo genere di calcoli, in virtù della cache di secondo livello più grande. La differenza di tempi per quanto riguarda il test su singolo core è di 50,246 secondi a vantaggio della cpu blu, passando al test multi, il vantaggio si riduce in modo più che proporzionale, ovverso cala a "soli" 20 secondi circa (qualcosa meno) per quanto riguarda questo test direi proprio che... intel inside amd outsider

Integrazione:
Facendo girare l'eseguibile con sse3 sulla macchina intel i tempi in single threaded sono questi:
Total Computation Time: 635.409 seconds ( 0.177 hours )
Total Time (including writing digits): 641.309 seconds ( 0.178 hours )

Ciao
Molto interessante questo test.
Potresti postare il test con ram ad 800mhz ed timing eguali per ambedue le piattaforme? In questo modo si potrebbe capire quanto incida la ram nella computazione del Pi.
Grazie.
Edit:
Siccome nella macchina amd hai anche 8gb di ram prova a rimuovere 2 banchi, in modo da avere 4 gb per ognuna ed a settare l'MHC su ganged.

Vash_85 · 10-02-2010, 12:39

Quote:

Originariamente inviato da Life bringer

Chissà perchè mi aspettavo questa uscita (che sembra un po' un'entrata siamo sinceri), ho ripetuto il test anche con le sse3, l'ho integrato proprio un paio di ore fa

bravo

adesso metti le ram alla stessa frequenza ed integra

Life bringer · 10-02-2010, 12:48

Quote:

Originariamente inviato da Vash_85

bravo

adesso metti le ram alla stessa frequenza ed integra

Veramente ho scritto che erano entrambe a 800

Macchina intel:
Cpu: C2D E8500 @ default (3.160 mhz)
MB: Asus P5Q-E
Ram: 4gb a 800mhz (native 1066)

Macchina amd:
Cpu: Phenom 2 x2 555 C3 (3.200 mhz)
MB: AsRock AOD790GX-128M
Ram: 8gb a 800mhz

Non pensavo di essere capitato in un topic di fanboy amd :\

Pihippo · 10-02-2010, 13:03

Quote:

Originariamente inviato da Life bringer

Veramente ho scritto che erano entrambe a 800

Macchina intel:
Cpu: C2D E8500 @ default (3.160 mhz)
MB: Asus P5Q-E
Ram: 4gb a 800mhz (native 1066)

Macchina amd:
Cpu: Phenom 2 x2 555 C3 (3.200 mhz)
MB: AsRock AOD790GX-128M
Ram: 8gb a 800mhz

Non pensavo di essere capitato in un topic di fanboy amd :\

Ciao
Scusami
Letto male io.
Comunque Windows vista 32bit:
Single threaded. Ram 800mhz 5-5-5-15-20
y-cruncher v0.4.4 Build 7762b (fix 2)

Detecting Hardware...

x64 = Yes
64-bit OS = No
MMX = Yes
SSE = Yes
SSE2 = Yes
SSE3 = Yes
SSSE3 = No
SSE4a = Yes
SSE4.1 = No
SSE4.2 = No
AVX = No
FMA = No

Version: x86 SSE3

A 32-bit OS has been detected on an x64 SSE3 capable processor.
To achieve maximum performance, you must run a 64-bit OS.
Defaulting to fastest supported x86 binary...

Premere un tasto per continuare . . .

Launching y-cruncher...
================================================================

y-cruncher v0.4.4 Build 7762b (fix 2) ( www.numberworld.org )
Copyright 2008-2009 Alexander J. Yee ( a-yee@northwestern.edu )

Distribute Freely - Please Report any Bugs

Version: x86 SSE3 - Windows

0 Benchmark Pi
1 Batch Benchmark Pi (run multiple benchmarks)
2 Stress Test (beta)

3 Custom Compute a Constant
- Compute other constants (e, Golden Ratio, etc...)
- Choose your own settings

4 Digit Viewer (view digits from .txt and .ycd files)
5 Compare Digits (compare digits from different runs)
6 Advanced Options

7 About
8 A Word of Warning...

Enter your choice:
option: 0

Benchmark Pi:

Select a Benchmark Type:

0 Single-Threaded
1 Multi-Threaded

option: 0

Select a Benchmark Size:

Option Decimal Digits Approx. Memory Needed

1 25,000,000 130 MB
2 50,000,000 260 MB
3 100,000,000 456 MB
4 250,000,000 1.19 GB

0 I prefer SuperPi sizes... (1M, 2M, 4M...)

option: 4

Constant : Pi
Algorithm: Chudnovsky Formula

Decimal Digits : 250,000,000
Hexadecimal Digits: Disabled

Threads: 1
Mode : Ram Only

Start Time: Wed Feb 10 13:42:24 2010

Allocating and Reserving Memory... 1.19 GB
Constructing FFT lookup tables...

Begin Computation:

Summing Series: 17,628,420 terms
Time: 764.643 seconds ( 0.212 hours )
InvSqrt...
Time: 27.274 seconds ( 0.008 hours )
Final Multiply...
Time: 16.500 seconds ( 0.005 hours )

Pi: 808.430 seconds ( 0.225 hours )

Constructing Base Conversion Table:
Time: 38.856 seconds ( 0.011 hours )
Base Converting (Primary Cutting Parameters):
Time: 200.878 seconds ( 0.056 hours )

Writing Decimal Digits: 250,000,001 digits written

End Time: Wed Feb 10 13:59:59 2010

Total Computation Time: 1048.222 seconds ( 0.291 hours )
Total Time (including writing digits): 1054.269 seconds ( 0.293 hours )

CPU Utilization: 99.8835 %
Multi-core Efficiency: 24.9709 %

Last Digits:
3673748634 2742427296 0219667627 3141599893 4569474921 : 249,999,950
9958866734 1705167068 8515785208 0067520395 3452027780 : 250,000,000

Benchmark Successful. The digits appear to be OK.

Version: 0.4.4 Build 7762b (fix 2) (x86 SSE3 - Windows)
Processor(s): AMD Phenom(tm) II X4 810 Processor
CPU Frequency: 3,120,190,891 Hz (frequency may be inaccurate)
Thread(s): 1
Digits: 250,000,000
Total Time: 1048.22 seconds
Checksum: a87ce2f2b08a70990b8894239093e6b8

Premere un tasto per continuare . . .

Life bringer · 10-02-2010, 13:23

Fra quelli proposti il prossimo test che farò sarà con la modalità ganged invece che unganged, quando ho fatto la prova della banda passante notai che quella modalità permetteva valori superiori in lettura ma inferiori in scrittura, per quanto riguarda il togliere 2 banchi di ram mi sembra sinceramente ininfluente, comunque stamane ho anche mandato un pm a bjt2 chiedendogli di passare quando avesse tempo per dare il suo parere, che per quanto mi riguarda considero autorevole e sempre interessante, se dirà che in effetti 4 banchi invece di 2 possono influenzare il test in modo sensibile farò anche quella prova.

blackshard · 10-02-2010, 13:27

Quote:

Originariamente inviato da chinook

Ma io ho sempre letto che il test Pi è considerato una va***ta...
Come dici tu tra l'altro è molto dipendente dalla cache e dalla ram.

Super-Pi è un test sintetico molto favorevole ad Intel, oltre ad essere single-threaded, ergo non si può considerarlo come indicativo delle prestazioni di una macchina/processore.

Vash_85 · 10-02-2010, 13:41

Quote:

Originariamente inviato da Life bringer

Veramente ho scritto che erano entrambe a 800

Macchina intel:
Cpu: C2D E8500 @ default (3.160 mhz)
MB: Asus P5Q-E
Ram: 4gb a 800mhz (native 1066)

Macchina amd:
Cpu: Phenom 2 x2 555 C3 (3.200 mhz)
MB: AsRock AOD790GX-128M
Ram: 8gb a 800mhz

Non pensavo di essere capitato in un topic di fanboy amd :\

Sai come è, ultimamente i fanboy intel non sono simpatici a nessuno

bjt2 · 10-02-2010, 13:45

Quote:

Originariamente inviato da Life bringer

Fra quelli proposti il prossimo test che farò sarà con la modalità ganged invece che unganged, quando ho fatto la prova della banda passante notai che quella modalità permetteva valori superiori in lettura ma inferiori in scrittura, per quanto riguarda il togliere 2 banchi di ram mi sembra sinceramente ininfluente, comunque stamane ho anche mandato un pm a bjt2 chiedendogli di passare quando avesse tempo per dare il suo parere, che per quanto mi riguarda considero autorevole e sempre interessante, se dirà che in effetti 4 banchi invece di 2 possono influenzare il test in modo sensibile farò anche quella prova.

4 banchi su un sistema AMD potrebbero dare un leggero vantaggio...

Per quanto riguarda i risultati del test: mi aspettavo che il core 2 fosse leggermente più veloce a parità di clock... Ma i Phenom esistono (a stock) a frequenze più elevate... E poi sarebbe interessante fare un confronto con le DDR3 (che dovrebbero favorire AMD che ha il controller integrato)...

blackshard · 10-02-2010, 13:47

Quote:

Originariamente inviato da Life bringer

Ecco qui, ho eseguito il test con il programma indicato dal buon blackshard, in breve i risultati da me ottenuti credo non siano in linea con i suoi...

[...cut...]

Integrazione:
Facendo girare l'eseguibile con sse3 sulla macchina intel i tempi in single threaded sono questi:
Total Computation Time: 635.409 seconds ( 0.177 hours )
Total Time (including writing digits): 641.309 seconds ( 0.178 hours )

Molto molto interessante, grazie per i test.
Dunque, i test che sono stati fatti sul forum di notebookreview riguardavano un Turion II X2 M520 (cache L2 da 512kb per core, no cache L3, frequenza 2.3 Ghz) e un Intel Core2 Duo T6600 (cache L2 da 2 Mb, no cache L3, frequenza 2.2 Ghz).
Grossomodo c'era una equivalenza fra i risultati dei due processori, con un leggero vantaggio per gli AMD per via del clock. Per Intel stiamo comunque parlando di una CPU con 2 Mb di cache L2, e non avendo il memory controller integrato questo è abbastanza penalizzante. Comunque il test era stato fatto su 25 milioni di decimali.
Ovviamente ci sono delle piccole differenze dovute alla configurazione specifica del computer, però grossomodo la computazione veniva completata in circa 35 secondi, similmente ad un P8400 che ha una frequenza di 2.26 Ghz ma cache L2 da 3 Mb, quindi più o meno siamo lì con i risultati del test che hai postato tu.

Direi che, dal punto di vista delle unità esecutive, del controller della memoria e della cache abbiamo un quasi completo pareggio fra Core 2 e i Phenom II, almeno per ciò che riguardano le prestazioni sintetiche.
E' interessante notare che nel multicore abbiamo una differenza di prestazioni (a parità di clock sostanzialmente) del 5% a favore del top di gamma Intel.

Se si osservano molti benchmark sintetici commerciali i risultati sono molto diversi e solitamente i processori AMD compaiono da poco a molto indietro rispetto ai corrispettivi Intel, e questo non è chiaro da cosa derivi, o meglio, lo si può ben immaginare!

blackshard · 10-02-2010, 13:52

Quote:

Originariamente inviato da Life bringer

Fra quelli proposti il prossimo test che farò sarà con la modalità ganged invece che unganged, quando ho fatto la prova della banda passante notai che quella modalità permetteva valori superiori in lettura ma inferiori in scrittura, per quanto riguarda il togliere 2 banchi di ram mi sembra sinceramente ininfluente, comunque stamane ho anche mandato un pm a bjt2 chiedendogli di passare quando avesse tempo per dare il suo parere, che per quanto mi riguarda considero autorevole e sempre interessante, se dirà che in effetti 4 banchi invece di 2 possono influenzare il test in modo sensibile farò anche quella prova.

La modalità ganged nella pratica gestisce il doppio controller della memoria come se fosse un'unico controller con un bus da 128 bit, mentre la modalità unganged lo usa come appunto un doppio controller a 64 bit.
Nel caso di workload di tipo streamed (tipo questo test sintetico) credo che la modalità ganged sia più efficace di quella unganged. Non resta che provare!

capitan_crasy · 10-02-2010, 14:00

Posto i miei risultati tanto per avere dei dati:

Test single Core opzione 4

Test Multi core opzione 4

La cosa strana però è che nel test in single core il programma non utilizzava il 100% di un solo core ma una media del 50%/25%/25% per i tre core...

Pihippo · 10-02-2010, 14:11

Questa volta in multithread:

y-cruncher v0.4.4 Build 7762b (fix 2)

Detecting Hardware...

x64 = Yes
64-bit OS = No
MMX = Yes
SSE = Yes
SSE2 = Yes
SSE3 = Yes
SSSE3 = No
SSE4a = Yes
SSE4.1 = No
SSE4.2 = No
AVX = No
FMA = No

Version: x86 SSE3

A 32-bit OS has been detected on an x64 SSE3 capable processor.
To achieve maximum performance, you must run a 64-bit OS.
Defaulting to fastest supported x86 binary...

Premere un tasto per continuare . . .

Launching y-cruncher...
================================================================

y-cruncher v0.4.4 Build 7762b (fix 2) ( www.numberworld.org )
Copyright 2008-2009 Alexander J. Yee ( a-yee@northwestern.edu )

Distribute Freely - Please Report any Bugs

Version: x86 SSE3 - Windows

0 Benchmark Pi
1 Batch Benchmark Pi (run multiple benchmarks)
2 Stress Test (beta)

3 Custom Compute a Constant
- Compute other constants (e, Golden Ratio, etc...)
- Choose your own settings

4 Digit Viewer (view digits from .txt and .ycd files)
5 Compare Digits (compare digits from different runs)
6 Advanced Options

7 About
8 A Word of Warning...

Enter your choice:
option: 0

Benchmark Pi:

Select a Benchmark Type:

0 Single-Threaded
1 Multi-Threaded

option: 1

Select a Benchmark Size:

Option Decimal Digits Approx. Memory Needed

1 25,000,000 139 MB
2 50,000,000 262 MB
3 100,000,000 458 MB
4 250,000,000 1.20 GB

0 I prefer SuperPi sizes... (1M, 2M, 4M...)

option: 4

Constant : Pi
Algorithm: Chudnovsky Formula

Decimal Digits : 250,000,000
Hexadecimal Digits: Disabled

Threads: 4
Mode : Ram Only

Start Time: Wed Feb 10 14:04:46 2010

Allocating and Reserving Memory... 1.20 GB
Constructing FFT lookup tables...

Begin Computation:

Summing Series: 17,628,420 terms
Time: 193.981 seconds ( 0.054 hours )
InvSqrt...
Time: 7.856 seconds ( 0.002 hours )
Final Multiply...
Time: 4.269 seconds ( 0.001 hours )

Pi: 206.113 seconds ( 0.057 hours )

Constructing Base Conversion Table:
Time: 11.067 seconds ( 0.003 hours )
Base Converting (Primary Cutting Parameters):
Time: 50.880 seconds ( 0.014 hours )

Writing Decimal Digits: 250,000,001 digits written

End Time: Wed Feb 10 14:09:20 2010

Total Computation Time: 268.105 seconds ( 0.074 hours )
Total Time (including writing digits): 274.021 seconds ( 0.076 hours )

CPU Utilization: 383.1 %
Multi-core Efficiency: 95.7749 %

Last Digits:
3673748634 2742427296 0219667627 3141599893 4569474921 : 249,999,950
9958866734 1705167068 8515785208 0067520395 3452027780 : 250,000,000

Benchmark Successful. The digits appear to be OK.

Version: 0.4.4 Build 7762b (fix 2) (x86 SSE3 - Windows)
Processor(s): AMD Phenom(tm) II X4 810 Processor
CPU Frequency: 3,120,194,056 Hz (frequency may be inaccurate)
Thread(s): 4
Digits: 250,000,000
Total Time: 268.105 seconds
Checksum: 51d7d38531e2507112e6390dbfee2c01

Premere un tasto per continuare . . .

Pihippo · 10-02-2010, 14:17

Quote:

Originariamente inviato da blackshard

La modalità ganged nella pratica gestisce il doppio controller della memoria come se fosse un'unico controller con un bus da 128 bit, mentre la modalità unganged lo usa come appunto un doppio controller a 64 bit.
Nel caso di workload di tipo streamed (tipo questo test sintetico) credo che la modalità ganged sia più efficace di quella unganged. Non resta che provare!

Ciao
Infatti, avevo proposto pure io di effettuare il test in ganged.
Aggiungiamoci il fatto che comunque le differenze potrebbero essere minime in quanto i k10 integrano a livello del MHC un prefetcher specifico che salva i dati in un buffer all'interno del MHC, quindi mitigando di molto penalità dall'utilizzo di un singolo controller di mem in accessi di memoria asincroni, ad ex core 1 che legge core 2 che scrive

Life bringer · 10-02-2010, 14:54

Eccomi, vado un po' di fretta perchè devo uscire, settaggi identici a quelli di stamane (ho solo cambiato la voce da unganged a ganged nel bios):

Single:
Total Computation Time: 678.477 seconds ( 0.188 hours )
Total Time (including writing digits): 686.335 seconds ( 0.191 hours )

Multi:
Total Computation Time: 348.605 seconds ( 0.097 hours )
Total Time (including writing digits): 356.461 seconds ( 0.099 hours )

Sembra migliore la modalità unganged. Anche se parliamo di pochi secondi.

La perplessità nasce dal fatto che in multi il divario fra amd e intel sembra assottigliarsi, mentre in teoria dovrebbe essere opposto il comportamento.

Comunque si tratta sempre di un bench sintetico, imho la prova del fuoco sarà il pts, che, per inciso, mi aspetto veda amd in testa...

Edit: confermo il comportamento sottolineato dal capitano, in single tende a usare i core al 50% (dual core), invece che 1 core al 100% ho riscontrato questa cosa sia con intel che con amd.

blackshard · 10-02-2010, 15:08

Quote:

Originariamente inviato da Life bringer

Eccomi, vado un po' di fretta perchè devo uscire, settaggi identici a quelli di stamane (ho solo cambiato la voce da unganged a ganged nel bios):

Single:
Total Computation Time: 678.477 seconds ( 0.188 hours )
Total Time (including writing digits): 686.335 seconds ( 0.191 hours )

Multi:
Total Computation Time: 348.605 seconds ( 0.097 hours )
Total Time (including writing digits): 356.461 seconds ( 0.099 hours )

Sembra migliore la modalità unganged. Anche se parliamo di pochi secondi.

La perplessità nasce dal fatto che in multi il divario fra amd e intel sembra assottigliarsi, mentre in teoria dovrebbe essere opposto il comportamento.

Comunque si tratta sempre di un bench sintetico, imho la prova del fuoco sarà il pts, che, per inciso, mi aspetto veda amd in testa...

Edit: confermo il comportamento sottolineato dal capitano, in single tende a usare i core al 50% (dual core), invece che 1 core al 100% ho riscontrato questa cosa sia con intel che con amd.

Ok grazie per la riprova.

Comunque quel comportamento è banale ed è così da tempo immemore con Windows.

Quel comportamento è la causa del famigerato bug del c&q dei Phenom I che, sottolineo, non è affatto un bug! I Phenom I (e anche i Turion ZM/RM e QL, piattaforma Puma) hanno la possibilità di cambiare frequenza operativa per singolo core, invece che tutti assieme come nei Phenom II e i Core 2. Questo causa problemi allo scheduler di windows che invece è pensato per funzionare su sistemi multiprocessore dove tutti i processori hanno la stessa frequenza operativa. Quindi lo scheduler passa i thread da un core all'altro in continuazione al fine di bilanciare il carico. Sui phenom I questo giochetto causa fino ad un 25% di prestazioni in meno.
Al contrario, lo scheduler di Linux lavora molto meglio da questo punto di vista.

edit: ho anche alcuni dubbi sul turbo mode dei processori i7/i5. Il comportamento dello scheduler è appurato, come sia possibile che il turbo mode funzioni correttamente è probabilmente dovuto al fatto che Windows 7 ha introdotto il "core parking": se non è necessario che un core sia attivo, lo si può parcheggiare e non utilizzarlo per alcun thread. Questa feature a quanto pare è attiva solo con i5 e i7, mentre gioverebbe in modo notevole anche sui processori Phenom I e Phenom II, visto che anche i Phenom II possono variare la frequenza operativa per core (la famosa modalità unganged di k10stat, che non ha nulla a che fare con i memory controller) ma espongono via ACPI solo l'interfaccia per variare la frequenza per tutti i core contemporaneamente. Inoltre schedulare sempre sullo stesso core un thread ha il vantaggio di migliorare l'hit rate della cache, e uno scheduler come quello di windows privilegia processori con grandi e veloci cache L2 condivise come i Core 2 a discapito delle piccole cache L2 separate dei Phenom.

Life bringer · 10-02-2010, 15:47

Si avevo intuito che ci fosse lo zampino di winzoz, che dire a maggior ragione io attendo questa dannata pts live... ormai controllo ogni giorno se si degnano di buttarla fuori...

Vash_85 · 10-02-2010, 16:39

Il mio scarsissimo sempron 2800+ con su win xp sp3 x32

10-02-2010, 11:30	#163
sguerad Junior Member Iscritto dal: Feb 2010 Messaggi: 2	price? non si possono fare confronti a prescindere dal costo delle cpu (imho). siccome le architetture sono molto diverse bisognerebbe quantomeno avere l'onestà intellettuale di dire questa va meglio su questi test ma costa il doppio..

10-02-2010, 14:00	#174
capitan_crasy Senior Member Iscritto dal: Nov 2003 Messaggi: 24165	Posto i miei risultati tanto per avere dei dati: Test single Core opzione 4 Test Multi core opzione 4 La cosa strana però è che nel test in single core il programma non utilizzava il 100% di un solo core ma una media del 50%/25%/25% per i tre core... __________________ AMD Ryzen 5600X\|Thermalright Macho Rev. B\|Gigabyte B550M AORUS PRO-P\|2x16GB G.Skill F4-3200C16D-32GIS Aegis @ 3200Mhz\|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)\|1 M.2 NVMe Silicon Power A60 2TB + 1 SSD Crucial MX500 1TB (Games)\|1 HDD SEAGATE IronWolf 2TB\|Sapphire【RX6600 PULSE】8GB\|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]\|Enermax Revolution D.F. 650W 80+ gold\|Case In Win 509\|Fans By Noctua\|¦

10-02-2010, 14:11	#175
Pihippo Senior Member Iscritto dal: Sep 2008 Città: Provincia di reggio, costa dei gelsomini :D Messaggi: 1691	Questa volta in multithread: y-cruncher v0.4.4 Build 7762b (fix 2) Detecting Hardware... x64 = Yes 64-bit OS = No MMX = Yes SSE = Yes SSE2 = Yes SSE3 = Yes SSSE3 = No SSE4a = Yes SSE4.1 = No SSE4.2 = No AVX = No FMA = No Version: x86 SSE3 A 32-bit OS has been detected on an x64 SSE3 capable processor. To achieve maximum performance, you must run a 64-bit OS. Defaulting to fastest supported x86 binary... Premere un tasto per continuare . . . Launching y-cruncher... ================================================================ y-cruncher v0.4.4 Build 7762b (fix 2) ( www.numberworld.org ) Copyright 2008-2009 Alexander J. Yee ( a-yee@northwestern.edu ) Distribute Freely - Please Report any Bugs Version: x86 SSE3 - Windows 0 Benchmark Pi 1 Batch Benchmark Pi (run multiple benchmarks) 2 Stress Test (beta) 3 Custom Compute a Constant - Compute other constants (e, Golden Ratio, etc...) - Choose your own settings 4 Digit Viewer (view digits from .txt and .ycd files) 5 Compare Digits (compare digits from different runs) 6 Advanced Options 7 About 8 A Word of Warning... Enter your choice: option: 0 Benchmark Pi: Select a Benchmark Type: 0 Single-Threaded 1 Multi-Threaded option: 1 Select a Benchmark Size: Option Decimal Digits Approx. Memory Needed 1 25,000,000 139 MB 2 50,000,000 262 MB 3 100,000,000 458 MB 4 250,000,000 1.20 GB 0 I prefer SuperPi sizes... (1M, 2M, 4M...) option: 4 Constant : Pi Algorithm: Chudnovsky Formula Decimal Digits : 250,000,000 Hexadecimal Digits: Disabled Threads: 4 Mode : Ram Only Start Time: Wed Feb 10 14:04:46 2010 Allocating and Reserving Memory... 1.20 GB Constructing FFT lookup tables... Begin Computation: Summing Series: 17,628,420 terms Time: 193.981 seconds ( 0.054 hours ) InvSqrt... Time: 7.856 seconds ( 0.002 hours ) Final Multiply... Time: 4.269 seconds ( 0.001 hours ) Pi: 206.113 seconds ( 0.057 hours ) Constructing Base Conversion Table: Time: 11.067 seconds ( 0.003 hours ) Base Converting (Primary Cutting Parameters): Time: 50.880 seconds ( 0.014 hours ) Writing Decimal Digits: 250,000,001 digits written End Time: Wed Feb 10 14:09:20 2010 Total Computation Time: 268.105 seconds ( 0.074 hours ) Total Time (including writing digits): 274.021 seconds ( 0.076 hours ) CPU Utilization: 383.1 % Multi-core Efficiency: 95.7749 % Last Digits: 3673748634 2742427296 0219667627 3141599893 4569474921 : 249,999,950 9958866734 1705167068 8515785208 0067520395 3452027780 : 250,000,000 Benchmark Successful. The digits appear to be OK. Version: 0.4.4 Build 7762b (fix 2) (x86 SSE3 - Windows) Processor(s): AMD Phenom(tm) II X4 810 Processor CPU Frequency: 3,120,194,056 Hz (frequency may be inaccurate) Thread(s): 4 Digits: 250,000,000 Total Time: 268.105 seconds Checksum: 51d7d38531e2507112e6390dbfee2c01 Premere un tasto per continuare . . . __________________ Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita

10-02-2010, 10:13	#161
Vash_85 Senior Member Iscritto dal: Jan 2002 Messaggi: 10032	Ma su intel hai usato le sse4.1 mentre su amd le sse3... Prova a fare i test con sse3 per entrambi

10-02-2010, 13:23	#168
Life bringer Senior Member Iscritto dal: Jun 2001 Città: Varese Messaggi: 8254	Fra quelli proposti il prossimo test che farò sarà con la modalità ganged invece che unganged, quando ho fatto la prova della banda passante notai che quella modalità permetteva valori superiori in lettura ma inferiori in scrittura, per quanto riguarda il togliere 2 banchi di ram mi sembra sinceramente ininfluente, comunque stamane ho anche mandato un pm a bjt2 chiedendogli di passare quando avesse tempo per dare il suo parere, che per quanto mi riguarda considero autorevole e sempre interessante, se dirà che in effetti 4 banchi invece di 2 possono influenzare il test in modo sensibile farò anche quella prova.

10-02-2010, 14:54	#177
Life bringer Senior Member Iscritto dal: Jun 2001 Città: Varese Messaggi: 8254	Eccomi, vado un po' di fretta perchè devo uscire, settaggi identici a quelli di stamane (ho solo cambiato la voce da unganged a ganged nel bios): Single: Total Computation Time: 678.477 seconds ( 0.188 hours ) Total Time (including writing digits): 686.335 seconds ( 0.191 hours ) Multi: Total Computation Time: 348.605 seconds ( 0.097 hours ) Total Time (including writing digits): 356.461 seconds ( 0.099 hours ) Sembra migliore la modalità unganged. Anche se parliamo di pochi secondi. La perplessità nasce dal fatto che in multi il divario fra amd e intel sembra assottigliarsi, mentre in teoria dovrebbe essere opposto il comportamento. Comunque si tratta sempre di un bench sintetico, imho la prova del fuoco sarà il pts, che, per inciso, mi aspetto veda amd in testa... Edit: confermo il comportamento sottolineato dal capitano, in single tende a usare i core al 50% (dual core), invece che 1 core al 100% ho riscontrato questa cosa sia con intel che con amd.

10-02-2010, 15:47	#179
Life bringer Senior Member Iscritto dal: Jun 2001 Città: Varese Messaggi: 8254	Si avevo intuito che ci fosse lo zampino di winzoz, che dire a maggior ragione io attendo questa dannata pts live... ormai controllo ogni giorno se si degnano di buttarla fuori...

10-02-2010, 16:39	#180
Vash_85 Senior Member Iscritto dal: Jan 2002 Messaggi: 10032	Il mio scarsissimo sempron 2800+ con su win xp sp3 x32

Strumenti
Mostra una versione stampabile Invia questa pagina per email