LINUX.ORG.RU

Ответ на: комментарий от YAR

Частоты стоковые? Сможешь до 4000 погнать? Уж больно хочу прирост 8120->8320 на одной частоте глянуть.

Плюс флаги сборки выставь: -march=native -Ofast -g0 -s -pipe -mprefer-avx128

devl547 ★★★★★
() автор топика
Последнее исправление: devl547 (всего исправлений: 1)
Ответ на: комментарий от devl547

Не хочет - gcc, похоже, старый:

cc1: error: invalid option argument ‘-Ofast’ cc1: error: unrecognized command line option "-mprefer-avx128"

на одной частоте глянуть.

Может лучше 8120 ближе к штатной опустить? :) Просто машинка сейчас занята немного.

Но если интересно - есть вот такие данные:

[00:36:57] <rain> FX-8320. Сборка kernel 3.6. Делалось в tmpfs в чруте в debootstrap Squeeze. make allmodconfig, потом make -jn. После каждого прохода - make clean mrproper и все заново:
-j4: real    24m34.810s user    92m5.337s sys     6m19.704s
-j6: real    19m31.720s user    107m48.656s sys     6m47.961s
-j8: real    16m36.389s user    118m28.760s sys     7m4.139s
-j9: real    16m37.760s user    118m46.493s sys     6m57.798s
-j12: real    16m41.724s user    119m28.904s sys     7m0.498s
-j16: real    16m48.522s user    120m14.703s sys     7m6.635s

 [08:28:51] <rain> http://rain.linuxoid.in/fileupload/misc/fx-test.tar.xz
[09:18:17] <rain> 2*Xeon 5420 (2*4*2.5 GHz) -j8
real    19m24.022s
user    136m4.074s
sys     11m0.093s

На 8150 человек собирал, но место в tmpfs закончилось :). Получалось больше 18 минут.

YAR ★★★★★
()
Последнее исправление: YAR (всего исправлений: 1)
Ответ на: комментарий от YAR

cc1: error: invalid option argument ‘-Ofast’ cc1: error: unrecognized command line option "-mprefer-avx128"

-O3 -ffast-math тогда, это одно и то же.

Может лучше 8120 ближе к штатной опустить?

Мне штатные частоты не нравятся для бенчей. Потому как то CnQ, то турбокор включается-выключается. Скорость плавает сильно.

devl547 ★★★★★
() автор топика
Ответ на: комментарий от devl547
┌──[/media/mix/frag/linpack]
└─[frag@nona]: gcc -march=native -Ofast -g0 -s -pipe -mprefer-avx128 -lm linpack.c -o linpack
linpack.c: In function ‘main’:
linpack.c:78:14: warning: ignoring return value of ‘fgets’, declared with attribute warn_unused_result [-Wunused-result]

┌─[/media/mix/frag/linpack]
└─[frag@nona]: ./linpack
Enter array size (q to quit) [200]:  
Memory required:  315K.


LINPACK benchmark, Double precision.
Machine precision:  15 digits.
Array size 200 X 200.
Average rolled and unrolled performance:

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    2048   0.74  81.08%   2.70%  16.22%  4536430.108
    4096   1.50  76.00%   3.33%  20.67%  4727036.415
    8192   3.01  75.42%   3.32%  21.26%  4746981.716
   16384   6.00  79.00%   3.17%  17.83%  4564035.159
   32768  12.03  79.55%   2.49%  17.96%  4559411.010

Enter array size (q to quit) [200]:  q

Кстати, если собрать проще, то результаты лучше:

┌─[/media/mix/frag/linpack]
└─[frag@nona]: cc linpack.c -o linpack -lm -O3 -mavx
linpack.c: In function ‘main’:
linpack.c:78:14: warning: ignoring return value of ‘fgets’, declared with attribute warn_unused_result [-Wunused-result]

┌─[/media/mix/frag/linpack]
└─[frag@nona]: ./linpack
Enter array size (q to quit) [200]:  
Memory required:  315K.


LINPACK benchmark, Double precision.
Machine precision:  15 digits.
Array size 200 X 200.
Average rolled and unrolled performance:

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    2048   0.70  80.00%   2.86%  17.14%  4849287.356
    4096   1.42  85.92%   1.41%  12.68%  4536430.108
    8192   2.81  75.09%   1.42%  23.49%  5232719.380
   16384   5.65  76.99%   1.77%  21.24%  5056335.581
   32768  11.27  81.54%   1.69%  16.77%  4797589.197

Enter array size (q to quit) [200]:  q
Kindly_Cat
()
Ответ на: комментарий от devl547
rain@miner:/mnt/rw/rain$ gcc -march=native -O3 -ffast-math -g0 -s -pipe linpack.c -o linpack
/tmp/cc4tQPEO.o: In function `main':
linpack.c:(.text+0x138f): undefined reference to `pow'
collect2: ld returned 1 exit status

YAR ★★★★★
()
Ответ на: комментарий от Kindly_Cat

В полтора раза быстрей в математическом однопотоке, значит.
Хмм.. Интересно, интересно.
Ждем результатов 8320 :3

devl547 ★★★★★
() автор топика
Ответ на: комментарий от devl547
rain@miner:/mnt/rw/rain$ gcc -march=native -O3 -ffast-math -g0 -s -pipe linpack.c -lm -o linpack
rain@miner:/mnt/rw/rain$ ./linpack 

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    1024   0.71  84.51%   4.23%  11.27%  2232211.640
    2048   1.41  83.69%   4.96%  11.35%  2250069.333
    4096   2.79  86.74%   2.51%  10.75%  2259105.756
    8192   5.59  87.66%   1.79%  10.55%  2250069.333
   16384  11.17  83.97%   3.04%  12.98%  2314886.145
YAR ★★★★★
()
Последнее исправление: YAR (всего исправлений: 1)
Ответ на: комментарий от YAR
rain@miner:/mnt/rw/rain$ cc linpack.c -o linpack -lm -O3 -mavx
rain@miner:/mnt/rw/rain$ ./linpack 
Enter array size (q to quit) [200]:  
Memory required:  315K.


LINPACK benchmark, Double precision.
Machine precision:  15 digits.
Array size 200 X 200.
Average rolled and unrolled performance:

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------

    1024   0.67  83.58%   1.49%  14.93%  2467181.287
    2048   1.33  80.45%   2.26%  17.29%  2556896.970
    4096   2.69  82.90%   2.97%  14.13%  2435139.971
    8192   5.37  83.99%   3.91%  12.10%  2383548.023
   16384  10.71  83.57%   2.61%  13.82%  2437778.259

YAR ★★★★★
()
Ответ на: комментарий от Kindly_Cat

Дефолт, правда отображается как
rain@miner:/mnt/rw/rain$ grep -m1 MHz /proc/cpuinfo
cpu MHz : 3724.597

YAR ★★★★★
()
Ответ на: комментарий от Kindly_Cat

Так интереснее?

rain@miner:/mnt/rw/rain$ gcc-4.7 -march=bdver2 -lm -O3 -mavx linpack.c -o linpack
rain@miner:/mnt/rw/rain$ ./linpack 
Enter array size (q to quit) [200]:  
Memory required:  315K.


LINPACK benchmark, Double precision.
Machine precision:  15 digits.
Array size 200 X 200.
Average rolled and unrolled performance:

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    1024   0.54  75.93%   5.56%  18.52%  3196121.212
    2048   1.08  80.56%   2.78%  16.67%  3125096.296
    4096   2.16  81.48%   2.78%  15.74%  3090754.579
    8192   4.32  80.79%   2.31%  16.90%  3133801.300
   16384   8.64  79.75%   3.36%  16.90%  3133801.300
   32768  17.28  79.75%   4.28%  15.97%  3099269.054

YAR ★★★★★
()
Ответ на: комментарий от YAR

Во! Так интереснее)

То есть в linux особого профита менять 81xx на 83xx нет, только если крайне нужно FMA3, BMI и TBM

devl547 ★★★★★
() автор топика
Ответ на: комментарий от barti_ddu

Под «водой» подразумевается что-нибудь посерьёзнее, чем h100?

Готовые за воду не считаю, они слабее нормального воздуха или ему равны в лучшем случае. Обычно - намного слабее.

pekmop1024 ★★★★★
()
Ответ на: комментарий от devl547

Это я так понял однопоток?
i3 540@stock

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    1024   0.85  82.35%   2.35%  15.29%  1953185.185
    2048   1.67  82.04%   2.40%  15.57%  1994742.317
    4096   3.41  85.63%   2.35%  12.02%  1875057.778
    8192   6.63  83.26%   2.41%  14.33%  1980694.836
   16384  13.47  82.48%   2.60%  14.92%  1963411.286
i7 970@4.2
    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    1024   0.58  87.93%   3.45%   8.62%  2653383.648
    2048   1.15  85.22%   1.74%  13.04%  2812586.667
    4096   2.33  84.12%   3.00%  12.88%  2771021.346
    8192   4.66  84.33%   3.00%  12.66%  2764212.940
   16384   9.31  86.14%   2.79%  11.06%  2717475.040
   32768  18.61  85.49%   2.96%  11.55%  2733984.609

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

Да, однопоток.
Ну в целом ситуация понятна.
Осталось только генту починить (обновил geek-sources до 3.6.8 и отвалилась сеть) и попробовать с open64

devl547 ★★★★★
() автор топика

960t@3.9 "-O3 -ffast-math -march=native"

LINPACK benchmark, Double precision.
Machine precision:  15 digits.
Array size 200 X 200.
Average rolled and unrolled performance:

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    1024   0.60  81.67%   5.00%  13.33%  2704410.256
    2048   1.20  86.67%   4.17%   9.17%  2580354.740
    4096   2.42  86.36%   2.89%  10.74%  2604246.914
    8192   4.84  85.12%   3.72%  11.16%  2616359.690
   16384   9.67  86.97%   2.59%  10.44%  2598232.487
   32768  19.34  85.68%   3.46%  10.86%  2610289.250

barti_ddu
()
Ответ на: комментарий от devl547

Собрал с "-O3 -ffast-math -march=native", получилось:
i3 540@stock

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    1024   0.61  83.61%   0.00%  16.39%  2757437.908
    2048   1.25  76.00%   2.40%  21.60%  2869986.395
    4096   2.46  78.46%   3.25%  18.29%  2798593.698
    8192   5.00  79.00%   3.80%  17.20%  2717475.040
   16384  10.20  80.49%   3.33%  16.18%  2631660.039
i7 970@4.2
    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    2048   0.77  77.92%   1.30%  20.78%  4610797.814
    4096   1.55  76.77%   5.16%  18.06%  4429270.341
    8192   3.10  83.23%   1.94%  14.84%  4261494.949
   16384   6.20  81.13%   3.06%  15.81%  4310477.650
   32768  12.41  80.66%   3.14%  16.20%  4327056.410

pekmop1024 ★★★★★
()
Ответ на: комментарий от Kindly_Cat

Я большего от AVX ожидал... Видимо, разгон по шине у моего галфа дает о себе знать, оно все вместе гонится, а не только процессор.

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

Фигасе, от AVX прирост очень значительный. Вот без AVX:

┌─[/media/mix/frag/linpack]
└─[frag@nona]: cc linpack.c -o linpack -lm -O3
linpack.c: In function ‘main’:
linpack.c:78:14: warning: ignoring return value of ‘fgets’, declared with attribute warn_unused_result [-Wunused-result]

┌─[/media/mix/frag/linpack]
└─[frag@nona]: ./linpack
Enter array size (q to quit) [200]:  
Memory required:  315K.


LINPACK benchmark, Double precision.
Machine precision:  15 digits.
Array size 200 X 200.
Average rolled and unrolled performance:

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    1024   0.58  82.76%   1.72%  15.52%  2869986.395
    2048   1.16  87.07%   1.72%  11.21%  2730666.667
    4096   2.34  85.04%   4.27%  10.68%  2691470.494
    8192   4.68  84.83%   2.99%  12.18%  2737310.624
   16384   9.32  85.19%   2.90%  11.91%  2740644.742
   32768  18.64  85.19%   2.79%  12.02%  2743986.992

Enter array size (q to quit) [200]:  q
Kindly_Cat
()
Ответ на: комментарий от Kindly_Cat

Ну я сравниваю в абсолюте. Сандик без AVX в математике вообще не силен.

pekmop1024 ★★★★★
()
Ответ на: комментарий от Kindly_Cat

turbostat должен показать настоящую частоту под нагрузкой

barti_ddu
()
Ответ на: комментарий от bhfq

еще один сказочник беад

Как-то так, обороты: 1 - кулер проца, 2 выдув их корпуса, 3 вдув через HDD. Температуры: 1 - проц, 2 и 3 не уверен что.

cat /proc/cpuinfo
processor       : 0
vendor_id       : AuthenticAMD
cpu family      : 16
model           : 10
model name      : AMD Phenom(tm) II X6 1090T Processor
stepping        : 0
microcode       : 0x10000bf
cpu MHz         : 3200.000
cache size      : 512 KB
physical id     : 0
siblings        : 6
core id         : 0
cpu cores       : 6
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 6
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid aperfmperf pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt cpb hw_pstate npt lbrv svm_lock nrip_save pausefilter
bogomips        : 6429.24
TLB size        : 1024 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate cpb
...
uptime 
 01:48:02 up 1 day, 17:52,  5 users,  load average: 0.10, 0.33, 0.32
Вот так, если не грузить 24/7, выше 45 под максимальной нагрузкой не видел. Куллер залман перформа. Собирать так что бы хорошо поленился, термопастапаста уже явно подсохла. Пыль. Есть возможность дико гнать минимальной кровью.

erfea ★★★★★
()
Ответ на: комментарий от bhfq

Продувается хорошо, а что в этом смешного?! Это такой петросячий анекдот?

erfea ★★★★★
()
Ответ на: комментарий от erfea

Апнул множители, дал просраться всем ведрам (mencoder x264).

cat /proc/cpuinfo
processor       : 0
vendor_id       : AuthenticAMD
cpu family      : 16
model           : 10
model name      : AMD Phenom(tm) II X6 1090T Processor
stepping        : 0
microcode       : 0x10000bf
cpu MHz         : 3600.000
cache size      : 512 KB
physical id     : 0
siblings        : 6
core id         : 0
cpu cores       : 6
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 6
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid aperfmperf pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt cpb hw_pstate npt lbrv svm_lock nrip_save pausefilter
bogomips        : 7233.46
TLB size        : 1024 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate cpb

erfea ★★★★★
()
Последнее исправление: erfea (всего исправлений: 1)
Ответ на: комментарий от erfea

Проц, падла, не стабилен Сегфолты и «Недопустимая инструкция» выкидывать стал... забава :D

erfea ★★★★★
()

Опу: -j33 лущ будет. Так вся система нагружается. (правда озу нужно немерено :3)
У самого fx-6100 с штатным кулером. Gcc в 25 потоков за ~7 минут ставится. Вполне доволен, что взял его вместо штеуда. Правда вот хочу сменить на fx8xxx, но пока и этого хватает.

no-steam ★★
()
Ответ на: комментарий от bhfq

Поигрался с вольтажём и множителями, итого разгон на скоряк и не вникая, это под нагрузкой до упора.

cat /proc/cpuinfo
processor       : 0
vendor_id       : AuthenticAMD
cpu family      : 16
model           : 10
model name      : AMD Phenom(tm) II X6 1090T Processor
stepping        : 0
microcode       : 0x10000bf
cpu MHz         : 3600.000
cache size      : 512 KB
physical id     : 0
siblings        : 6
core id         : 0
cpu cores       : 6
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 6
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid aperfmperf pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt cpb hw_pstate npt lbrv svm_lock nrip_save pausefilter
bogomips        : 7232.63
TLB size        : 1024 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate cpb
...
ЗЫ в простое 0 RPM ЗЗЫ оставить что-ли, как нихрена не слышал, так и осталось... попугаев поди чуть больше будет :D

erfea ★★★★★
()
Последнее исправление: erfea (всего исправлений: 1)
Ответ на: комментарий от devl547

Стоял китай на 400ватт (заявленных на этикетке, естественно. Номинальную не мерил). Тупил жд (головки постоянно заводились, видимо нехватка мощности или еще какие причуды). Заменил на 430ватт(тоже заявленных). Все норм, но при компиляции начинал сигнализировать динамик системный (судя по гигабайтовым плюшкам, это либо перегрев, либо нехватка мощей) и выключался иногда комп. Убрал авторазгон, все норм стало. А, на температуру не смотрю, ибо даже со штат. кулером и авторазгоном ~60 градусов.

no-steam ★★
()
7 февраля 2013 г.

мужик, а вот мне любопытно просто, отчего у тебя -j8. По логике j8 значит 8 потоков. если у тебя 8 ядер, тебе нужно j побольше, потому что пока диски читаются ядра будут стоять. может где-то -j12 попробовать... или я не знаю.. но -j8 это однозначно крайность, так не загрузить проц.

кстати, любопытно на сколько мои соображения осмысленны...

AndreyKl ★★★★★
()
Ответ на: комментарий от AndreyKl

отчего у тебя -j8

BFS - раз. CFS давно уже допилили и профит от NUM_CORES*2 никакой, максимум что можно выжать - NUM_CORES+1

devl547 ★★★★★
() автор топика

а я все хочу освоить профилирование да времени никак не найду

punya ★★
()

gcc -Ofast -pipe -fomit-frame-pointer -march=native -mprefer-avx128 -funroll-all-loops -fprefetch-loop-arrays --param prefetch-latency=300 -minline-all-stringops -fno-tree-pre -ftree-vectorize -mieee-fp -ffast-math linpack.c -o linpack -lm

    Reps Time(s) DGEFA   DGESL  OVERHEAD    KFLOPS
----------------------------------------------------
    1024   0.61  77.05%   0.00%  22.95%  2992113.475
    2048   1.23  85.37%   3.25%  11.38%  2580354.740
    4096   2.44  80.74%   5.74%  13.52%  2665958.926
    8192   4.89  79.96%   3.89%  16.16%  2743986.992
   16384   9.78  80.37%   4.60%  15.03%  2707664.661
   32768  19.52  82.53%   4.46%  13.01%  2650258.343
punya ★★
()
Ответ на: комментарий от punya

Слабовато как-то.
Это у тебя какой проц?

-fprefetch-loop-arrays -mprefer-avx128

Не нужно. Первое входит в -O2, второе включается по дефолту с -march=native на булях и пилидрайверах.

devl547 ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.