LINUX.ORG.RU
ФорумTalks

Померимся скоростью opencl

 , ,


0

2

В месу добавили даблы, clpeak на hd 7790 показывает это


clpeak                                                                                                                                                     
                                                                                                                                                                                                                                             
Platform: Clover                                                                                                                                                                                                                            
  Device: AMD BONAIRE                                                                                                                                                                                                                       
    Driver version  : 10.6.0-devel (Linux x64)                                                                                                                                                                                              
    Compute units   : 14                                                                                                                                                                                                                    
    Clock frequency : 1050 MHz                                                                                                                                                                                                             
                                                                                                                                                                                                                                            
    Global memory bandwidth (GBPS)                                                                                                                                                                                                          
      float   : 55.14                                                                                                                                                                                
      float2  : 56.52                                                                                                                                                                                              
      float4  : 54.39
      float8  : 38.98
      float16 : 24.86
 
    Single-precision compute (GFLOPS)
      float   : 1109.28
      float2  : 960.17
      float4  : 1109.53
      float8  : 1023.15
      float16 : 1075.14
 
    Double-precision compute (GFLOPS)
      double   : 113.89
      double2  : 113.82
      double4  : 113.68
      double8  : 113.42
      double16 : 112.92
 
    Integer compute (GIOPS)
      int   : 344.50
      int2  : 329.74
      int4  : 347.39
      int8  : 353.00
      int16 : 351.91
 
    Transfer bandwidth (GBPS)
      enqueueWriteBuffer         : 4.59
      enqueueReadBuffer          : 1.31
      enqueueMapBuffer(for read) : 8.45
        memcpy from mapped ptr   : 4.68
      enqueueUnmap(after write)  : 1429.37
        memcpy to mapped ptr     : 4.38
 
    Kernel launch latency : 473.19 us

https://github.com/krrishnarraj/clpeak
много уже готовых результатов
https://github.com/krrishnarraj/clpeak/tree/master/results

★★★★★

Последнее исправление: Novell-ch (всего исправлений: 1)
./clpeak 

Platform: Clover
  Device: AMD TAHITI
    Driver version  : 10.6.0-devel (Linux x64)
    Compute units   : 28
    Clock frequency : 800 MHz

    Global memory bandwidth (GBPS)
      float   : 69.14
      float2  : 77.37
      float4  : 80.86
      float8  : 47.11
      float16 : 30.13

    Single-precision compute (GFLOPS)
      float   : 1589.92
      float2  : 1384.64
      float4  : 1588.20
      float8  : 1472.32
      float16 : 1553.00

    No double precision support! Skipped

    Integer compute (GIOPS)
      int   : 534.49
      int2  : 510.55
      int4  : 509.01
      int8  : 487.50
      int16 : 486.36

    Transfer bandwidth (GBPS)
      enqueueWriteBuffer         : 5.20
      enqueueReadBuffer          : 1.45
      enqueueMapBuffer(for read) : 6.28
        memcpy from mapped ptr   : 1.87
      enqueueUnmap(after write)  : 2367.16
        memcpy to mapped ptr     : 4.43

    Kernel launch latency : 838.76 us


Behem0th ★★★★★
()
Ответ на: комментарий от Behem0th

Месе недели две. Раньше измерял скорость с помощью pyrit. Тесты от 07.14 по сравнению с тестами от 02.15 выигрывали примерно в 9 раз.

Behem0th ★★★★★
()
Последнее исправление: Behem0th (всего исправлений: 1)
./clpeak 

Platform: AMD Accelerated Parallel Processing
  Device: Pitcairn
    Driver version  : 1445.5 (VM) (Linux x64)
    Compute units   : 16
    Clock frequency : 900 MHz

    Global memory bandwidth (GBPS)
      float   : 132.97
      float2  : 136.23
      float4  : 138.94
      float8  : 72.42
      float16 : 37.26

    Single-precision compute (GFLOPS)
      float   : 1818.66
      float2  : 1816.88
      float4  : 1812.61
      float8  : 1803.31
      float16 : 1782.99

    Double-precision compute (GFLOPS)
      double   : 114.00
      double2  : 111.43
      double4  : 110.95
      double8  : 112.74
      double16 : 113.03

    Integer compute (GIOPS)
      int   : 364.43
      int2  : 364.69
      int4  : 359.96
      int8  : 353.85
      int16 : 364.22

    Transfer bandwidth (GBPS)
      enqueueWriteBuffer         : 16.16
      enqueueReadBuffer          : 7.91
      enqueueMapBuffer(for read) : 17836.24
        memcpy from mapped ptr   : 5.89
      enqueueUnmap(after write)  : 85217.60
        memcpy to mapped ptr     : 5.91

    Kernel launch latency : 26.60 us

  Device: Pitcairn
    Driver version  : 1445.5 (VM) (Linux x64)
    Compute units   : 16
    Clock frequency : 900 MHz

    Global memory bandwidth (GBPS)
      float   : 133.19
      float2  : 136.71
      float4  : 138.74
      float8  : 72.62
      float16 : 37.38

    Single-precision compute (GFLOPS)
      float   : 1819.46
      float2  : 1817.59
      float4  : 1813.23
      float8  : 1803.36
      float16 : 1782.63

    Double-precision compute (GFLOPS)
      double   : 114.00
      double2  : 113.93
      double4  : 113.82
      double8  : 113.58
      double16 : 113.09

    Integer compute (GIOPS)
      int   : 364.77
      int2  : 364.73
      int4  : 364.65
      int8  : 364.52
      int16 : 364.24

    Transfer bandwidth (GBPS)
      enqueueWriteBuffer         : 16.08
      enqueueReadBuffer          : 8.50
      enqueueMapBuffer(for read) : 45497.54
        memcpy from mapped ptr   : 6.08
      enqueueUnmap(after write)  : 109565.48
        memcpy to mapped ptr     : 6.07

    Kernel launch latency : 32.97 us

gadfly ★★
()
Ответ на: комментарий от Novell-ch

Поставил cmake, но маловато будет.

CMake Error at CMakeLists.txt:62 (message):
  Could not find OpenCL include/libs.  Set OPENCL_ROOT to your OpenCL SDK.
  Download AMD APP SDK

sehellion ★★★★★
()

Пересобрал с патчами на дабл. Radeon 7950

./clpeak              

Platform: Clover
  Device: AMD TAHITI
    Driver version  : 10.6.0-devel (Linux x64)
    Compute units   : 28
    Clock frequency : 800 MHz

    Global memory bandwidth (GBPS)
      float   : 74.24
      float2  : 80.98
      float4  : 78.28
      float8  : 47.79
      float16 : 31.70

    Single-precision compute (GFLOPS)
      float   : 1639.29
      float2  : 1392.12
      float4  : 1627.64
      float8  : 1485.52
      float16 : 1545.71

    Double-precision compute (GFLOPS)
      double   : 623.59
      double2  : 597.34
      double4  : 544.88
      double8  : 523.67
      double16 : 517.81

    Integer compute (GIOPS)
      int   : 486.94
      int2  : 480.23
      int4  : 484.00
      int8  : 488.34
      int16 : 458.26

    Transfer bandwidth (GBPS)
      enqueueWriteBuffer         : 5.24
      enqueueReadBuffer          : 1.52
      enqueueMapBuffer(for read) : 6.17
        memcpy from mapped ptr   : 2.01
      enqueueUnmap(after write)  : 1256.72
        memcpy to mapped ptr     : 4.56

    Kernel launch latency : 833.68 us

Behem0th ★★★★★
()
Ответ на: комментарий от Novell-ch
Radeon           7950  |  7790
-----------------------+------
Объем                  |   
видеопамяти      3072  |  1024
-----------------------+------
Разрядность      384   |  128
шины                   |
-----------------------+------
универсальные    1792  |  896
процессоры             |

Не уверен насчет объема памяти, но разрядность шины и колво процессоров должно влиять.

Behem0th ★★★★★
()
Ответ на: комментарий от Behem0th

разница на даблах идет в разы, на всем остальном 50-60%, скорее всего на 7790 даблы просто урезаны, хотя даже так она обгоняет более крутые nvidia

Novell-ch ★★★★★
() автор топика
Ответ на: комментарий от Novell-ch

Не стоит исключать вариант неоптимизированности дров для конкретно твоей карты. Мне тогда не совсем понятно отставание всего на 50-60% в остальных тестах. Процессоров больше вдвое, ширина шины втрое, логично ждать увеличение производительности в 1,5-2 раза.

Хотелось бы увидеть тесты люде с нвидией, но они не хотят.

Behem0th ★★★★★
()
Ответ на: комментарий от Behem0th

как раз таки норм оптимизировано походу
потому что википедия говорит что для 7790
1792 (1109.28) синг
128 (113) дабл

для 7950
2867.2 (1639.29) синг
717 (623) дабл

Novell-ch ★★★★★
() автор топика
25 апреля 2015 г.

radeon 7970

Platform: Clover
  Device: AMD TAHITI
    Driver version  : 10.6.0-devel (Linux x64)
    Compute units   : 32
    Clock frequency : 925 MHz

    Global memory bandwidth (GBPS)
      float   : 98.88
      float2  : 103.75
      float4  : 109.70
      float8  : 66.72
      float16 : 42.48

    Single-precision compute (GFLOPS)
      float   : 2310.94
      float2  : 1996.24
      float4  : 2309.11
      float8  : 2135.12
      float16 : 2240.30

    Double-precision compute (GFLOPS)
      double   : 910.20
      double2  : 910.30
      double4  : 909.19
      double8  : 904.12
      double16 : 898.48

    Integer compute (GIOPS)
      int   : 730.48
      int2  : 695.34
      int4  : 708.26
      int8  : 713.32
      int16 : 719.78

    Transfer bandwidth (GBPS)
      enqueueWriteBuffer         : 4.49
      enqueueReadBuffer          : 3.51
      enqueueMapBuffer(for read) : 9.41
        memcpy from mapped ptr   : 5.70
      enqueueUnmap(after write)  : 2834.59
        memcpy to mapped ptr     : 4.36

    Kernel launch latency : 497.67 us

Novell-ch ★★★★★
() автор топика
9 августа 2015 г.

Radeon HD5850, Catalyst 15.7

$ ./clpeak 

Platform: AMD Accelerated Parallel Processing
  Device: Cypress
    Driver version  : 1445.5 (Linux x64)
    Compute units   : 18
    Clock frequency : 725 MHz

    Global memory bandwidth (GBPS)
      float   : 111.13
      float2  : 110.78
      float4  : 87.17
      float8  : 56.65
      float16 : 29.61

    Single-precision compute (GFLOPS)
      float   : 416.73
      float2  : 830.36
      float4  : 1649.44
      float8  : 1650.93
      float16 : 1669.84

    Double-precision compute (GFLOPS)
      double   : 415.52
      double2  : 415.48
      double4  : 414.83
      double8  : 413.42
      double16 : 411.93

    Integer compute (GIOPS)
      int   : 208.53
      int2  : 415.74
      int4  : 416.47
      int8  : 415.98
      int16 : 415.26

    Transfer bandwidth (GBPS)
      enqueueWriteBuffer         : 6.56
      enqueueReadBuffer          : 4.27
      enqueueMapBuffer(for read) : 5412.01
        memcpy from mapped ptr   : 3.78
      enqueueUnmap(after write)  : 13158.60
        memcpy to mapped ptr     : 3.88

    Kernel launch latency : 51.42 us
grem ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.