LINUX.ORG.RU

2000 гигафлоп производительности в модуле 1U


0

0

Компания NVIDIA представила суперкомпьютер на основе её собственных графических процессоров в формате 1U c производительностью две тысячи гигафлоп. Машина названа именем Tesla. Среди поддерживаемых ОС названы 32х и 64х битные версии Red Hat Enterprise Linux 3, 4 и 5, 32х и 64х версии SUSE Enterprise Linux 10.1, 10.2 и 10.3, а также 32х битная версия Windows XP (Vista не поддерживается).

>>> Подробности

Ответ на: комментарий от orlusha

А вроде как их уже отменили, по крайней мере суперкомпьютеры CRAY покупались вполне официально.

Sun-ch
()
Ответ на: комментарий от vasist

>Бесконечность, т.к. целочисленный счёт там не при делах.

>интересно, а как там тогда вообще ОСи живут?? или им целочисленный счёт побоку, он по твоему только для компиляции необходим?? )))))

+100 за то, что обрезал язык этому троллю

anonymous
()
Ответ на: комментарий от sS

s/за секунду/за такт/ разумеется ;)

sS ★★★★★
()
Ответ на: комментарий от vasist

> распаралелить процесс компиляции штука имхо непростая

А никто этим и не занимается. Параллелелится компиляция отдельных файлов.

wa
()
Ответ на: комментарий от anonymous

На, специально для тебя HPL тест на одном Opteron 285 Rpeak=2ядра*2fops/такт*2.6GHz=10.4Gflops

============================================================================
HPLinpack 1.0a  --  High-Performance Linpack benchmark  --   January 20, 2004
Written by A. Petitet and R. Clint Whaley,  Innovative Computing Labs.,  UTK
============================================================================

An explanation of the input/output parameters follows:
T/V    : Wall time / encoded variant.
N      : The order of the coefficient matrix A.
NB     : The partitioning blocking factor.
P      : The number of process rows.
Q      : The number of process columns.
Time   : Time in seconds to solve the linear system.
Gflops : Rate of execution for solving the linear system.

The following parameter values will be used:

N      :   20000
NB     :     140
PMAP   : Row-major process mapping
P      :       1
Q      :       2
PFACT  :    Left
NBMIN  :       2
NDIV   :       2
RFACT  :    Left
BCAST  :   1ring
DEPTH  :       0
SWAP   : Spread-roll (long)
L1     : transposed form
U      : transposed form
EQUIL  : yes
ALIGN  : 16 double precision words

----------------------------------------------------------------------------

- The matrix A is randomly generated for each test.
- The following scaled residual checks will be computed:
   1) ||Ax-b||_oo / ( eps * ||A||_1  * N        )
   2) ||Ax-b||_oo / ( eps * ||A||_1  * ||x||_1  )
   3) ||Ax-b||_oo / ( eps * ||A||_oo * ||x||_oo )
- The relative machine precision (eps) is taken to be          1.110223e-16
- Computational tests pass if scaled residuals are less than           16.0
============================================================================
T/V                N    NB     P     Q               Time             Gflops
----------------------------------------------------------------------------
WR00L2L2       20000   140     1     2             593.28          8.991e+00
----------------------------------------------------------------------------
||Ax-b||_oo / ( eps * ||A||_1  * N        ) =        0.0243101 ...... PASSED
||Ax-b||_oo / ( eps * ||A||_1  * ||x||_1  ) =        0.0235287 ...... PASSED
||Ax-b||_oo / ( eps * ||A||_oo * ||x||_oo ) =        0.0044842 ...... PASSED
============================================================================

Finished      1 tests with the following results:
              1 tests completed and passed residual checks,
              0 tests completed and failed residual checks,
              0 tests skipped because of illegal input values.
----------------------------------------------------------------------------

End of Tests.
============================================================================


Итого имеем Rmax/Rpeak = 8.99/10.4 = 0.86

А сейчас рассказывай как в вашем цирке считают гигафлопсы ;)



sS ★★★★★
()
Ответ на: комментарий от KRoN73

>А зачем нам кузнец, когда 1879BM3 проивзодит 128-разрядные вычисления? >:) Правда, только на 600МГц и за два такта, но зато от -40° до +85° и 4Вт :)

Это что?

emaxx ★★
()
Ответ на: комментарий от Arceny

>Как этот hpl ставить??

В смысле ?

Читаешь INSTALL и делаешь как там написано

Разумеется предварительно ставишь BLAS (GOTO,ATLAS,MKL) и MPI (MPICH,LAM,...)

sS ★★★★★
()
Ответ на: комментарий от vasist

> интересно, а как там тогда вообще ОСи живут?? или им целочисленный счёт побоку, он по твоему только для компиляции необходим?? )))))

А для "ОСей", дядя, там оптерончики стоят, или ксеончики. В школе для умственно особо одарённых учился чтоль, где не рассказывали о том, что пустить линукс напрямую на видяхе ещё никто не сумел?

И вообще, нашли новость, блин - обычный Quad-SLI какой-то "мегасчиталкой" обозвать додумавшись. Тут ресурс маркетоидов с комплексом маленькой пиписьки, или таки технических специалистов, что даже нанобота на лету отловят и препарируют?

Gharik
()
Ответ на: комментарий от sS

Хорошо, 2000/4 = 500 раз... Прирост в 10 раз ниже, чем ожидаемый исходя из пиковой производительности.

Я не пытался сказать что 246 давал пиковую в 1 ГФлопс, просто в тот момент мне казалось, что я где то видел такую оценку реальной производительности...

>Человек просто арифметики не знает ;)

Перечитал свой пост... Похоже, вы правы :)

>А сейчас рассказывай как в вашем цирке считают гигафлопсы ;)

А каждый как хочет, так и считает, например:

http://www.lsc-group.phys.uwm.edu/beowulf/nemo/construction/prototype_hardwar... 2x Opteron 246 2.0GHz 1900 Mega Flops

mky ★★★★★
()
Ответ на: комментарий от mky

>http://www.lsc-group.phys.uwm.edu/beowulf/nemo/construction/prototype_hardwar... 2x Opteron 246 2.0GHz 1900 Mega Flops

Это ни разу не Rpeak

Rpeak это теоретический предел производительности , он зависит от архитектуры , частоты и числа ядер/процессоров...он не может быть not tested :) Реальная же производительность это функция системы вообще там огромное число факторов. Тот же самый тест hpl зависит не только от процессора как такового но и от версии библиотек (BLAS) и версии компилятора и от версии MPI и от типа среды передачи (для кластера)...

sS ★★★★★
()
Ответ на: комментарий от sS

>Rpeak это теоретический предел производительности

Спасибо, а лошадь кушает овес :)

>А сейчас рассказывай как в вашем цирке считают гигафлопсы ;)

А Гигафлопсы это тоже не обязательно Rpeak.

Новость пеар чистой воды. Думаю на этом тему и можно закрыть.

mky ★★★★★
()
Ответ на: комментарий от mky

>А Гигафлопсы это тоже не обязательно Rpeak.

Тогда не говорите о _пиковой_ производительности а называйте при каких условиях и на какой задаче они получены. Я вам пример такой задачи и условий привёл. Аналогичные цифры содержит top500. сабжевая же железяка пока имеет всего навсего пиковую оценку. Реальная будет после тестов.

sS ★★★★★
()
Ответ на: комментарий от sS

>>А Гигафлопсы это тоже не обязательно Rpeak.

>Тогда не говорите о _пиковой_ производительности

Тогда формулируйте вопрос наподобие: "А сейчас рассказывай как в вашем цирке считают ПИКОВЫЕ гигафлопсы ;)"

>сабжевая же железяка пока имеет всего навсего пиковую оценку. Реальная будет после тестов.

Тесты то у нее уже были, точнее на http://www.nvidia.ru/object/tesla_press_ru.html представлено во сколько раз и на какой задаче она оказалась быстрее... Но сделано это так, что ничего не понять.

mky ★★★★★
()
Ответ на: комментарий от mky

>Тогда формулируйте вопрос наподобие: "А сейчас рассказывай как в вашем цирке считают ПИКОВЫЕ гигафлопсы ;)"

Кончайте тупить. Какие они еще могут быть когда речь идёт о сравнении ПРОЦЕССОРОВ ? Они пиковые и там и там.

>Тесты то у нее уже были, точнее на http://www.nvidia.ru/object/tesla_press_ru.html представлено во сколько раз и на какой задаче она оказалась быстрее... Но сделано это так, что ничего не понять.

Это не тесты это пеар ;) Большая часть этих тестов это визуализация в том или ином виде. Мы же говорим о GP вычислениях. А визуализация так или иначе по любому использует GPU. У той же CUDA есть версия CUBLAS. Вот как покажут на нём более менее осмысленный hpl тест - будет предмет для разговора.

sS ★★★★★
()
Ответ на: комментарий от sS

>Это не тесты это пеар ;) Большая часть этих тестов это визуализация в том или ином виде. Мы же говорим о GP вычислениях. А визуализация так или иначе по любому использует GPU. У той же CUDA есть версия CUBLAS. Вот как покажут на нём более менее осмысленный hpl тест - будет предмет для разговора.

Хорошо, на этом тему и закроем.

mky ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.