LINUX.ORG.RU

Вышла первая партия процессоров Эльбрус-8С

 ,


8

12

Первая партия инженерных образцов процессора Эльбрус-8С и южного моста КПИ-2 готова к тестированию.


Архитектура процессора: «Эльбрус»
Количество ядер: 8
Кэш-память 2го уровня: 8 * 512 КБ (4 МБ)
Кэш-память 3го уровня: 16 МБ
Рабочая частота: 1.3 ГГц
Производительность: 250 ГФлопс (FP32)
Тип контроллеров памяти: DDR3-1600 (ECC)
Кол-во контроллеров памяти: 4
Процессоров на плате: 4
Технологический процесс: 28 нм

>>> Фото



Проверено: Shaman007 ()
Последнее исправление: Shaman007 (всего исправлений: 1)
Ответ на: комментарий от alt-x

Оценивать, запускать тесты, разработать вычислительную программу кое-какого назначения - и если она будет работать с нужной скоростью, то тогда будем строить системы на базе этих процессоров. Это не мои фантазии, в моем конкретном случае это вполне реальная перспектива. Однако это лишь планы на ближайшие два-три года, но доступ уже сейчас вполне позволил что-то оценить.

I-Love-Microsoft ★★★★★
()
Последнее исправление: I-Love-Microsoft (всего исправлений: 1)
Ответ на: комментарий от alt-x

Для R1000 нет (просто ради смеха заодно получил доступ), для Эльбруса - да. А Вы с какой целью интересуетесь, на разведку какой страны работаете? :)

I-Love-Microsoft ★★★★★
()
Последнее исправление: I-Love-Microsoft (всего исправлений: 1)
Ответ на: комментарий от I-Love-Microsoft

Это - не по работе, это - для себя. :-)

alt-x ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

А можно и на этой машинке что-нибудь прогнать?(и сравнить) Вопрос в том, насколько имело смысл велосипедить Эльбрус при наличии спарков/мипсов?

GAMer ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

на разведку какой страны работаете? :)

А вы разведку какой страны предпочитаете? %)

tailgunner ★★★★★
()
Ответ на: комментарий от GAMer

146% что стоило, потенциал оптимизации у Эльбрусов чудовищно высокий в то время как спарк это спарк и там конкурентов не перепрыгнешь... даже в этой теме я приводил листинги на асме где одна команда явно видно что загрузила очень много блоков исполнения...

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

и если она будет работать с нужной скоростью

У нас вон до сих пор внебрачные родственники PDP-11 и VAX'ов плавают/ездють, а вам всё скорости не хватает =)

GAMer ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

потенциал оптимизации у Эльбрусов чудовищно высокий

То, что неоптимизированный код сливает в разы - это плохо. Да и VLIW/EPIC уже не передовая, EDGE обещают ещё больше.

я приводил листинги на асме

А где взять мануал-то? В доступном book_121130.pdf, в основном пространные рассуждения, асма нету =\

GAMer ★★★★★
()
Ответ на: комментарий от GAMer

EDGE

Я знаю что это, но какие ОС могут поддерживать процы с такой архитектурой? У меня есть ощущение что они сродни тем что в видеокартах. А раз так - не заржавеет в будущем за Эльбрусом чтобы у него подобные были в качестве сопроцессоров, типа как DSP уже сейчас.

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

но какие ОС могут поддерживать процы с такой архитектурой?

А какая разница КАК выполняется код, если исходник тот же? EDGE наверное можно рассматривать как VLIW со словом размером с гиперблок.

GAMer ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

-fno-inline

ыыы... у меня просто слов нет... ладно, все же сделаю усилие и попытаюсь их найти — убери к чертям это -fno-inline

ты же просил четко указывать опции — я тебе их четко указал; да, можно добавить -mcpu=blablabla, т.к. естественно у меня другой cpu

-fno-inline <...> Normally this option is used to keep the compiler from expanding any functions inline.

т.е. эта опция будет *тормозить* бинарник, что мы и видим в случае с++

-ffast

что это за опция? с виду, вроде, должна ускорять, но у жцц и ж++ ее нет

www_linux_org_ru ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

Ждем еще тестов! :)

я думаю, что этот тест можно переписать так, чтобы свести на нет преимущество современной памяти DDR3 перед DDR2, и тогда это будет уже больше похоже на тестирование процессора; (еще можно попросить кого-нить на лоре прогнать этот тест на машинке с DDR2)

наверно дальше стоило бы потестить скорость и латентность кэшей; что линукс говорит про кэши проца (хотя бы cat /proc/cpuinfo)? а можно посмотреть, что за ddr2 память там стоит (больше всего интересуют тайминги, но я не в курсе, можно ли без рута посмотреть название памяти на машинке — подозреваю что нельзя)?

кстати, напомни, тот проц что ты тестируешь — 2-х ядерный? тогда интересно было бы потестить его межядерное взаимодествие

www_linux_org_ru ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

вот еще один вариант того же теста, который позволяет посмотреть, действительно ли плюсовая версия тормозит; хотя я не верю, что ж++ можно настолько испортить, что она будет тормозить в несколько раз, но вдруг?

/// возможны 3 варианта запуска:
/// g++          -std=c++98 -Wall -Wextra -Werror -O3 prime_1c1.c && time ./a.out
/// g++ -DVECTOR -std=c++98 -Wall -Wextra -Werror -O3 prime_1c1.c && time ./a.out
/// gcc          -std=c99   -Wall -Wextra -Werror -O3 prime_1c1.c && time ./a.out

#include <stdio.h>
#include <assert.h>
#include <stdlib.h>
#include <stdbool.h>

#ifdef VECTOR
#include <vector>
#endif

int main()
{
    const int n = 214739071;
    int prime_count=0;

    assert( sizeof(char)==1 ); /// ну мало ли...

#ifdef VECTOR
    std::vector<char> is_prime(n+1);
#else
    char* is_prime = (char*) malloc(n+1);
    if( !is_prime ) return 1;
#endif

    for( int i=2; i<=n; ++i )  is_prime[i] = true;

    is_prime[0] = is_prime[1] = false;

    for( int p=2; p*p<=n; ++p )
    {
        if( is_prime[p] )
        {
            for( int i=p*p; i<=n; i+=p )
            {
                is_prime[i] = false;
            }
        }
    }

    for( int i=0; i<20; ++i )
    {
        if( is_prime[i] )  printf("%d ",i);
    }

    for( int i=0; i<=n; ++i )
    { 
        prime_count += is_prime[i];
    }

    printf( "prime_count=%d\n", prime_count );

    return 0;
}

Очень прошу прилагать результаты тестов на своей машине и указанием какой проц

вот на Intel(R) Celeron(R) CPU 1037U @ 1.80GHz, cache size:2048 KB, память если не ошибаюсь PC10600 9-9-9-27 (медленная короче, точнее надо глянуть) тест выше у меня идет за 2.7...2.9 секунд, правда машинка нагружена немножко десктопом

www_linux_org_ru ★★★★★
()
Ответ на: комментарий от www_linux_org_ru

хотя я не верю, что ж++ можно настолько испортить, что она будет тормозить в несколько раз, но вдруг?

У них вроде как свой компилятор, по флагам совместимый с gcc.

anonymous
()
Ответ на: комментарий от I-Love-Microsoft

Оценивать, запускать тесты, разработать вычислительную программу кое-какого назначения - и если она будет работать с нужной скоростью, то тогда будем строить системы на базе этих процессоров.

<vanga-mode>процессор у них получился нормальный, отстает от лучших, но не фатально, однако он жутко глючный, особенно в области обвязки, и возможно в области компилятора, что и следовало ожидать при недостаточном финансировании</vanga-mode>

так что тестить его надо на глюки, и очень сильно, если твое благополучие зависит от нормальной работы сделанной на нем системы

то же самое я бы сказал tailgunner-у — мой интерес к этому процу чисто академический, а вот ваш с ним?

www_linux_org_ru ★★★★★
()
Ответ на: комментарий от Santey

Если же массив p был заполнен случайными значениями, то предсказатель переходов оказывался бессилен и время исполнения увеличивалось многократно. Интересно, как при таком раскладе будет вести себя Эльбрус

действительно интересно, подумаю над таким тестом

www_linux_org_ru ★★★★★
()
Ответ на: комментарий от anonymous

У них вроде как свой компилятор, по флагам совместимый с gcc.

я об этом услышал недавно, а раньше вроде говорили, что у них своя версия gcc

www_linux_org_ru ★★★★★
()
Ответ на: комментарий от www_linux_org_ru

я об этом услышал недавно, а раньше вроде говорили, что у них своя версия gcc

Скорее всего, имелось ввиду «свой файл с названием gcc». Насколько я знаю, у них с самого начала был свой компилятор, написанный с нуля: lcc.

alt-x ★★★★★
()
Ответ на: комментарий от www_linux_org_ru

мой интерес к этому процу чисто академический, а вот ваш с ним?

А мой - не чисто. Угроза писать программы для этого счастья витает рядом уже пару лет.

tailgunner ★★★★★
()
Ответ на: комментарий от alt-x

Как ни странно, но похоже в МЦСТ пробрались враги и они умудрились сделать R1000 относительно вменяемым изделием. Кушать можно. Но не всем. Они все ноют, что вот нет массовых заказов, но даже если и заказать много изделий, то их будет только через...Короче не быстро, т.к. производство не имеет нужных мощностей для массового производства.

TomBOY ★★
()
Ответ на: комментарий от TomBOY

умудрились сделать R1000 относительно вменяемым изделием. Кушать можно.

Да, R1000 мне тоже понравился. Но, как я понял они его решили закопать. Так что, о R1000 или хорошо или никак.

alt-x ★★★★★
()

У меня вопрос что значит гибридная архитектура VLIW&Sparc? Что там присутствуют наработки САН? Интересно, что будет со стоимостью...

eureur_de
()
Ответ на: комментарий от eureur_de

Не могу ответить. Сведения о процессоре малодоступны.

TomBOY ★★
()
Ответ на: комментарий от Santey

Использование -o madd_vect.out дало ускорение более чем в 3 раза по сравнению с -fno-vect -o madd_no_vect.out

Деточка, опция -o (o маленькая) не даёт абсолютно никакого ускорения. Почитай хотя бы про основные ключи gcc. Ну а то что отключенная векторизация (-fno-vect) приводит к замедлению работы подобной задачи - ну так ничего удивительного.

anonymous
()
Ответ на: комментарий от anonymous

Звони в МЦСТ, скажи чтобы завернули тебе сивучей пару штук. Это кодовая фраза. И там уже вопрос денег.

TomBOY ★★
()
Ответ на: комментарий от KRoN73

4С сливает R1000 и по частоте и балансировке нагрузки и по пожароопасности. Хотя последний пункт можно оспорить.

TomBOY ★★
()
Ответ на: комментарий от LongLiveUbuntu

Вообще-то там OpeBIOS. Сила воли пригодится.

TomBOY ★★
()
Ответ на: комментарий от devl547

Никто ничего не закапывает. Уже разрабатываются следующие версии процессоров:

Эльбрус-8С2 - 4 канала DDR4 и вероятно увеличение разрядности АЛК с 64 до 128 бит, то есть вместо 12 DP флопов за такт будет 24, что должно дать при той же частоте 1,3 ГГц - 249,6 Гфлопс (499,2 SP Гфлопс).

Эльбрус-16С - 16 ядер @ 1,5 ГГц, 24 DP флопа на такт на ядро: 576 DP Гфлопс (1,152 SP Терафлопса) - 2018.

Вот тут оценка производительности Эльбрус-8С: http://savepic.su/4671124.jpg

Razboynik
()
Ответ на: комментарий от Razboynik

Уже разрабатываются следующие версии процессоров:

Они бы 4C для начала выпустили.

что должно дать при той же частоте 1,3 ГГц

Даже до 1ГГц не добрались, какие 1.3?

249,6 Гфлопс

Линпак - фигня.
Реальные задачи где? А реальных задач не гоняют. Потому что в них результаты не вмечатляют.

devl547 ★★★★★
()
Ответ на: комментарий от devl547

Гоняли. В 7zip немногим лучше корки при равных частотах. Частоты - печальные ибо VLIW. Грядущее расширение конвейера - даст больше попугаев в тестах, но на реальные задачи типа 7zip никак не повлияет.

NiTr0 ★★★★★
()
Ответ на: комментарий от Razboynik

Razboynik

Эльбрус-8С2 - 4 канала DDR4 и вероятно увеличение разрядности АЛК с 64 до 128 бит, то есть вместо 12 DP флопов за такт будет 24, что должно дать при той же частоте 1,3 ГГц - 249,6 Гфлопс (499,2 SP Гфлопс).

Нашел! «Российские технологии «Эльбрус» для перспективных компьютеров, серверов и суперкомпьютеров»

Во вновь разрабатываемых процессорах линии «Эльбрус» возможности выполнения упакованных операций удваиваются.

numas13
()

Молодцы братья, готов покупать!

Ура, друзья! Ждём с нетерпением поддержки в GCC для возможности компиляции Gentoo. Давно пора заменить недоразвитые и ограниченные архитектуры на современный русский Эльбрус.

PS: Враги нации - агенты пятёрочки, мелкомягких, интелов, продвинутых микроустройств и прочие лярвы на теле великой страны доставляют кипятком. Придёт время им захлебнуться в своих кислотных язвах.

asm64kmr
()
Ответ на: комментарий от numas13

Удвоение будет скорее всего только в Эльбрус-16С. Раз уже озвучили цифру в 250 Гфлопc(SP). Во всех их планах цифра неизменна. В Эльбрус-8С же «Количество вычислительных устройств с плавающей запятой увеличено с 4 до 6» http://www.mcst.ru/vosmiyadernyj-mikroprocessor-s-arkhitekturoj-elbrus

Отсюда и рост флопсов на 50% в сравнении с предыдущими Эльбрус.

«Наряду с параллелизмом на уровне операций в архитектуре «Эльбрус» реализован векторный параллелизм за счет операций над упакованными данными. Благодаря этому возможности выполнения 32-разрядных вещественных операций на одном ядре возрастают в 2 раза и позволяют исполнять: на «Эльбрус-2С+» и «Эльбрус-4С» до 16, а на микропроцессоре «Эльбрус-8С» – до 24 упакованных операций (Флопс)» http://www.mcst.ru/files/5472ef/770cd8/50ea05/000001/rossiyskietehnologiielbr...

С 16 до 24 SP. На 50%.

24*8*1300 = 249.6 Гфлопс (SP).

ReadWrite
() автор топика
Ответ на: комментарий от ReadWrite

Всё это известно. Речь было про некий Эльбрус-8С2. Я ничего не нашёл по его поводу, кроме одного документа. Возможно в нём и будет заветное увеличение РгФ.

Повышение пропускной способности подсистемы памяти СнК Эльбрус-8С2

Эльбрус-8С2 — разрабатываемая в настоящее время восьмиядерная система на кристалле с общим L3-кэшем объёмом 16 МБ и четырьмя каналами DDR4 SDRAM.

numas13
()

Игрушки уже есть интересные под этот проц?

Как идут на нём популярные дос-игры (wolf3d, f15.com, prince of persia)?

anonymous
()
Ответ на: комментарий от anonymous
vendor_id	: SIVUCH 2 (MP1C2/V)
model name	: R1000
cpu		: R1000
fpu		: MCST 4R integrated FPU
pmu		: sparc64v
revision	: 3
type		: sun4u
ncpus probed	: 4
ncpus active	: 4
D$ parity tl1	: 0
I$ parity tl1	: 0
Cpu0ClkTck	: 000000003b9a7ed8
Cpu0 MHz	: 999.980760
Cpu1ClkTck	: 000000003b9a7ed8
Cpu1 MHz	: 999.980760
Cpu2ClkTck	: 000000003b9a7ed8
Cpu2 MHz	: 999.980760
Cpu3ClkTck	: 000000003b9a7ed8
Cpu3 MHz	: 999.980760
MMU Type	: Cheetah+
State:
CPU0:		online
CPU1:		online
CPU2:		online
CPU3:		online
TomBOY ★★
()
Ответ на: комментарий от www_linux_org_ru

Для R1000

l++ -std=c++98 -Wall -Wextra -Werror -O3 test.cpp -o test
time ./test
2 3 5 7 11 13 17 19 prime_count=11848607
real	0m30.811s
user	0m30.090s
sys	0m0.600s

l++ -DVECTOR -std=c++98 -Wall -Wextra -Werror -O3 test.cpp -o test 
time ./test
2 3 5 7 11 13 17 19 prime_count=11848607

real	0m32.610s
user	0m31.910s
sys	0m0.570s

l++ -std=c99 -Wall -Wextra -Werror -O3 test.cpp -o test

time ./test
2 3 5 7 11 13 17 19 prime_count=11848607

real	0m30.814s
user	0m30.100s
sys	0m0.590s


TomBOY ★★
()
Ответ на: комментарий от numas13

Да я тоже видел сей документ. Но там только об оптимизации памяти и внедрении DDR4. В Эльбрус-8С уже ничего я уверен не изменят в плане числа исполнительных блоков. Да и не надо. Им в срок бы его выпустить и начать работу над Эльбрус-16С под новый техпроцесс. Вот там они уже увеличат число АЛУ видимо раз обещали или расширят. Главное частоту им поднять хотя бы до 2 Ггц. Стоит отметить что была новость что в России собираются делать отечественный суперкомпьютер на 1 Петафлопс для оборонки. И на эту роль как раз лучше всего подходит Эльбрус. Видать у МЦСТ появится заказ. Может поэтому они решили внедрить уже ДДР4, чтобы уже соответствовать современным требованиям.

ReadWrite
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.