LINUX.ORG.RU
ФорумTalks

Intel x48-cores. Ховайся, кто может. Они наступают


0

0

Т.е. осталось доработать лазерную ПРО, оснастить ответные ракеты парочкой таких числодробилок. Беспилотники уже проходят финальную обкатку.

И реально можно начхать на весь остальной мир, а также тихо грабить караваны.

-------------------------------------------------------------- http://ko-online.com.ua/node/46577

Исследователи Intel продемонстрировали прототип 48-ядерного процессора, названного «одночиповым компьютером для “облачных” вычислений» и позволяющего пересмотреть конструкции настольных ПК, ноутбуков и серверов будущего.

Экспериментальный процессор предполагает в 10-20 раз более высокую производительность по сравнению с современными моделями семейства Intel Core.

Deleted
Ответ на: комментарий от Reset

То есть на основании, что есть группа алгоритмов, которые нельзя распараллелить, мы должны отказываться от прогресса в плане производства процессоров?

stave ★★★★★
()
Ответ на: комментарий от Karapuz

> Тогда зачем нам задачи вируальной реальности? Если уже 99% обеспечено?

Чтоб понять, что поступило на датчик А у нас хватит мощьности. А чтоб понять, то поступило н миллионы датчиков - нет. Тут распаралеливание

ЗЫ: очень грубо звучит

namezys ★★★★
()
Ответ на: комментарий от stave

он правильно говорит, что наращиваем числа ядер мы проблему не решим

даже 1000 обезъян не поделят 2 больших числа

namezys ★★★★
()
Ответ на: комментарий от YesSSS

Я тебя не обрадую — CSR это самый плохой формат для параллельных вычислений. MxM меня не интересовало, только MxV. Ссылка будет утром, под рукой нет.

Но грубо говоря смысл там был такой, что матрицу надо переупорядочивать перед вычислениями и подбирать формат хранения под себя. У меня формат ELL относильно хорошо работал.

Если матрица в процессе работы программы меняется сильно, то сделать видимо ничего нельзя, если меняется не сильно и можно описать правила изменения элементов, то всё не так плохо.

Reset ★★★★★
()
Ответ на: комментарий от stave

Нет, просто утверждается что это направления наращивания производительности имеет свой предел, причем весьма близкий. Эффективное распараллеливание на 128 ядер по сложности весьма часто будет конкурировать с собственно содержательной частью задачи, дальше - больше.

YesSSS ★★★
()
Ответ на: комментарий от namezys

Отличен только тем, что прирост будет давать существенно больший при «идеальном» распараллеливании. А задрочка с кешами тут, естественно, не проще чем с обычным SMP.

Reset ★★★★★
()
Ответ на: комментарий от YesSSS

> Эффективное распараллеливание на 128 ядер по сложности весьма часто будет конкурировать с собственно содержательной частью задачи, дальше - больше.

Ну для задачь юзера я бы не сказал. Я думаю предела для дома нет.

Сначала мы хотим тени, потом мы хотим HDR (или как его там). А потом нам и ray tracing подавай.

Везде все параллелится хорошо

А вот в серъезных задачах да - Ж***

namezys ★★★★
()
Ответ на: комментарий от Reset

Mvm у меня это именно matrix vector mul, запутал обозначениями. =)

Упорядочивание уже есть (Nested Dissection, Metis), зависимости между элементами нет. =(

Если подскажешь что еще можно оптимизировать - буду сильно рад.

YesSSS ★★★
()
Ответ на: комментарий от Reset

я тут подумал, что алгоритмы планирования поток, не учитывающие объединение кэшей и шин - не очень оптимальны. С этим не пытались бороться?

А на GPU кэш есть? или они сразу из этой быстрой памяти читают?

namezys ★★★★
()
Ответ на: комментарий от stave

> максимализм вроде проходит со временем. кто вам сказал, что идет только наращивание ядер?

А вы посмотрите, как щас x86 растет: сначала частоту, потом суперскаляр кривой прикрутили, потом кол-во регистров в 2 раза подняли, потом ядра стали наращивать.

Серъезный шаг был только при прикрутке суперскаляра. Остальное - развитие в ширь

namezys ★★★★
()
Ответ на: комментарий от namezys

> я тут подумал, что алгоритмы планирования поток, не учитывающие объединение кэшей и шин - не очень оптимальны. С этим не пытались бороться?

На современных x64 серверах обычно неоднородная организация памяти (NUMA), т.е. есть группы ядер(каждый проц) и соответствующая им физ. память с отдельной шиной. Afaik как линукс так и винда(2008) учитывают наличие таких связей.

А на GPU кэш есть? или они сразу из этой быстрой памяти читают?

Afaik есть, причем как явный так и прозрачный для программиста(в fermi - точно).

YesSSS ★★★
()
Ответ на: комментарий от YesSSS

> зависимости между элементами нет.

Я имел ввиду, что если матрица меняется со временем, то часть её элементов постоянна, а другая часть зависит от элементов предыдущего шага. Тогда фактически матрица будет обновляться очень просто и быстро и переупорядочивать ничего не надо.

Если матрица пересчитывается каждый раз заново, то боюсь умножение как раз не будет узким местом.

Если упорядочивание есть, то надо выбирать формат хранения.

Reset ★★★★★
()
Ответ на: комментарий от YesSSS

> Afaik как линукс так и винда(2008) учитывают наличие таких связей.

В винде не было (в 2000 по крайней мере). И то, что было написано в книжке про ее планировщик, говорит что добавить это наверно сложно

А вот про линух не знаю. В ядре 2.6.*, на заре О(1) планировщика тоже не было

Afaik есть, причем как явный так и прозрачный для программиста(в fermi - точно).

А еще подробнее можно, если знаете?

namezys ★★★★
()
Ответ на: комментарий от YesSSS

Не совсем кеш. В g80 и g200 есть так называемая разделяемая память, которая разделяется между несколькими потоками. Доступ к этой памяти существенно более быстрый чем доступ к общей памяти. Поэтому работают обычно с блоками — скопировали блок в разделяемую память, что-то быстро с ним сделали, вернули назад. Если с кешем обычного проца при программировании на Си работает неявным образом, то в случае с разделяемой памятью все копирования надо делать явно.

А на fermi есть полноценный кеш ну и разделяемая память никуда не делась.

Reset ★★★★★
()
Ответ на: комментарий от Reset

то есть предварительно делаем выборку данных (сами), а потом уже работаем с ней?

ЗЫ: а зачем там неявный кэш? Есть ли там операции явной работы с памятью?

namezys ★★★★
()
Ответ на: комментарий от namezys

Кеш и разделяемая память общая для одного вычислительного блока. Один вычислительный блок исполняет несколько потоков. Один блок не может залезть разделяемую память другого блока (насчет кеша не знаю, но логично думать, что тоже не может).

Reset ★★★★★
()
Ответ на: комментарий от Reset

хм... надо бы покурить все это, но время нету

а интересно

namezys ★★★★
()
Ответ на: комментарий от namezys

> то есть предварительно делаем выборку данных (сами), а потом уже работаем с ней?

да

ЗЫ: а зачем там неявный кэш? Есть ли там операции явной работы с памятью?

Неявного как раз нет в g80 и g200. Просто с памятью работать можно, только ускорение ты врядли получишь :)

Reset ★★★★★
()
Ответ на: комментарий от Reset

> Просто с памятью работать можно, только ускорение ты врядли получишь :)

с памятью видюхи или оперативкой?

namezys ★★★★
()
Ответ на: комментарий от namezys

>мда. если процессорыы будующего

будующего


ну пипец же.

будут расти только за счет ядер - ничего хорошего не будет


А куда дальше? По частоте вычерпали из кремния всё. Ну, если не смотреть на затраты, то гигагерц 10 можно вытянуть. Всё. Физика.

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

> По частоте вычерпали из кремния всё.

не только частотой можно

архитектурой. специфичными процессорами и тд

namezys ★★★★
()
Ответ на: комментарий от namezys

>архитектурой.

Экономичнее сделать можно и дофига. Быстрее? Уже почти невозможно. У кого сегодня при той же разрядности производительность выше, чем у x86 хотя бы вдвое? Разрядность, конечно, наращивать можно, но число ядер увеличивать - выгоднее и универсальнее.

специфичными процессорами и тд


Мы про универсальные процессоры. А у специфичных путь наращивания числа ядер уже давноооо идёт. Про GPU выше уже говорили :)

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

будующего


ну пипец же


Люди с третьего класса на хаскеле пишут, им не до русской орфографии

Karapuz ★★★★★
()
Ответ на: комментарий от Reset

> Скоро выйдет nvidia fermi, который порвет этот intel как тузик грелку.

Ага, а за ними ноубуки на АРМах, 100 ядерные процы, проц от китайцев на основе МИПС, Лараби... и сразу после этого программы будут без ошибок и все это никогда не будет тормозить.

И где все это можно купить за приемлимые деньги, так хочется линкус на это поставить и посмотреть, как оно работает...

Достали своими завтраками.

Liosha_Syrnikov
()
Ответ на: комментарий от Reset

> А на хорошо распараллеливаемых алгоритмах nvidia будет рвать intel.

Уже рвет, CUDA называется. Задачи для нее можно на пальцах пересчитать.

Liosha_Syrnikov
()
Ответ на: комментарий от bibi

> Странно. Тогда я катастрофически не понимаю, как мои mysql/pgsql практически линейно скалируются на 4-8-16 ядер. По крайней мере с точки зрения конечной производительности. Наверное, внутри них есть какие-то совсем уже хитрые алгоритмы.

Расскажи, как один select на 4 ядра распараллелить в Postrges. Мне очень надо.

Liosha_Syrnikov
()
Ответ на: комментарий от Karapuz

> Представьте, что однажды Вы сможете брать у компьютера уроки танца или при помощи 3D-камеры пройтись по магазину одежды и примерить наряды.

Забористый компьютер потребуется...

Liosha_Syrnikov
()
Ответ на: комментарий от namezys

NUMA в Linux есть. Можешь сам погуглить.

http://www.linux-mag.com/id/6868/ - это для начала.

Там прикол такой, что планировщик пытается задачу всегда выполнять на том же ядре, что и запустил и память выделять и блока, самого близкого к этому ядру. Тогда и кеш используется лучше и контроллер памяти быстрее делает выборки из своего блока памяти. Но есть и более сложные случаи.

Liosha_Syrnikov
()
Ответ на: комментарий от namezys

> В винде не было (в 2000 по крайней мере).

В 2008 - точно есть.

В линуксе есть, с каких версий - хз(точно раньше 2.6.18).

YesSSS ★★★
()
Ответ на: комментарий от namezys

> но память там же жутко быстрая

Afaik память там конечно быстрее чем системная раз в 10(~150Gb/s в fermi анонсировалось), но ядра - еще быстрее. Там перекос с памятью тоже есть.

YesSSS ★★★
()

Что-то с интелом не то...

Главный исполнительный директор компании Intel Пол Отеллини (Paul S. Otellini) ознакомил разработчиков и специалистов, собравшихся на Форуме IDF, с перспективами развития производства процессоров и продемонстрировал ряд новых разработок, в числе которых прототип процессора с 80 ядрами.

http://www.cnews.ru/news/line/index.shtml?2006/09/27/212271

matich
()
Ответ на: комментарий от KRoN73

Кроме ядер еще тенденция добавлять дополнительные вычислительные блоки специализированного назначения.

madcore ★★★★★
()
Ответ на: комментарий от madcore

>Кроме ядер еще тенденция добавлять дополнительные вычислительные блоки специализированного назначения.

У каких универсальных процессоров такое сейчас реализовано?

KRoN73 ★★★★★
()

То, что Intel показывали о 80 ядрах парой лет ранее, было вроде не x86 ?

Теперь они запилили x86-версию ?

ef37 ★★
()
Ответ на: комментарий от px

пожелаем powerpc скорейшего загибания и процветания MOC 6502

matich
()
Ответ на: комментарий от YesSSS

вот хорошая статья http://mgarland.org/files/papers/nvr-2008-004.pdf

Оно под cuda заточено, но на openmp примерно тоже самое у меня получалось. Из этой статьи можно выцепить ключевые слова, чтоб понять в каком направлении мучить гугл :)

Reset ★★★★★
()

Эх, я думал новую архитектуру забабахали. А так уныло.

ЗЫ По воводу ракет - как ты себе представляешь облачные вычисления в жестком реалтайме?

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от volh

>>48 ядер суммарно расходуют не более 25 Вт в режиме ожидания и 125 Вт при максимальной производительности

вот за это респект. пошли бы они дальше и сделали нотебуки, которые работают от четырех пальчиковых аккумуляторов..


125 ватт это охрененно много. Разбереи какой-нибудь пентиум-66 и посмотри на размеры кулера

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

>125 ватт это охрененно много. Разбереи какой-нибудь пентиум-66 и посмотри на размеры кулера.

Дык этот pentium и содержит только одно ядро и рассеивает около 10 Вт. 125 Вт / 48 ядер даст около 3 Вт на ядро. Что не так ?

ef37 ★★
()
Ответ на: комментарий от Liosha_Syrnikov

> Расскажи, как один select на 4 ядра распараллелить в Postrges. Мне очень надо.

чтож к тебя за задача, что один клиент такой запрос выполняет

namezys ★★★★
()
Ответ на: комментарий от madcore

> В х86 - mmmx, 3dnow!, sse

легкие расширениятакие не принципиальны

namezys ★★★★
()
Ответ на: комментарий от madcore

>В х86 - mmmx, 3dnow!, sse

Оно со времён Pentium одномодульное.

KRoN73 ★★★★★
()
Ответ на: комментарий от madcore

altivec
некоторые пишут что оно даже лучше SSE

Sylvia ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.