Intel x48-cores. Ховайся, кто может. Они наступают

0

0

Т.е. осталось доработать лазерную ПРО, оснастить ответные ракеты парочкой таких числодробилок. Беспилотники уже проходят финальную обкатку.

И реально можно начхать на весь остальной мир, а также тихо грабить караваны.

-------------------------------------------------------------- http://ko-online.com.ua/node/46577

Исследователи Intel продемонстрировали прототип 48-ядерного процессора, названного «одночиповым компьютером для “облачных” вычислений» и позволяющего пересмотреть конструкции настольных ПК, ноутбуков и серверов будущего.

Экспериментальный процессор предполагает в 10-20 раз более высокую производительность по сравнению с современными моделями семейства Intel Core.

Ссылка

←	3Q Nettop Qoo!

Нужен снифер для фокса

→

← 1 2 3 →

Ответ на: комментарий от Reset 03.12.09 00:09:36 MSK

То есть на основании, что есть группа алгоритмов, которые нельзя распараллелить, мы должны отказываться от прогресса в плане производства процессоров?

stave ★★★★★
(03.12.09 00:12:12 MSK)

Ответ на: комментарий от Karapuz 03.12.09 00:02:29 MSK

> Тогда зачем нам задачи вируальной реальности? Если уже 99% обеспечено?

Чтоб понять, что поступило на датчик А у нас хватит мощьности. А чтоб понять, то поступило н миллионы датчиков - нет. Тут распаралеливание

ЗЫ: очень грубо звучит

namezys ★★★★
(03.12.09 00:13:26 MSK)

Ссылка

Ответ на: комментарий от stave 03.12.09 00:12:12 MSK

он правильно говорит, что наращиваем числа ядер мы проблему не решим

даже 1000 обезъян не поделят 2 больших числа

namezys ★★★★
(03.12.09 00:14:52 MSK)

Ответ на: комментарий от YesSSS 03.12.09 00:06:11 MSK

Я тебя не обрадую — CSR это самый плохой формат для параллельных вычислений. MxM меня не интересовало, только MxV. Ссылка будет утром, под рукой нет.

Но грубо говоря смысл там был такой, что матрицу надо переупорядочивать перед вычислениями и подбирать формат хранения под себя. У меня формат ELL относильно хорошо работал.

Если матрица в процессе работы программы меняется сильно, то сделать видимо ничего нельзя, если меняется не сильно и можно описать правила изменения элементов, то всё не так плохо.

Reset ★★★★★
(03.12.09 00:15:58 MSK)

Ответ на: комментарий от namezys 03.12.09 00:14:52 MSK

максимализм вроде проходит со временем. кто вам сказал, что идет только наращивание ядер?

stave ★★★★★
(03.12.09 00:16:17 MSK)

Ответ на: комментарий от stave 03.12.09 00:12:12 MSK

Нет, просто утверждается что это направления наращивания производительности имеет свой предел, причем весьма близкий. Эффективное распараллеливание на 128 ядер по сложности весьма часто будет конкурировать с собственно содержательной частью задачи, дальше - больше.

YesSSS ★★★
(03.12.09 00:17:10 MSK)

Ответ на: комментарий от namezys 03.12.09 00:10:12 MSK

Отличен только тем, что прирост будет давать существенно больший при «идеальном» распараллеливании. А задрочка с кешами тут, естественно, не проще чем с обычным SMP.

Reset ★★★★★
(03.12.09 00:19:28 MSK)

Ответ на: комментарий от YesSSS 03.12.09 00:17:10 MSK

> Эффективное распараллеливание на 128 ядер по сложности весьма часто будет конкурировать с собственно содержательной частью задачи, дальше - больше.

Ну для задачь юзера я бы не сказал. Я думаю предела для дома нет.

Сначала мы хотим тени, потом мы хотим HDR (или как его там). А потом нам и ray tracing подавай.

Везде все параллелится хорошо

А вот в серъезных задачах да - Ж***

namezys ★★★★
(03.12.09 00:19:32 MSK)

Ссылка

Ответ на: комментарий от Reset 03.12.09 00:15:58 MSK

Mvm у меня это именно matrix vector mul, запутал обозначениями. =)

Упорядочивание уже есть (Nested Dissection, Metis), зависимости между элементами нет. =(

Если подскажешь что еще можно оптимизировать - буду сильно рад.

YesSSS ★★★
(03.12.09 00:20:40 MSK)

Ответ на: комментарий от Reset 03.12.09 00:19:28 MSK

я тут подумал, что алгоритмы планирования поток, не учитывающие объединение кэшей и шин - не очень оптимальны. С этим не пытались бороться?

А на GPU кэш есть? или они сразу из этой быстрой памяти читают?

namezys ★★★★
(03.12.09 00:21:24 MSK)

Ответ на: комментарий от stave 03.12.09 00:16:17 MSK

> максимализм вроде проходит со временем. кто вам сказал, что идет только наращивание ядер?

А вы посмотрите, как щас x86 растет: сначала частоту, потом суперскаляр кривой прикрутили, потом кол-во регистров в 2 раза подняли, потом ядра стали наращивать.

Серъезный шаг был только при прикрутке суперскаляра. Остальное - развитие в ширь

namezys ★★★★
(03.12.09 00:23:14 MSK)

Ссылка

Ответ на: комментарий от namezys 03.12.09 00:21:24 MSK

> я тут подумал, что алгоритмы планирования поток, не учитывающие объединение кэшей и шин - не очень оптимальны. С этим не пытались бороться?

На современных x64 серверах обычно неоднородная организация памяти (NUMA), т.е. есть группы ядер(каждый проц) и соответствующая им физ. память с отдельной шиной. Afaik как линукс так и винда(2008) учитывают наличие таких связей.

А на GPU кэш есть? или они сразу из этой быстрой памяти читают?

Afaik есть, причем как явный так и прозрачный для программиста(в fermi - точно).

YesSSS ★★★
(03.12.09 00:25:48 MSK)

Ответ на: комментарий от YesSSS 03.12.09 00:20:40 MSK

> зависимости между элементами нет.

Я имел ввиду, что если матрица меняется со временем, то часть её элементов постоянна, а другая часть зависит от элементов предыдущего шага. Тогда фактически матрица будет обновляться очень просто и быстро и переупорядочивать ничего не надо.

Если матрица пересчитывается каждый раз заново, то боюсь умножение как раз не будет узким местом.

Если упорядочивание есть, то надо выбирать формат хранения.

Reset ★★★★★
(03.12.09 00:30:37 MSK)

Ссылка

Ответ на: комментарий от YesSSS 03.12.09 00:25:48 MSK

> Afaik как линукс так и винда(2008) учитывают наличие таких связей.

В винде не было (в 2000 по крайней мере). И то, что было написано в книжке про ее планировщик, говорит что добавить это наверно сложно

А вот про линух не знаю. В ядре 2.6.*, на заре О(1) планировщика тоже не было

Afaik есть, причем как явный так и прозрачный для программиста(в fermi - точно).

А еще подробнее можно, если знаете?

namezys ★★★★
(03.12.09 00:30:53 MSK)

Ответ на: комментарий от YesSSS 03.12.09 00:25:48 MSK

Не совсем кеш. В g80 и g200 есть так называемая разделяемая память, которая разделяется между несколькими потоками. Доступ к этой памяти существенно более быстрый чем доступ к общей памяти. Поэтому работают обычно с блоками — скопировали блок в разделяемую память, что-то быстро с ним сделали, вернули назад. Если с кешем обычного проца при программировании на Си работает неявным образом, то в случае с разделяемой памятью все копирования надо делать явно.

А на fermi есть полноценный кеш ну и разделяемая память никуда не делась.

Reset ★★★★★
(03.12.09 00:35:20 MSK)

Ответ на: комментарий от Reset 03.12.09 00:35:20 MSK

то есть предварительно делаем выборку данных (сами), а потом уже работаем с ней?

ЗЫ: а зачем там неявный кэш? Есть ли там операции явной работы с памятью?

namezys ★★★★
(03.12.09 00:37:36 MSK)

Ответ на: комментарий от namezys 03.12.09 00:30:53 MSK

Кеш и разделяемая память общая для одного вычислительного блока. Один вычислительный блок исполняет несколько потоков. Один блок не может залезть разделяемую память другого блока (насчет кеша не знаю, но логично думать, что тоже не может).

Reset ★★★★★
(03.12.09 00:38:56 MSK)

Ответ на: комментарий от Reset 03.12.09 00:38:56 MSK

хм... надо бы покурить все это, но время нету

а интересно

namezys ★★★★
(03.12.09 00:40:07 MSK)

Ссылка

Ответ на: комментарий от namezys 03.12.09 00:37:36 MSK

> то есть предварительно делаем выборку данных (сами), а потом уже работаем с ней?

да

ЗЫ: а зачем там неявный кэш? Есть ли там операции явной работы с памятью?

Неявного как раз нет в g80 и g200. Просто с памятью работать можно, только ускорение ты врядли получишь :)

Reset ★★★★★
(03.12.09 00:41:12 MSK)

Ответ на: комментарий от Reset 03.12.09 00:41:12 MSK

> Просто с памятью работать можно, только ускорение ты врядли получишь :)

с памятью видюхи или оперативкой?

namezys ★★★★
(03.12.09 00:42:45 MSK)

Ответ на: комментарий от namezys 03.12.09 00:42:45 MSK

С памятью видюхи, с оперативкой никак нельзя.

Reset ★★★★★
(03.12.09 00:44:29 MSK)

Ответ на: комментарий от Reset 03.12.09 00:44:29 MSK

> С памятью видюхи, с оперативкой никак нельзя.

что логично

но память там же жутко быстрая

namezys ★★★★
(03.12.09 00:46:28 MSK)

Ответ на: комментарий от namezys 02.12.09 22:35:38 MSK

>мда. если процессорыы будующего

будующего

ну пипец же.

будут расти только за счет ядер - ничего хорошего не будет

А куда дальше? По частоте вычерпали из кремния всё. Ну, если не смотреть на затраты, то гигагерц 10 можно вытянуть. Всё. Физика.

~~KRoN73~~ ★★★★★
(03.12.09 00:59:32 MSK)

Ответ на: комментарий от KRoN73 03.12.09 00:59:32 MSK

> По частоте вычерпали из кремния всё.

не только частотой можно

архитектурой. специфичными процессорами и тд

namezys ★★★★
(03.12.09 01:02:55 MSK)

Ответ на: комментарий от namezys 03.12.09 01:02:55 MSK

>архитектурой.

Экономичнее сделать можно и дофига. Быстрее? Уже почти невозможно. У кого сегодня при той же разрядности производительность выше, чем у x86 хотя бы вдвое? Разрядность, конечно, наращивать можно, но число ядер увеличивать - выгоднее и универсальнее.

специфичными процессорами и тд

Мы про универсальные процессоры. А у специфичных путь наращивания числа ядер уже давноооо идёт. Про GPU выше уже говорили :)

~~KRoN73~~ ★★★★★
(03.12.09 01:10:49 MSK)

Ответ на: комментарий от KRoN73 03.12.09 00:59:32 MSK

будующего

ну пипец же

Люди с третьего класса на хаскеле пишут, им не до русской орфографии

Karapuz ★★★★★
(03.12.09 02:02:49 MSK)

Ссылка

Ответ на: комментарий от Reset 02.12.09 23:11:25 MSK

> Скоро выйдет nvidia fermi, который порвет этот intel как тузик грелку.

Ага, а за ними ноубуки на АРМах, 100 ядерные процы, проц от китайцев на основе МИПС, Лараби... и сразу после этого программы будут без ошибок и все это никогда не будет тормозить.

И где все это можно купить за приемлимые деньги, так хочется линкус на это поставить и посмотреть, как оно работает...

Достали своими завтраками.

~~Liosha_Syrnikov~~ ★
(03.12.09 02:11:06 MSK)

Ссылка

Ответ на: комментарий от Reset 02.12.09 23:36:56 MSK

> А на хорошо распараллеливаемых алгоритмах nvidia будет рвать intel.

Уже рвет, CUDA называется. Задачи для нее можно на пальцах пересчитать.

~~Liosha_Syrnikov~~ ★
(03.12.09 02:13:50 MSK)

Ссылка

Ответ на: комментарий от bibi 02.12.09 23:40:25 MSK

> Странно. Тогда я катастрофически не понимаю, как мои mysql/pgsql практически линейно скалируются на 4-8-16 ядер. По крайней мере с точки зрения конечной производительности. Наверное, внутри них есть какие-то совсем уже хитрые алгоритмы.

Расскажи, как один select на 4 ядра распараллелить в Postrges. Мне очень надо.

~~Liosha_Syrnikov~~ ★
(03.12.09 02:15:10 MSK)

Ответ на: комментарий от Karapuz 03.12.09 00:02:29 MSK

> Представьте, что однажды Вы сможете брать у компьютера уроки танца или при помощи 3D-камеры пройтись по магазину одежды и примерить наряды.

Забористый компьютер потребуется...

~~Liosha_Syrnikov~~ ★
(03.12.09 02:17:31 MSK)

Ссылка

Ответ на: комментарий от Liosha_Syrnikov 03.12.09 02:15:10 MSK

Вот только такой рецепт попадался http://habrahabr.ru/blogs/postgresql/76309/

Karapuz ★★★★★
(03.12.09 02:21:36 MSK)

Ссылка

Ответ на: комментарий от namezys 03.12.09 00:30:53 MSK

NUMA в Linux есть. Можешь сам погуглить.

http://www.linux-mag.com/id/6868/ - это для начала.

Там прикол такой, что планировщик пытается задачу всегда выполнять на том же ядре, что и запустил и память выделять и блока, самого близкого к этому ядру. Тогда и кеш используется лучше и контроллер памяти быстрее делает выборки из своего блока памяти. Но есть и более сложные случаи.

~~Liosha_Syrnikov~~ ★
(03.12.09 02:25:34 MSK)

Ссылка

Ответ на: комментарий от namezys 03.12.09 00:30:53 MSK

> В винде не было (в 2000 по крайней мере).

В 2008 - точно есть.

В линуксе есть, с каких версий - хз(точно раньше 2.6.18).

YesSSS ★★★
(03.12.09 09:18:17 MSK)

Ссылка

Ответ на: комментарий от namezys 03.12.09 00:46:28 MSK

> но память там же жутко быстрая

Afaik память там конечно быстрее чем системная раз в 10(~150Gb/s в fermi анонсировалось), но ядра - еще быстрее. Там перекос с памятью тоже есть.

YesSSS ★★★
(03.12.09 09:23:08 MSK)

Что-то с интелом не то...

Главный исполнительный директор компании Intel Пол Отеллини (Paul S. Otellini) ознакомил разработчиков и специалистов, собравшихся на Форуме IDF, с перспективами развития производства процессоров и продемонстрировал ряд новых разработок, в числе которых прототип процессора с 80 ядрами.

http://www.cnews.ru/news/line/index.shtml?2006/09/27/212271

matich ★
(03.12.09 09:41:41 MSK)

Ссылка

Ответ на: комментарий от KRoN73 03.12.09 01:10:49 MSK

Кроме ядер еще тенденция добавлять дополнительные вычислительные блоки специализированного назначения.

madcore ★★★★★
(03.12.09 09:45:42 MSK)

Ответ на: комментарий от madcore 03.12.09 09:45:42 MSK

>Кроме ядер еще тенденция добавлять дополнительные вычислительные блоки специализированного назначения.

У каких универсальных процессоров такое сейчас реализовано?

~~KRoN73~~ ★★★★★
(03.12.09 10:06:24 MSK)

То, что Intel показывали о 80 ядрах парой лет ранее, было вроде не x86 ?

Теперь они запилили x86-версию ?

ef37 ★★
(03.12.09 10:23:03 MSK)

Ссылка

Ответ на: комментарий от KRoN73 03.12.09 10:06:24 MSK

В х86 - mmmx, 3dnow!, sse

madcore ★★★★★
(03.12.09 10:36:08 MSK)

пожелаем интелу скорейшего загибания и процветания powerpc

px ★★★
(03.12.09 10:52:11 MSK)

Ответ на: комментарий от px 03.12.09 10:52:11 MSK

пожелаем powerpc скорейшего загибания и процветания MOC 6502

matich ★
(03.12.09 11:06:38 MSK)

Ссылка

Ответ на: комментарий от YesSSS 03.12.09 09:23:08 MSK

вот хорошая статья http://mgarland.org/files/papers/nvr-2008-004.pdf

Оно под cuda заточено, но на openmp примерно тоже самое у меня получалось. Из этой статьи можно выцепить ключевые слова, чтоб понять в каком направлении мучить гугл :)

Reset ★★★★★
(03.12.09 11:16:37 MSK)

Эх, я думал новую архитектуру забабахали. А так уныло.

ЗЫ По воводу ракет - как ты себе представляешь облачные вычисления в жестком реалтайме?

DNA_Seq ★★☆☆☆
(03.12.09 11:27:42 MSK)

Ссылка

Ответ на: комментарий от volh 02.12.09 23:16:07 MSK

>>48 ядер суммарно расходуют не более 25 Вт в режиме ожидания и 125 Вт при максимальной производительности

вот за это респект. пошли бы они дальше и сделали нотебуки, которые работают от четырех пальчиковых аккумуляторов..

125 ватт это охрененно много. Разбереи какой-нибудь пентиум-66 и посмотри на размеры кулера

DNA_Seq ★★☆☆☆
(03.12.09 11:32:34 MSK)

Ответ на: комментарий от DNA_Seq 03.12.09 11:32:34 MSK

>125 ватт это охрененно много. Разбереи какой-нибудь пентиум-66 и посмотри на размеры кулера.

Дык этот pentium и содержит только одно ядро и рассеивает около 10 Вт. 125 Вт / 48 ядер даст около 3 Вт на ядро. Что не так ?

ef37 ★★
(03.12.09 11:40:24 MSK)

Ответ на: комментарий от Reset 03.12.09 11:16:37 MSK

Спасибо, посмотрю.

YesSSS ★★★
(03.12.09 12:14:53 MSK)

Ссылка

Ответ на: комментарий от Liosha_Syrnikov 03.12.09 02:15:10 MSK

> Расскажи, как один select на 4 ядра распараллелить в Postrges. Мне очень надо.

чтож к тебя за задача, что один клиент такой запрос выполняет

namezys ★★★★
(03.12.09 12:20:42 MSK)

Ответ на: комментарий от madcore 03.12.09 10:36:08 MSK

> В х86 - mmmx, 3dnow!, sse

легкие расширениятакие не принципиальны

namezys ★★★★
(03.12.09 12:22:22 MSK)

Ссылка

Ответ на: комментарий от madcore 03.12.09 10:36:08 MSK

>В х86 - mmmx, 3dnow!, sse

Оно со времён Pentium одномодульное.

~~KRoN73~~ ★★★★★
(03.12.09 12:45:35 MSK)

Ссылка

Ответ на: комментарий от madcore 03.12.09 10:36:08 MSK

altivec
некоторые пишут что оно даже лучше SSE

Sylvia ★★★★★
(03.12.09 12:47:35 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	3Q Nettop Qoo!

Talks

Нужен снифер для фокса

→

Похожие темы