OpenMP ускоряет но маловато

0

4

Привет! Я обрабатываю матрицу MxN данных (выделена одним блоком данных через просто malloc), скажем объёмом 5 Гб. Каждая строка может обрабатываться независимо от других, и это похоже отличный кандидат на использование OpenMP:

const int M = ...;
const int N = ...;

int *data = malloc(M * N * 4);

#pragma omp parallel for
for (m = 0; m < M; m++) {
    const int *line = data + N * m * 4;
    consume_line(line, N);
}

С использованием OpenMP вижу ускорение в три раза на 8-ми ядерном CPU. Как-то маловато. От системы не зависит, даже на MSVC результат схож с GCC на Ubuntu.

Вопрос - а что ж 3x так мало? Можно ли ускорить ещё?

←	Пакетный менеджер междистровый

Немного новостей из мира Rust

→

Каждая строка

Мало, надо дробить на крупные блоки из строк. А на видеокартах операции тайлами обычно делают.

ЗЫ пока из профайлера запуск потоков не станет мизерным, можно увеличивать размер блоков.

ac130kz ★★
(16.11.23 15:06:46 MSK)
Последнее исправление: ac130kz 16.11.23 15:11:43 MSK (всего исправлений: 1)

а чему равно N?

при отсутствии оверхеда в consume_line желательно, чтобы блок был хотя бы l2 (т.е. скажем полмегабайта)

anonymous
(16.11.23 15:09:01 MSK)

Ответ на: комментарий от anonymous 16.11.23 15:09:01 MSK

а чему равно N?

много, скажем 1’000’000 или больше

former_anonymous ★★★
(16.11.23 15:16:18 MSK) автор топика

Диванная аналитика.

Попробуй вместо блоба data нааллоцировать отдельных line. Тут линейная локальность данных ненужна и даже вредна, так как она полезна когда ты текущей итерацией кешируешь часть будующих данных на следующую итерацию в однопоточке, а когда операции явно раскидываются по ядрам, выборка из общего data будет такова что будет захватываться части общих данных просто из за зармера кеш линии и один будет ждать второго и так далее так как должна быть сохранена консистентность памяти ведь ты туда пишешь, а не просто читаешь, вот если бы просто читал то да всё был бы ок. Или выравнивай line по размеру кеш линии проца. Так что-бы размер line был ему кратен если это возможно в твоём алгоритме. Да ты потеряешь время на аллокациях. ИМХО

LINUX-ORG-RU ★★★★★
(16.11.23 15:22:56 MSK)
Последнее исправление: LINUX-ORG-RU 16.11.23 15:37:48 MSK (всего исправлений: 6)

Ответ на: комментарий от ac130kz 16.11.23 15:06:46 MSK

На карточках аппаратно работают с Z-curve (кривая Мортона/Гильберта) данными, где курва ~~йя пердоле~~ :D и формируется и читается аппаратно как независимый блок данных и пуляется в шейдерное ядрышко. Ключевое слово аппаратно ~~ЕМНИП вроде~~ Так что не возникает конфликта записи когда куски считываемых/записанных данных перекрывают друг друга. А тайлы это уже чуть про другое.

LINUX-ORG-RU ★★★★★
(16.11.23 15:50:14 MSK)

Рискну предложить поиграть с типом scheduler-a. Чего показывает top в момент исполнения? Если нагрузка 800%, то всё, все заняты. В consume_line сильно сложная логика? Её по частям нельзя потребить?

sshestov ★★
(16.11.23 16:53:27 MSK)

А отдельные строки с одинаковой скоростью обрабатываются? Если одна строка может оказаться в 10 раз более затратная, то точно шедулер нужно попробовать поменять.

sshestov ★★
(16.11.23 16:56:11 MSK)

Вопрос - а что ж 3x так мало?

Не видя consume_line, сложно сказать, но вангую, что все упирается в контролер памяти.

Можно ли ускорить ещё?

Если дело действительно в памяти, то скорее всего нельзя, разве что выравнивание строк проверить.

arax ★★
(16.11.23 17:01:27 MSK)

Ответ на: комментарий от sshestov 16.11.23 16:56:11 MSK

Разные шедулеры меняют скорость, но не намного. Самый быстрый - dynamic, именно с ним получается 3х. Иначе около 2x.

former_anonymous ★★★
(16.11.23 18:52:34 MSK) автор топика

Ответ на: комментарий от sshestov 16.11.23 16:53:27 MSK

В consume_line сильно сложная логика?

достаточно сложная, можно что-то с ней сделать теоретически? У меня же и так параллельно всё. Не думаю что распараллеливание внутри consume_line что-то даст, хотя может ошибаюсь?

former_anonymous ★★★
(16.11.23 18:56:26 MSK) автор топика

Ответ на: комментарий от former_anonymous 16.11.23 18:56:26 MSK

Добавь царский анролл, может, поможет?

Anoxemian ★★★★★
(16.11.23 20:12:33 MSK)

Попробуй так:

#pragma omp parallel for schedule(static) firstprivate(data)

anonymous
(16.11.23 20:25:59 MSK)

Ответ на: комментарий от anonymous 16.11.23 20:25:59 MSK

нет, не помогает. Да и не совсем понятно почему должно, ммм.

former_anonymous ★★★
(16.11.23 21:32:38 MSK) автор топика

Можно ли ускорить ещё?

А ты выясни, во что оно упирается? Судя по «в три раза на 8-ми ядерном CPU», возможно, что и в ПСП.
Если есть возможность, проще всего потестить на чем-нибудь многоканальном типа эпика, где прибить потоки к ядрам на разных чиплетах, и соответственно разложить данные.

GAMer ★★★★★
(16.11.23 21:47:18 MSK)
Последнее исправление: GAMer 16.11.23 21:49:42 MSK (всего исправлений: 1)

8 ядерный CPU точно 8 ядерный? Или 4 ядра с Hyper Threading?

Waterlaz ★★★★★
(16.11.23 22:25:06 MSK)

Ответ на: комментарий от former_anonymous 16.11.23 21:32:38 MSK

Действительно. Я почему-то думал, что по-умолчанию используется schedule(static,1).

private() и firstprivate() создают отдельные инстансы переменных для каждого треда - так можно избавиться от ненужной конкуренции за переменную. Может быть актуально, если переменная меняется в цикле или не объявлена как const.

У тебя, вот, кстати, m определена не в самом цикле, судя по коду, а где-то ранее. Попробуй её тоже в private() присунуть.

А вообще, если у тебя в consume_line() всё обмазано симдами, то, возможно, что просто проц троттлит на таких вычислениях. Либо ты действительно упёрся в память и/или часто промахиваешься по кешам.

man perf

anonymous
(16.11.23 22:48:30 MSK)

Какое значение у N и M?

ox55ff ★★★★★
(16.11.23 23:35:50 MSK)

Вообще, такие вопросы надо профилировщику задавать, а не нам. Это во-первых.

Во-вторых, задача перемножения матриц чуть ли не каконiчная при изучении параллельных алгоритмов. Вот примеры на OpenMP.

DarkAmateur ★★★★
(17.11.23 00:15:35 MSK)

Ответ на: комментарий от ox55ff 16.11.23 23:35:50 MSK

Строк может быть немного например 1’000, колонок - например 1’000’000. То есть line - длинные.

former_anonymous ★★★
(17.11.23 10:18:03 MSK) автор топика

Я обрабатываю матрицу

Почему бы не использовать готовую библиотеку, которая оптимизирована годы тому назад?

dataman ★★★★★
(17.11.23 10:24:50 MSK)

Ответ на: комментарий от former_anonymous 17.11.23 10:18:03 MSK

Спрошу на всякий случай: а у нас же m и line - они private? (в первом примере написано наоборот, но я полагаю лень было ctrl-C - ctrl-V полностью).

Как еще один вариант могу предложить потреблять не строку, а что-нибудь меньшим объемом. Если, конечно, задача это позволяет. Хорошо бы примерно хоть представлять что внутри consume_line происходит (но это, очевидно, коммерческая тайна).

sshestov ★★
(17.11.23 11:18:10 MSK)

Ответ на: комментарий от sshestov 17.11.23 11:18:10 MSK

Спрошу на всякий случай: а у нас же m и line - они private?

Ну по логике да, line ведь внутри цикла объявляется. m - объявлен снаружи цикла, но это же итератор в терминах openmp, он имеет уникальное значение для каждого потока.

former_anonymous ★★★
(17.11.23 16:41:48 MSK) автор топика

man блочная матрица

LongLiveUbuntu ★★★★★
(19.11.23 17:22:38 MSK)

Вопрос - а что ж 3x так мало?

Я бы попробовал выяснить источник проблемы по двум вариантам - либо это сам алгоритм consume_line(), либо это немного не правильное использование omp (синтаксис или логика или еще что-то).

Взял бы эталонную матрицу с одним и тем же набором и сделал тестовый вариант программы без omp на обычных потоках и с использованием omp.

Если время будет примерно одинаково - значит либо функция consume_line() слишком быстра (больше времени уходит на синхронизацию при создании/удалении потоков, чем на полезную работу каждого потока), либо экземпляры функции consume_line() дерутся за другой ресурс (например нехватка ОЗУ, нехватка кэша процессора и т.п.). Тут поможет только пересмотр алгоритма в consume_line().
Если время на обычных потоках будет близко к ожидаемому (ускорению в 7-8 раз на 8 потоках) - значит что-то не так с использованием omp и нужно разбираться с применением omp.

И еще. Одно дело, если у вас без потоков время работы занимало 10 сек., а с omp потоками 3 сек. И совсем другое дело, если у вас без потоков 10 часов, а с omp потоками 3 часа. И там и там ускорение примрерно в 3 раза, но возиться и ускорять условные 3 сек. уже врятли имеет смысл, а вот ускорять 3 часа вполне разумное желание.

Ибо многопоточность работает НЕ бесплатно и вы просто добавляете работы компьютеру, что бы как можно больше использовать именно простаивающие ресурсы - используете несколько простаивающих ядер, несколько свободных кусков ОЗУ и кусков кэшей процессора, но платите за это доп. нагрузкой на эти ядра/ОЗУ/кэш на операции с потоками в дополнение к полезной работе.

Vic ★
(21.11.23 14:09:31 MSK)
Последнее исправление: Vic 21.11.23 14:21:53 MSK (всего исправлений: 4)

Интереснее вопрос: результат то правильный получается при этом?

grem ★★★★★
(21.11.23 14:49:43 MSK)

Ответ на: комментарий от grem 21.11.23 14:49:43 MSK

Правильный, тут проблем нет

former_anonymous ★★★
(21.11.23 18:05:54 MSK) автор топика

Memory bound задача похоже

vvvvvvvv
(24.11.23 03:29:07 MSK)

Закон Амдала кури.

anonymous
(28.11.23 12:24:03 MSK)

←	Пакетный менеджер междистровый

Development

Немного новостей из мира Rust

→

Похожие темы