Ололо, многопоточность

multithreading

0

1

Решил опробовать себя в этом деле и написал такой код:

http://pastebin.com/4fDAspE9

Дело в том, что как только мы увеличиваем кол-во потоков (N), производительность начинает стремительно падать. ЧЯДНТ?

Ссылка

← питон интерактивная оболочка после выполнения файла

strace не ловит вызовы gettimeofday, clock_gettime →

ЧЯДНТ?

Не учитываешь количество ядер процессора?

~~Eddy_Em~~ ☆☆☆☆☆
(30.05.15 22:05:08 MSK)

Ссылка

Больше потоков ждут в очередях на блокировки в варианте с локом. В варианте с атомарной операцией конкуретно меняется счетчик постоянно и потоки определяют что не успели со своим изменением и делают его заново, лишь один успевает

~~vertexua~~ ★★★★★
(30.05.15 22:07:17 MSK)

Черт, я глянул твой код! У тебя там сплошные mutex_lock/unlock! Да оно даже на двух потоках тупить будет как на одном!!!

~~Eddy_Em~~ ☆☆☆☆☆
(30.05.15 22:07:19 MSK)

Ответ на: комментарий от Eddy_Em 30.05.15 22:07:19 MSK

А #if..#else..#endif ты не смог увидеть? Очки прикупи

anonymous
(30.05.15 22:13:59 MSK)

Ссылка

Ответ на: комментарий от vertexua 30.05.15 22:07:17 MSK

и потоки определяют что не успели со своим изменением и делают его заново

Это ещё почему? Там fetch-and-add, а не compare-and-swap

~~lor-hater~~
(30.05.15 22:15:38 MSK) автор топика

ЧЯДНТ

Пишешь код, очевидно.

~~hateyoufeel~~ ★★★★★
(30.05.15 22:16:36 MSK)

Ссылка

Ответ на: комментарий от lor-hater 30.05.15 22:15:38 MSK

И думаешь все равно магически работает, кеши не сбрасывает на каждый чих, ничего не блокирует?

~~vertexua~~ ★★★★★
(30.05.15 22:29:29 MSK)

Ответ на: комментарий от vertexua 30.05.15 22:29:29 MSK

Окей. Ну пусть у меня есть чистая функция. Могу я сделать многопоточный map с ней на массиве 0...N так, чтобы от него была польза?

~~lor-hater~~
(30.05.15 22:38:34 MSK) автор топика

Ответ на: комментарий от lor-hater 30.05.15 22:38:34 MSK

Конечно, если есть массив из N элементов, то можно сделать например 8 потоков, разбить массив на ровных 8 частей, только чтобы элементы каждой части были подряд, а не чередовались и успех

~~vertexua~~ ★★★★★
(30.05.15 22:42:27 MSK)

Чувак, инкременты лочить мьютексами — это как мух бить из СС-24 вместо мухобойки. Либо спинлоки, либо атомарные операции.

post-factum ★★★★★
(30.05.15 23:04:09 MSK)

Ссылка

да этож анонимус протянул свою вонючие кривые грабли к сишечке! сгинь под лавку, дубина

anonymous
(30.05.15 23:24:30 MSK)

Ссылка

Ответ на: комментарий от lor-hater 30.05.15 22:38:34 MSK

Могу я сделать многопоточный map с ней

// gcc -std=c99 q.c -lm -fopenmp
#include <stdlib.h>
#include <math.h>

#define CNT 100000000

int main(void) {
  double *buf = calloc(sizeof(double), CNT);

  #pragma omp parallel for
  for (int k = 0; k < CNT; k ++) {
    buf[k] = sin(sin(sin(sin(buf[k]))));
  }

  return 0;
}

i-rinat ★★★★★
(30.05.15 23:26:06 MSK)

Ссылка

Дело в том, что как только мы увеличиваем кол-во потоков (N), производительность начинает стремительно падать. ЧЯДНТ?]

поди на цпп пишешь?

~~darkenshvein~~ ★★★★★
(30.05.15 23:33:34 MSK)

Ты про конвейер слышал? Он страдает от потоков.

peregrine ★★★★★
(30.05.15 23:45:34 MSK)

Ссылка

Ответ на: комментарий от lor-hater 30.05.15 22:38:34 MSK

#pragma omp parallel

rupert ★★★★★
(31.05.15 05:49:35 MSK)

Ссылка

Ответ на: комментарий от vertexua 30.05.15 22:42:27 MSK

Сделал такой вариант

http://pastebin.com/8mF6xee0

а результат тот же. Ты это имел в виду?

~~lor-hater~~
(31.05.15 06:33:01 MSK) автор топика

Ответ на: комментарий от lor-hater 31.05.15 06:33:01 MSK

Какая ж это чистая функция. Ты же глобальную переменную меняешь. Я думал ты сделаешь отдельные вычисления над разными данными. Чистая часть do_calc не в счёт, так как математические вычисления в ней срабатывают в тысячи раз быстрее чем одна запись в глобальную переменную. В ней все вычисления на регистрах конкретного процессора, а при записи в глобальную переменную будут частые сбросы кеша всех процессоров

~~vertexua~~ ★★★★★
(31.05.15 12:31:24 MSK)