Как писать на Си?

3

4

Возник такой вопрос в ходе эксперимента. Захотелось просто ради интереса написать перемножение матриц на Си и сравнить с чужой реализацией. Написал, начал сравнивать увидел, что мой вариант сильно медленнее, подглядел в чужом коде транспонирование матрицы перед умножением, добавил, начал сравнивать снова. И заметил интересный момент мой вариант и вариант attractivechaos с одинаковыми оптимизациями выполняются за примерно одно и то же время(ещё бы, после того как я подглядел транспонирование разница в коде стала минимальной). За исключением варианта -Ofast или комбинации -O3 и -ffast-math. Тут вариант attractivechaos ускоряется в 2 раза по сравнению с -O2 и -ffast-math, а мой нет.

Собственно вопрос: почему? И ещё более интересный: где почитать о том как писать код для наиболее эффективной оптимизации компилятором?

P.S. тестил и GCC, и Clang. Результат и там, и там одинаковый.

Ссылка

←	Python 3.7+ виртуальные окружения и установка зависимостей

Оценка потребления памяти

→

← 1 2 →

попробуй плз переписать так, чтобы минимизировать дифф

MyTrooName ★★★★★
(08.07.19 11:22:39 MSK)

Ссылка

double t = 0.0

Например, это может играть роль, если компилятор не смог вывести возможность создания временной переменной.

xaizek ★★★★★
(08.07.19 11:33:20 MSK)

Ссылка

на С как и на любом языке надо писать понятно :-) иначе код будет работать быстро, но недолго. Через полгода вам самому надо будет напрячься чтобы вспомнить что и почему, через год код становится мусором.

и в С категорически запрещено изобретать велосипеды. Матричные операции как-раз велотранспорт.

MKuznetsov ★★★★★
(08.07.19 11:36:37 MSK)

где почитать о том как писать код для наиболее эффективной оптимизации компилятором

Начни с очевидного https://en.wikipedia.org/wiki/Loop_optimization Статьи интересны не только сами по себе, но и списком литературы в ссылках.

no-such-file ★★★★★
(08.07.19 11:40:33 MSK)

Ссылка

 double *const *a, double *const *b

Вся фишка может крыться в спецификаторах const. Уже не помню как, но есть особая магия в С, как указать компилятору, что данные в массивах константны, тогда он включает агрессивную политику кэширования данных из этих массивов, что сильно ускоряет операции с матрицами и векторами.

anonymous
(08.07.19 11:42:26 MSK)

Ссылка

*(A + N * i + j)

Че за жуть то?

Deleted
(08.07.19 12:08:18 MSK)

почему?

https://godbolt.org/z/Cvbn5O

Попробуйте, достаточно ли будет такого изменения:

+			double s = 0.0;
 			for (k = 0; k < N; ++k)
-				*C += *a++ * *t++;
+				s += *a++ * *t++;
-			++C;
+			*C++ = s;

bormant ★★★★★
(08.07.19 12:31:55 MSK)
Последнее исправление: bormant 08.07.19 12:39:49 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 08.07.19 12:08:18 MSK

*(A + N * i + j)

Че за жуть то?

Всего лишь A[N * i + j].

bormant ★★★★★
(08.07.19 12:42:55 MSK)

Ответ на: комментарий от bormant 08.07.19 12:42:55 MSK

Ну вот так красивей же. Нужна ли эта обфускация с указателями?) Тем более с помощью C11 можно сделать адекватные матрицы.

Deleted
(08.07.19 12:50:49 MSK)

Почитать про устройство современных вычислительных устройств. Я не удивлюсь, если рефернесный алгоритм ещё и на gpu ложится лучше, чем твой и прирост там будет не в разы а в разницу в количестве ядер / 2.

Ключевые слова: векторизация, simd, avx, чё там в видеокарточках - х3.

В общем нужно изучить какие расширенные наборы инструкций имеются в ходу и осознать зачем авторы корячились и впихивали их прямо в железо.

pon4ik ★★★★★
(08.07.19 13:22:08 MSK)

Ссылка

Ты и БПФ свое пишешь? Почему не хочешь GSL или BLAS использовать?

~~Eddy_Em~~ ☆☆☆☆☆
(08.07.19 13:40:22 MSK)

Ссылка

xaizek, bormant

Действительно с дополнительной переменной всё сильно ускорилось.

andalevor ★★★
(08.07.19 15:03:32 MSK) автор топика

Ссылка

MKuznetsov, pon4ik, ~~Eddy_Em~~

Нет, я не пытаюсь написать перемножение матриц. Я знаю, что есть библиотеки и другие алгоритмы для перемножения матриц. Просто недавно была новость про rust, в обсуждении упомянули про zig и мне захотелось посмотреть как будет выглядеть код для перемножения матриц на разных языках с высокой производительностью. Просто интереса ради.

andalevor ★★★
(08.07.19 15:11:48 MSK) автор топика

Ответ на: комментарий от andalevor 08.07.19 15:11:48 MSK

Никто в своем уме не будет на [censored] ржавчине делать математику!

~~Eddy_Em~~ ☆☆☆☆☆
(08.07.19 16:00:21 MSK)

Ответ на: комментарий от Eddy_Em 08.07.19 16:00:21 MSK

Пук

anonymous
(08.07.19 16:03:51 MSK)

Ссылка

Ответ на: комментарий от Deleted 08.07.19 12:50:49 MSK

Ну вот так красивей же. Нужна ли эта обфускация с указателями?)

Тут — нужно. Ибо тут специально указано, что мы обращаемся не к элементу в строке/столбце как [][], а к конкретному элементу в непрерывной памяти с одноуровневым указателем. А в транспонированной ещё и не будет запутывать за счёт смены i<->j.

vodz ★★★★★
(08.07.19 16:12:15 MSK)
Последнее исправление: vodz 08.07.19 16:14:18 MSK (всего исправлений: 2)

Ответ на: комментарий от vodz 08.07.19 16:12:15 MSK

Вроде многомерными массивами почти никто не пользуется всё равно. И чем это за «указано» лучше обычного [].

anonymous
(08.07.19 16:16:02 MSK)

Ответ на: комментарий от anonymous 08.07.19 16:16:02 MSK

Вроде многомерными массивами почти никто не пользуется всё равно.

В смысле? Когда размеры константны, то многомерные скобочки - синтаксический сахар, ничем не замедляющий работу. А как только появляется необходимость чего-то прямоугольно-многомерного с неизвестными размерами предварительно, то код ТСа с malloc+calloc и работы потом с [][] как массив указателей - применяется везде и всюду.

vodz ★★★★★
(08.07.19 16:21:52 MSK)

Изучи AVX2/AVX-512 и ускоришь свой код раз в 8

menangen ★★★★★
(08.07.19 16:40:52 MSK)

Ссылка

-ffast-math

Код не смотрел, но это позволяет исполнять циклы с флоатами как SIMD операции.

anonymous
(08.07.19 17:30:40 MSK)

Ссылка

Ответ на: комментарий от vodz 08.07.19 16:21:52 MSK

Речь про одномерные скобочки.
А про многомерные (2-х в данном случае) — это ваша фантазия только.

*(A + N * i + j)
A[N * i + j]
(N * i + j)[A]
— все эти три варианта компилятору тождественны.

bormant ★★★★★
(08.07.19 17:48:49 MSK)
Последнее исправление: bormant 08.07.19 17:53:35 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 08.07.19 12:08:18 MSK

Это адресная функция для матрицы, если я правильно понял.

Так можно и на ассемблере написать, только смысла большого нет.

LongLiveUbuntu ★★★★★
(08.07.19 18:23:19 MSK)

Ссылка

Ответ на: комментарий от bormant 08.07.19 17:48:49 MSK

Речь про одномерные скобочки.
А про многомерные (2-х в данном случае) — это ваша фантазия только.

Типичный ЛОР. Не вчитываясь, броситься хамить и учить. Это ничего, что я именно ваш ответ поддержал, отвечая не вам собственно?

Двумерные скобочки тут пляшут от задачи - двумерной матрицы, но при ручной динамической реализации как одномерного указателя комилятор тут в принципе не даст ими воспользоваться.. Потому при таких тождественных записей, запись *(A + N * i + j) наиболее предпочтительная, так как другие снижают самодокументируемость, так как делают ложный намёк на одномерность.

vodz ★★★★★
(08.07.19 18:23:34 MSK)
Последнее исправление: vodz 08.07.19 18:26:35 MSK (всего исправлений: 2)

Ответ на: комментарий от vodz 08.07.19 18:23:34 MSK

Никаких ложных намеков, если только ничего не домысливать к синтаксису Си. Все три варианта в выражении тождественны. Или у вас есть пример либо ссылка на стандарт, когда компилятор может по разному их понимать? А все остальное — личные предпочтения суть вкусовщина.

Это ничего, что я именно ваш ответ поддержал, отвечая не вам собственно?

Ничего.

bormant ★★★★★
(08.07.19 18:40:55 MSK)

Ответ на: комментарий от bormant 08.07.19 18:40:55 MSK

Или у вас есть пример

Есть. Вон идёте в самый верх, открываете код ТСа, и видите реализацию двумерной матрицы как массива указателей. Код рабочий, но медленней и в данном случае не нужный, так как тормоза на ровном месте.

когда компилятор может по разному их понимать?

Мозг при чтении включить слабо, перед тем как хамить? Какое слово вам непонятно во фразе: «при таких тождественных записей, запись *(A + N * i + j) наиболее предпочтительная»? Где тут написано о том, что компилятор тут сделает разное?

vodz ★★★★★
(08.07.19 18:45:50 MSK)

Ответ на: комментарий от vodz 08.07.19 18:45:50 MSK

открываете код ТСа, и видите реализацию двумерной матрицы как массива указателей

В коде ТСа такой реализации нет. Такая реализация есть в коде третьей стороны, с которой ТС сравнивает свою реализацию, в которой выделяет память единым куском.
В реализации 3 стороны транспонирование дает выиигрыш в том числе за счет устранения лишней косвенной адресации при проходе по столбцам. А вот ТС мог бы попробовать ходить по столбцам при помощи i+=N, которое до определенных пределов N оставалось бы столь же быстрым, как и ++i для транспонированной матрицы.

Какое слово вам непонятно во фразе: «при таких тождественных записей, запись *(A + N * i + j) наиболее предпочтительная»?

«наиболее предпочтительная»
Если, конечно, речь не идет об исключительно личных предпочтениях.

Мозг при чтении включить слабо

Извините, не имею ни возможности, ни желания включать либо выключать ваш мозг, как-нибудь сами пожалуйста.

bormant ★★★★★
(08.07.19 19:04:42 MSK)
Последнее исправление: bormant 08.07.19 19:12:27 MSK (всего исправлений: 2)

Ответ на: комментарий от bormant 08.07.19 19:04:42 MSK

Такая реализация есть в коде третьей стороны,

Да. Это и имелось в виду, что код представленный для примера ТСом.

Если, конечно, речь не идет об исключительно личных предпочтениях.

Напоминаю, что был вопрос, почему автор выбрал запись *(A+offset), а не A[offset]. Я уже три раза, как об стенку горох, пытался донести, непонятно почему именно вам, что первая запись при реализации через одномерную непрерывную память при тождественном конечном результате предпочтительнее, так как это самодокументируемость кода, указывающая на особенность реализации. Так как вторая предпочтительна для самодокументируемоcти при работе с одномерным массивом (строкой при двумерных входных данных). При чём тут личные предпочтения?!

Извините,

Вот и следите за собой.

vodz ★★★★★
(08.07.19 19:32:09 MSK)

Ответ на: комментарий от vodz 08.07.19 19:32:09 MSK

Развели тут полемику. Только вот забыли спросить у самого автора кода, зачем он написал так, а не иначе. Молодцы, что уж там.

i-rinat ★★★★★
(08.07.19 19:53:44 MSK)

Ответ на: комментарий от i-rinat 08.07.19 19:53:44 MSK

Автор один, а вас много.

Владимир

anonymous
(08.07.19 20:05:55 MSK)

Ответ на: комментарий от anonymous 08.07.19 20:05:55 MSK

Не мой пост.

Владимир

anonymous
(08.07.19 20:12:56 MSK)

Ответ на: комментарий от anonymous 08.07.19 20:12:56 MSK

Вы кто такие? Я вас не звал!

Владимир

anonymous
(08.07.19 20:14:11 MSK)

в числодробилках на современном си обычно оптимизирут кешмиссы

thesame ★★★★
(08.07.19 20:26:49 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.07.19 20:14:11 MSK

Ты опять, всё-таки, выходишь на связь, подлец?

Владимир

anonymous
(08.07.19 20:30:19 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 08.07.19 16:00:21 MSK

И почему же? Потому что Эдичка так считает, более вменяемого аргумента не ждать?

anonymous
(08.07.19 21:02:06 MSK)

Ответ на: комментарий от anonymous 08.07.19 21:02:06 MSK

-ffast-math на расте не работает прост.

Deleted
(08.07.19 21:03:47 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 08.07.19 16:00:21 MSK

смотря что за математику. если это исследовательская работа, то от борроу-чекера будет одна боль.

если нужно реализовать уже известный алгоритм, почему бы и нет.

MyTrooName ★★★★★
(08.07.19 21:47:44 MSK)

Ссылка

Ответ на: комментарий от i-rinat 08.07.19 19:53:44 MSK

Только вот забыли спросить у самого автора кода, зачем он написал так, а не иначе

вопрос «ЗАЧЕМ?» можно задавать почти на каждый первый топик форума. С гарантией что автор не знает ответа :-)

MKuznetsov ★★★★★
(08.07.19 22:35:05 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 08.07.19 16:00:21 MSK

Но на C её тоже писать больно. Приятно делать её на C#, Python и чём-то более высокоуровневые, ну или взять старый Фортран, в котором всё уже есть давным-давно.

anonymous
(09.07.19 04:41:08 MSK)

Ответ на: комментарий от anonymous 09.07.19 04:41:08 MSK

Да нормально все на С, если правильные библиотеки использовать!

Си-диез — некошерная ванузоидность, на ней люди ничего не пишут. А пхытон — это ж вообще для наркоманов!!!

~~Eddy_Em~~ ☆☆☆☆☆
(09.07.19 08:32:12 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 08.07.19 11:36:37 MSK

и в С категорически запрещено изобретать велосипеды.

На русском языке тоже не рекомендуется писать глупости, но кое-кого это не останавливает. Ты действительно не понимаешь зачем человек возится с матрицами на Си?

Deleted
(09.07.19 08:47:34 MSK)

Поправил. Без транспонирования медленно. Но удалось убрать неочивидную переменную благодаря restrict. Получилось даже в 2 раза быстрее, чем в варианте, с которым сравнивал. Нужные оптимизации активируются при включении флагов -O3 и -ffast-math.

Спасибо всем за ответы.

andalevor ★★★
(09.07.19 09:31:11 MSK) автор топика

Ответ на: комментарий от Deleted 09.07.19 08:47:34 MSK

а также зачем используют вместо CPU не только многоGPU, но еще и вместо Си вставки машинного кода для СPU и GPU …

Но ценителям быстрого кодинга на ржавчине в ущерб скорости работы кода и времени компиляции (кода ржавчины), этого не понять :), главное работу быстрее заказчику сдыхать. Возможно ржавчина неплохое решение для быстрого получения прототипа решения и денег от клиентуры, не сильно разбирающейся в возможностях железа :)

Deleted
(09.07.19 10:48:32 MSK)
Последнее исправление: Deleted 09.07.19 10:50:13 MSK (всего исправлений: 3)

Ответ на: комментарий от Deleted 09.07.19 10:48:32 MSK

Мне кажется ты меня не понял. Я хотел сказать, что человек просто учится. Он не пытается изобрести велосипед, а просто экспериментирует на базе довольно простого, но уже не тривиального примера.

Deleted
(09.07.19 11:24:01 MSK)

Ссылка

Ответ на: комментарий от bormant 08.07.19 12:31:55 MSK

Вот жесть то... Читать такое без подготовки очень неприятно.

deterok ★★★★★
(09.07.19 11:31:11 MSK)

Ответ на: комментарий от andalevor 09.07.19 09:31:11 MSK

Небольшое замечание касательно постановочной части задачи: операция умножения матриц определена, когда количество строк левой матрицы равно количеству столбцов правой, т.е. можно перемножать не только квадратные матрицы.

bormant ★★★★★
(09.07.19 11:42:18 MSK)

Ответ на: комментарий от andalevor 09.07.19 09:31:11 MSK

Поправил

Полагаю, ошибочка закралась:

-				*(C + N*i + j) += *(A + N*i + k) * *(T + N*i + k);
+				*(C + N*i + j) += *(A + N*i + k) * *(T + N*j + k);

или

+				C[N*i + j] = A[N*i + k] * T[N*j + k];

bormant ★★★★★
(09.07.19 11:49:36 MSK)
Последнее исправление: bormant 09.07.19 11:51:47 MSK (всего исправлений: 1)

Ответ на: комментарий от bormant 09.07.19 11:42:18 MSK

Это понятно, просто для удобства передачи параметров сделал матрицы квадратными.

andalevor ★★★
(09.07.19 12:06:39 MSK) автор топика

Ссылка

Ответ на: комментарий от bormant 09.07.19 11:49:36 MSK

Да нет, вроде бы, всё так и задумывалось. Ведь транспонирование специально выполняется для того чтобы по колонкам не бегать.

andalevor ★★★
(09.07.19 12:12:42 MSK) автор топика

Ответ на: комментарий от vodz 08.07.19 19:32:09 MSK

При чём тут личные предпочтения?!

Стандарт языка Си говорит нам

6.5.2.1 Array subscripting
Constraints
1 One of the expressions shall have type “pointer to complete object type”, the other expression shall
have integer type, and the result has type “type”.
Semantics
2 A postfix expression followed by an expression in square brackets [] is a subscripted designation of
an element of an array object. The definition of the subscript operator [] is that E1[E2] is identical
to (*((E1)+(E2))). Because of the conversion rules that apply to the binary+ operator, if E1 is an
array object (equivalently, a pointer to the initial element of an array object) and E2 is an integer,
E1[E2] designates the E2 -th element of E1 (counting from zero).

E1[E2] is identical to (*((E1)+(E2)))

Идентичны они, так говорит нам стандарт.

Именно поэтому выбор одной (краткой) или другой (длинной) записи является только и исключительно предметом личных предпочтений.

Надеюсь, мне на этот раз удалось донести мысль?

PS. Доводы про упоминание array object тут не работают, ибо а) случай с указателем упомянут явно, б) для арифметики указателей применяются те же самые ограничения, иначе UB ;)

bormant ★★★★★
(09.07.19 12:21:19 MSK)
Последнее исправление: bormant 09.07.19 12:24:24 MSK (всего исправлений: 1)

Ответ на: комментарий от andalevor 09.07.19 12:12:42 MSK

Ведь транспонирование специально выполняется для того чтобы по колонкам не бегать.

Без транспонирования вы умножали i-ю строку A на j-й столбец B.
После транспонирования (замены j-го столбца B j-й строкой T) нужно умножать i-ю строку A на j-ю строку T.
Разве нет?

Без транспонирования было бы:

-				*(C + N*i + j) += *(A + N*i + k) * *(T + N*i + k);
+				*(C + N*i + j) += *(A + N*i + k) * *(T + N*k + j);
// или
+				C[N*i + j] = A[N*i + k] * T[N*k + j];

bormant ★★★★★
(09.07.19 12:28:58 MSK)
Последнее исправление: bormant 09.07.19 12:30:58 MSK (всего исправлений: 1)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Python 3.7+ виртуальные окружения и установка зависимостей

Development

Оценка потребления памяти

→

Похожие темы