Оптимизация майнера на основе AES

0

1

Коллеги подскажите по этим флагам , на сколько они эффективны и правильны на данных современных и поколение назад(есть поддержка аппаратная AES-NI ) интеловских процах [может за место их юзать сразу -O2 или -O3 {хотя часть флагов там есть наверное} ]?

gcc -std=gnu99 -DHAVE_CONFIG_H -I.  -pthread -I./compat/jansson   -falign-loops=16 -falign-functions=16 -falign-jumps=16 -falign-labels=16  -Ofast -flto -fuse-linker-plug$
n -funroll-loops -fvariable-expansion-in-unroller -ftree-loop-if-convert-stores -fmerge-all-constants -fbranch-target-load-optimize2 -fsched2-use-superblocks -maes -MT minerd-cpu-miner.o -MD -MP -MF .deps/minerd-cpu-miner.Tpo -c -o minerd-cpu-miner.o `test -f 'cpu-miner.c'

И если прирост для них для gcc 4.5+ vs gcc 5.x?
И для gcc vs intel compiler

P.S компилю это если интересно https://github.com/wolf9466/cpuminer-multi

Ссылка

←	Библиотека парсинга для Python

Подключение библиотеки hivex

→

Без модификации кода разницы более 5% не жди.

16 16 16 16 16 16 16 16 16

что-то ~~sэпичное^W~~ эпическое, но если это придумал разработчик этой шняги, ему должно быть виднее.

anonymous
(21.09.16 14:29:30 MSK)

Ответ на: комментарий от anonymous 21.09.16 14:29:30 MSK

pinachet ★★★★★
(21.09.16 14:44:57 MSK) автор топика

Ссылка

на сколько они эффективны и правильны на данных современных и поколение назад(есть поддержка аппаратная AES-NI ) интеловских процах

Я бы бил ногами за такое.
У автора на автомобиле небось здоровенный спойлер, наклеечки и труба жЫрная.

devl547 ★★★★★
(21.09.16 14:52:55 MSK)

Ответ на: комментарий от devl547 21.09.16 14:52:55 MSK

Я бы бил ногами за такое.

Вам на скорую руку написанный текст не нравиться или что ?)

pinachet ★★★★★
(21.09.16 14:59:52 MSK) автор топика

А если не секрет, почему 4.5, когда ветка 4.9 во всём лучше, включая LTO? Если ты переживаешь, что оно теперь компилируется плюсовым компилятором, то зря. И почему берёшь 5, а не 6?

anonymous
(21.09.16 15:11:08 MSK)

Ответ на: комментарий от anonymous 21.09.16 15:11:08 MSK

Такой компилятор шел в 7 центосе, да думаю что то типа fedora или ubuntu будет содержать что то более новое

pinachet ★★★★★
(21.09.16 15:12:07 MSK) автор топика

Ответ на: комментарий от pinachet 21.09.16 15:12:07 MSK

Ясно. Ты, как пользователь, можешь попробовать более актуальный компилятор, а так же glibc и прочее. Ну и -O3 вместо -O2 (70% на то что будет хуже или что-то сломается, для числодробилки бывает ок), -ffast-math (ломает код), форсированные анроллинг и векторизацию обычно можно не трогать, может быть ещё лто потыкать. -Ofast только если очень хочешь уместиться в кэш процессора и он маленький. Наибольшего прироста производительности мне удавалось получить с PGO, но то же самое выходило если вручную сделать пару переменных регистровыми и тому же жирнолису PGO не особо помогает. Имей в виду, что -O3 в связке c lto зачастую продуцирует значительно более медленный код (может и исправили).

anonymous
(21.09.16 15:25:29 MSK)

Ответ на: комментарий от anonymous 21.09.16 15:25:29 MSK

да в кеш нужно уместиться, pgo и -lto такие флаги и на какой версии у тебя траблы были ?

pinachet ★★★★★
(21.09.16 15:31:20 MSK) автор топика

Ответ на: комментарий от pinachet 21.09.16 15:31:20 MSK

PGO это -fprofile-correction, компиляция с -fprofile-generate, прогон тестов, сбор статистики узких мест, повторная компиляция с -fprofile-use, возможно есть ещё что-то, мной применялось в таком виде.

lto помоему так:

CFLAGS += -flto -fno-fat-lto-objects -fuse-linker-plugin -fuse-ld=gold
LFLAGS += -flto -fuse-linker-plugin

просадки при комбинации с O3 были у 4.9, lto вообще крайне нестабильная вещь и no-fat-lto-objects с кажется 4.9 идёт дефолтом, в связи с чем вероятно ломает код чаще.

graphite не плацебо, поскольку сильно меняет код, но профита на современных интелах замечено не было, может для других архитектур. Несколько безопасных (для 4.8, в 4.9 кажется сломалось) опций:

-floop-block -fgraphite-identity -floop-strip-mine -ftree-loop-linear -floop-interchange

Из совсем экстримального могу порекомендовать:

-floop-nest-optimize -ftree-loop-distribution -ftree-vectorize -ftree-loop-im -funswitch-loops -ftree-loop-ivcanon -fivopts -ftree-parallelize-loops=4 -ftracer -funroll-loops

Нужно учитывать, что многие оптимизации увеличивают требования по кэшу и как результат горячее место может не поместиться.

anonymous
(21.09.16 15:59:14 MSK)

Ответ на: комментарий от pinachet 21.09.16 14:59:52 MSK

Я про автора этих CFLAGS.

devl547 ★★★★★
(21.09.16 16:04:00 MSK)

Ответ на: комментарий от anonymous 21.09.16 15:25:29 MSK

-Ofast только если очень хочешь уместиться в кэш процессора и он маленький.

-Ofast наоборот раздувает код. Это же -O3 -ffast-math

devl547 ★★★★★
(21.09.16 16:04:56 MSK)

Ответ на: комментарий от devl547 21.09.16 16:04:56 MSK

Ой. -Os конечно. Не знаю как так вышло.

anonymous
(21.09.16 16:06:44 MSK)

Ссылка

Ответ на: комментарий от devl547 21.09.16 16:04:00 MSK

поясните что там не понравилось, я сам немного не в теме ?

pinachet ★★★★★
(21.09.16 16:08:46 MSK) автор топика

Ответ на: комментарий от anonymous 21.09.16 15:59:14 MSK

Вообще LDFLAGS=CFLAGS+LDFLAGS так-то, в генте например. Можно добавлять не стесняясь, флаги линкеру передавать например так: -Wl,-O1,--sort-common,--as-needed и -fuse-ld=gold наверно тоже отправлять линкеру отдельно надо если CFLAGS не включено.

anonymous
(21.09.16 16:10:56 MSK)

Ссылка

Ответ на: комментарий от pinachet 21.09.16 16:08:46 MSK

-falign-loops=16 -falign-functions=16 -falign-jumps=16 -falign-labels=16 -Ofast -flto -fuse-linker-plugin -funroll-loops -fvariable-expansion-in-unroller -ftree-loop-if-convert-stores -fmerge-all-constants -fbranch-target-load-optimize2 -fsched2-use-superblocks -maes

Вот эта художественная самодеятельность мне и не нравится.
Реально там достаточно -Ofast -maes или даже -O2 -maes и свежего GCC.

devl547 ★★★★★
(21.09.16 17:00:36 MSK)

Ответ на: комментарий от devl547 21.09.16 17:00:36 MSK

Оки я напишу автору , спасибо .

pinachet ★★★★★
(21.09.16 17:04:28 MSK) автор топика

Ссылка

Ответ на: комментарий от devl547 21.09.16 17:00:36 MSK

А еще такой вопрос -O2 и -O3 если добавить к верхним они другие собой подменяеют флаги или дополняют/убирают ?

pinachet ★★★★★
(22.09.16 16:01:06 MSK) автор топика

Все просто: начинаешь с дефолтов -O2 и -O3, тестишь рпоизводительность, дальше начинаешь тюнить и смотришь как влияет на скорость каждая опция по отдельности, например какой-то код выиграет от -ffast-math, какой-то от -funroll-loops, какой-то от align'ов, ну ты понял. C -finline-limit можешь поиграть еще

annulen ★★★★★
(22.09.16 16:16:46 MSK)

Ответ на: комментарий от pinachet 22.09.16 16:01:06 MSK

А еще такой вопрос -O2 и -O3 если добавить к верхним они другие собой подменяеют флаги или дополняют/убирают ?

Они предоставляют дефолтный набор флагов, их можно распечатать. Дальше ты дополнительными флагами можешь тюнить эти настройки, если это необходимо. От балды накидывать все флаги подряд нет никакого смысла

annulen ★★★★★
(22.09.16 16:17:48 MSK)