Как найти медленные функции после инлайна?

0

5

В очередной раз столкнулся со старой проблемой: valgrind позволяет найти медленные функции до тех пор, пока они не инлайнятся. Можно это как-то обойти? У меня пару десятков функций, которые в релизе превращаются в одну. Как найти причину тормозов - не ясно.

Может есть какой-то профилировщик, который выплюнет asm и покажет какие куски дольше всего выполнялись? Типа flame graph.

PS: интересует софт только под линь.

Ссылка

←	git как отменить последнюю команду ?

Посоветуйте аппаратную платформу (esp32, arm...) для такого проекта.

→

Сделай отдельный профиль компиляции, в котором инлайниться ничего не будет, и профилируй бинарники из него обычным профилировщиками.

provaton ★★★★★
(20.03.20 19:57:41 MSK)
Последнее исправление: provaton 20.03.20 19:58:03 MSK (всего исправлений: 1)

Можно это как-то обойти?

у плюсового компилятора должны быть флаги, чтобы он не инлайнил функции. вот не инлайнить ничего и смотреть по этим функциям.

alysnix ★★★
(20.03.20 19:58:16 MSK)

Ссылка

Ответ на: комментарий от provaton 20.03.20 19:57:41 MSK

Здрасте. Толку тогда? Мне нужно тестировать производительность с инлайном, а не до.

~~RazrFalcon~~ ★★★★★
(20.03.20 19:59:54 MSK) автор топика
Последнее исправление: RazrFalcon 20.03.20 20:00:23 MSK (всего исправлений: 1)

Ответ на: комментарий от RazrFalcon 20.03.20 19:59:54 MSK

Я не очень понял, если Вы хотите замер производительности заинлайниной ф-ии, то наверное Вы хотите просто узнать время работы соотв.фрагмента кода?

Насколько сильная разница будет между таким замером для инлайн-фрагмента и для тела той же функции?

~~AntonI~~ ★★★★★
(20.03.20 20:04:17 MSK)

Ответ на: комментарий от RazrFalcon 20.03.20 19:59:54 MSK

Так тебе нужно тестировать производительность, или найти медленные функции?

provaton ★★★★★
(20.03.20 20:12:09 MSK)

Ответ на: комментарий от AntonI 20.03.20 20:04:17 MSK

Разница после inline огромна.

~~RazrFalcon~~ ★★★★★
(20.03.20 20:14:20 MSK) автор топика

Ответ на: комментарий от provaton 20.03.20 20:12:09 MSK

Это разные вещи?

~~RazrFalcon~~ ★★★★★
(20.03.20 20:14:33 MSK) автор топика

Ссылка

Ответ на: комментарий от RazrFalcon 20.03.20 20:14:20 MSK

Это для всего кода, а для тела функции?

~~AntonI~~ ★★★★★
(20.03.20 20:17:29 MSK)

Во-первых gprof, там можно даже line-by-line profiling делать https://sourceware.org/binutils/docs/gprof/Line_002dby_002dline.html

Во-вторых есть вот такая штука https://gcc.gnu.org/onlinedocs/gcc/Instrumentation-Options.html

-finstrument-functions - можно специальную функцию вызывать на каждый вызов какой-либо функции, и таким образом можно померять.

void __cyg_profile_func_enter (void *this_fn,
                               void *call_site);
void __cyg_profile_func_exit  (void *this_fn,
                               void *call_site);

Еще есть проприетарный Vtune от Intel и опенсорсный CodeXL от AMD но я ими не пользовался.

SZT ★★★★★
(20.03.20 20:26:04 MSK)

Ответ на: комментарий от AntonI 20.03.20 20:17:29 MSK

Разверните мысль.

~~RazrFalcon~~ ★★★★★
(20.03.20 20:29:59 MSK) автор топика

Ответ на: комментарий от RazrFalcon 20.03.20 20:29:59 MSK

Разница во времени работы кода с инлайном и без инлайна огромна. Теперь берем какую то функцию

void f(){
   double t0 = omp_get_wtime();
   ...
   double t1 = omp_get_wtime();   
}

насколько сильно будут различаться t1-t0 в случае если f() заинлайнена и если нет?

~~AntonI~~ ★★★★★
(20.03.20 20:33:12 MSK)

Ответ на: комментарий от AntonI 20.03.20 20:33:12 MSK

Время считать бессмысленно. Там нули будут.

~~RazrFalcon~~ ★★★★★
(20.03.20 20:37:11 MSK) автор топика

Ответ на: комментарий от RazrFalcon 20.03.20 20:37:11 MSK

Ок, а если гипотетически?

Я согласен с @provaton, поиск узкого места и замер общей производительности это разные задачи.

Инлайн очевидно влияет на общую производительность, но не факт что он в процентном отношении сильно меняет вклад отдельных функций.

Вам то что именно нужно, найти узкое место в коде или точно замерить сколько времени занимает какая то функция?

~~AntonI~~ ★★★★★
(20.03.20 20:43:54 MSK)

Ответ на: комментарий от SZT 20.03.20 20:26:04 MSK

проприетарный Vtune от Intel

я пользовался, убрал все лимиты на инлайн и числодробилка стала процентов на 5 быстрее. но профилирование при этом вылетает в трубу, vtune показывает одну гигантскую функцию, что в целом логично.

ZERG ★★★★★
(20.03.20 20:44:15 MSK)

Ссылка

Ответ на: комментарий от SZT 20.03.20 20:26:04 MSK

Ну gcc не вариант, ибо rust.

CodeXL не осилил собрать. Он использует scons и ему походу нужен python2. Какие-то левые ошибки сыпет. Завтра попробую снова.

~~RazrFalcon~~ ★★★★★
(20.03.20 20:50:18 MSK) автор топика

Ответ на: комментарий от AntonI 20.03.20 20:43:54 MSK

Мне нужно понять какой кусок асма тупит, и потом найти какая функция его породила.

~~RazrFalcon~~ ★★★★★
(20.03.20 20:51:57 MSK) автор топика

Ответ на: комментарий от RazrFalcon 20.03.20 20:50:18 MSK

PS: CodeXL - типичный корпоративный комбайн:

2.7 GiB (2,941,504,224)
17,657 files, 2,821 sub-folders

И это только сорцы.

~~RazrFalcon~~ ★★★★★
(20.03.20 20:53:22 MSK) автор топика

Ссылка

perf?

Deleted
(20.03.20 21:12:25 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 20.03.20 20:50:18 MSK

Ну gcc не вариант, ибо rust.

https://github.com/rust-lang/rust/pull/57220

SZT ★★★★★
(20.03.20 21:13:10 MSK)

Ответ на: комментарий от RazrFalcon 20.03.20 20:51:57 MSK

А найти какая функция тормозит без инлайна это не вариант? Скорее всего она и тормознутый кусок асма порождает?

~~AntonI~~ ★★★★★
(20.03.20 21:23:40 MSK)

Ответ на: комментарий от AntonI 20.03.20 20:04:17 MSK

Насколько сильная разница будет между таким замером для инлайн-фрагмента и для тела той же функции?

Меньше, чем плата за использование профилировщика

~~SR_team~~ ★★★★★
(20.03.20 21:33:20 MSK)

Ответ на: комментарий от SR_team 20.03.20 21:33:20 MSK

Да, я кстати никогда не юзал valgrind в таком качестве. Насколько он как профилировщик тормозит? Потому что когда память им чекаешь это адский ад…

~~AntonI~~ ★★★★★
(20.03.20 21:35:25 MSK)

Ответ на: комментарий от AntonI 20.03.20 21:35:25 MSK

не знаю, но очевидно, что добавление кода, который что-то замеряет/логгирует - это больший оверхед, чем несколько инструкций вызова функции и ее заголовка с футером

~~SR_team~~ ★★★★★
(20.03.20 21:37:55 MSK)

Ссылка

Ответ на: комментарий от SZT 20.03.20 21:13:10 MSK

Уже интереснее. Спасибо.

~~RazrFalcon~~ ★★★★★
(20.03.20 21:53:45 MSK) автор топика

Ссылка

Ответ на: комментарий от SR_team 20.03.20 21:33:20 MSK

Так valgrind не модифицирует бинарь.

~~RazrFalcon~~ ★★★★★
(20.03.20 21:54:50 MSK) автор топика

Ответ на: комментарий от AntonI 20.03.20 21:23:40 MSK

Судя по наблюдениям, инлайн позволяет очень сильно перекроить код, из-за чего данные собранные до инлайна становятся бесполезными.

~~RazrFalcon~~ ★★★★★
(20.03.20 21:56:27 MSK) автор топика

Ответ на: комментарий от RazrFalcon 20.03.20 20:14:20 MSK

Но прям для самой функции? Чот сомнительно.

~~WitcherGeralt~~ ★★
(20.03.20 22:02:31 MSK)

Ответ на: комментарий от RazrFalcon 20.03.20 21:56:27 MSK

Э… я конечно не знаю что у Вас за задача, и на расте никогда не писал, но все же (идеологически) данные по неинлайновым функциям ИМНО вполне релевантны для поиска узких мест.

Более того, при инлайне и оптимизации код может быть изуродован как Богом черепаха, и вопрос «сколько уходит на выполнение инлайн функции» может быть просто лишен смысла - там может оказаться несколько функций в перемешку (я не специалист, могу ошибаться).

Обычно, при профилировании числодробилок, больше всего помогает даже не профилировщик а общие замеры производительности и здравый смысл. Но числодробилки относительно простые…

~~AntonI~~ ★★★★★
(20.03.20 22:06:43 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 20.03.20 22:02:31 MSK

Да. Добавление директивы inline может давать 20-30% прирост.

~~RazrFalcon~~ ★★★★★
(20.03.20 22:55:33 MSK) автор топика

Ссылка

Ответ на: комментарий от RazrFalcon 20.03.20 21:54:50 MSK

И в рантайме тоже? Как же он тогда меряет?

~~SR_team~~ ★★★★★
(20.03.20 22:56:52 MSK)

Ответ на: комментарий от SR_team 20.03.20 22:56:52 MSK

Без понятия.

~~RazrFalcon~~ ★★★★★
(20.03.20 23:15:04 MSK) автор топика

Ответ на: комментарий от RazrFalcon 20.03.20 23:15:04 MSK

Мне казалось он крутит код на какой то вирт. машине?

~~AntonI~~ ★★★★★
(20.03.20 23:18:47 MSK)

Ссылка

Дебажная информация включена при сборке?

annulen ★★★★★
(21.03.20 01:12:01 MSK)

Мне кажется, что ты хочешь невозможного. Профилировщик и инлайнинг - вещи сильно несовместимые. Есть только один инструмент, который поможет тебе решить задачу - это твоя собственная голова.

Да, и вообще, на мой взгляд роль профилировщиков в оптимизации приложения немного преувеличена. Профилировщики - это не манна небесная. Они все искажают информацию. Даже могут увести в сторону. Повторюсь, здесь больше головой надо думать.

~~dave~~ ★★★★★
(21.03.20 07:02:55 MSK)

Ссылка

Ответ на: комментарий от AntonI 20.03.20 20:43:54 MSK

Может быть и наоборот. У меня был случай, когда одна функция вызывалась овер миллион раз, тк ее нужно было к каждому элементу массива применить. Сделал передачу массива в функцию (вместо элемента) и вуаля - разница в несколько десятков процентов по производительности.

Norgat ★★★★★
(21.03.20 10:51:22 MSK)

Ссылка

Ответ на: комментарий от annulen 21.03.20 01:12:01 MSK

Смотря какая. Имена функций видны, но отладочной инфы нет.

~~RazrFalcon~~ ★★★★★
(21.03.20 11:35:25 MSK) автор топика

Там в соседней теме аноним советует perf annotate, который очень похож на то, что я хочу. Но он увы не работает.

UPD: оно таки работает, но не нужно указывать путь к бинарю, как в инструкции.

~~RazrFalcon~~ ★★★★★
(21.03.20 11:37:23 MSK) автор топика
Последнее исправление: RazrFalcon 21.03.20 11:43:13 MSK (всего исправлений: 1)

Ссылка

В общем ничего проще и удобнее чем отключить глобально inline и прогнать прогу через valgrind в Qt Creator так и не нашлось.

~~RazrFalcon~~ ★★★★★
(21.03.20 12:17:46 MSK) автор топика

Ответ на: комментарий от RazrFalcon 21.03.20 12:17:46 MSK

Расскажете потом насколько это помогло в поиске узких мест после инлайна?

~~AntonI~~ ★★★★★
(21.03.20 12:25:55 MSK)

Ответ на: комментарий от AntonI 21.03.20 12:25:55 MSK

Дык я и до этого этот метод использовал. Так что никак. Для меня основная польза valgrind - это счётчик вызовов функций. Ну и call graph.

~~RazrFalcon~~ ★★★★★
(21.03.20 13:06:47 MSK) автор топика

Ответ на: комментарий от RazrFalcon 21.03.20 13:06:47 MSK

А cachegring?

~~AntonI~~ ★★★★★
(21.03.20 13:11:40 MSK)

Perf?

cobold ★★★★★
(21.03.20 13:14:14 MSK)

Ссылка

Ответ на: комментарий от AntonI 21.03.20 13:11:40 MSK

Никогда его не использовал.

~~RazrFalcon~~ ★★★★★
(21.03.20 13:22:19 MSK) автор топика

Ссылка

Ответ на: комментарий от RazrFalcon 21.03.20 11:35:25 MSK

Я не знаю как в расте, но в c++ флаг -g позволяет увидеть заинлайненные функции в бэктрейсах

annulen ★★★★★
(21.03.20 14:52:21 MSK)

Ответ на: комментарий от annulen 21.03.20 14:52:21 MSK

Да, эта инфа хранится. Но у меня тот же perf annotate у 99% ассемблерных команд пишет 0. Так что толку от него мало. А часто используемые функции я и без валгринда знаю.

~~RazrFalcon~~ ★★★★★
(21.03.20 16:35:05 MSK) автор топика

AMD CodeXL (бесплатно), Intel Vtune (за много денег).

nikitos ★★★
(21.03.20 16:57:25 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 21.03.20 16:35:05 MSK

Но у меня тот же perf annotate у 99% ассемблерных команд пишет 0. Так что толку от него мало. А часто используемые функции я и без валгринда знаю.

Смешались в кучу кони, люди… perf и callgrind - совсем разные инструменты. callgrind показывает количество инструкций в каждой выполненной функции, что позволяет получить более-менее воспроизводимые результаты между запусками. Да и аннотации к сорсам он тоже умеет.

annulen ★★★★★
(21.03.20 17:15:33 MSK)

Ответ на: комментарий от annulen 21.03.20 17:15:33 MSK

Это понятно. Я к тому, что что так, что эдак - всё равно не то.

~~RazrFalcon~~ ★★★★★
(21.03.20 17:38:32 MSK) автор топика

Ответ на: комментарий от RazrFalcon 21.03.20 17:38:32 MSK

Возможно, боттлнек просто не там где ты ищешь, а у тех функций, на которые ты смотришь, вклад действительно около нуля

annulen ★★★★★
(21.03.20 17:42:41 MSK)
Последнее исправление: annulen 21.03.20 17:43:52 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	git как отменить последнюю команду ?

Development

Посоветуйте аппаратную платформу (esp32, arm...) для такого проекта.

→

Похожие темы