Подобрать оптимальный GPU под существующую модель tf.keras

gpu, jetson, machine learning, nvidia, tensorflow

0

1

Приветствую, лорчане!

Есть в проекте существующая модель, которая создавалась до меня. Это несколько доработанная ResNet. Сейчас она обученная выполняется на настольном GPU от NVIDIA аж для 4х камер одновременно. Производительности хватает. Возник вопрос, можно ли модель перенести на NVIDIA Jetson (какой именно - надо ещё выбрать), точнее на 4 штуки, которые будут по одному на камеру. И желательно ответ получить до покупки этих самых Jetson'ов.

Я думаю, этот вопрос можно разделить на такие составные части:
* Хватит ли производительности GPU? Насколько я нашёл, можно измерить FLOPS примерно так и потом сравнить с производительностью GPU в Jetson (или просто другой видеокартой).
* Хватит ли памяти на ускорителе? Это должно быть проще, просто посмотреть, сколько занимает сейчас.
* Проблемы с переносом с x86_64 на ARM. Тут, вроде, всё должно быть Ок. Используется tensorflow, numpy, opencv, т.е. ничего необычного.
UPD:* Ещё вопрос, насколько там дохлый CPU, т.к. есть некоторая предобработка кадра на нём.

Правильный ли подход с измерением требуемых вычислительных ресурсов (FLOPS)?
Правильно ли сравнивать потребление памяти на GPU разных архитектур?

Может быть у кого такой опыт есть, что посоветуете?

Ссылка

←	Подскажите пожалуйста есть ли возможность с маcки выбрать области похожие на эллипсы,

CMakeLists.txt

→

сходить к nvidia на форум и спросить там

anonymous
(22.09.21 16:59:26 MSK)

Ответ на: комментарий от anonymous 22.09.21 16:59:26 MSK

сходить к nvidia на форум и спросить там

А как же родной ЛОР?

ls-h ★★★★★
(22.09.21 17:40:11 MSK) автор топика

Ответ на: комментарий от ls-h 22.09.21 17:40:11 MSK

CUDA_VISIBLE_DEVICES не спасёт отца русской демократии?

А как же родной ЛОР?

Здесь принято в очередной раз обсуждать vim против emacs, а не TF.

anonymous
(22.09.21 18:45:57 MSK)

Ответ на: комментарий от anonymous 22.09.21 18:45:57 MSK

CUDA_VISIBLE_DEVICES

А это тут при чём? Вопрос в том, какую железку купить, чтобы на ней запускать модель.

ls-h ★★★★★
(22.09.21 19:00:42 MSK) автор топика

Почему-то никак не получилось найти регистранта, счастливого обладателя Jetson. Осталось ощущение, что это был некромант, но не могу найти у него отзыв.

Хватит ли производительности GPU?

Вот здесь были какие-то FPS https://developer.nvidia.com/embedded/jetson-benchmarks

ResNet-50 от 40 до 2k FPS.

Хватит ли памяти на ускорителе?

Насколько я помню, в ResNet относительно немного весов. Зависит, конечно, от конкретной модели (18, 34, 50 и 101), но у меня отложилось в памяти, что у ResNet-50 примерно мегабайт 100 весов.

Проблемы с переносом с x86_64 на ARM.

Их нет. Много лун назад запускал я одну и ту же модель (вроде бы colorize??) на x86_64 и Raspberry Pi. И всё там присутствовало: TF, numpy и OpenCV.

anonymous
(22.09.21 19:04:29 MSK)

Ссылка

Ответ на: комментарий от ls-h 22.09.21 19:00:42 MSK

Я изначально подумал, что проблема в том, что в модели зашито 4 устройства, а использовать хочется одно. Тонкая настройка делается либо той переменной, либо через tf.device.

anonymous
(22.09.21 19:05:43 MSK)

Ссылка

Radeon RX 6900 XT

anonymous
(22.09.21 19:06:38 MSK)

Какую-то хероту абстрактную спрашиваешь, товарищ.

Какой GPU у тебя сейчас, какая сейчас процент загрузки и какую конкретно модель джетсонов планируется купить?

можно измерить FLOPS

А можно просто спецификации почитать.

~~WitcherGeralt~~ ★★
(22.09.21 19:10:40 MSK)

А ещё, почему FLOPS интересует, а не FPS? Учитывая, что будет камера.

anonymous
(22.09.21 19:21:32 MSK)

Смотря какой FPS нужен + надо посмотреть сколько времени занимает пре- и пост- процессинг у вас. А так же будете ли вы работать/можете ли инференсить с батчом

omegatype ★★★
(22.09.21 19:53:13 MSK)

Ответ на: комментарий от omegatype 22.09.21 19:53:13 MSK

Смотря какой FPS нужен

Минимум 17 FPS. Исходный кадр 1848*1848, который потом сравнивается с предыдущими, определяется движение, если оно есть, то обрезается и сжимается до 400*400 и уже в таком виде идёт на вход нейронной сети.

можете ли инференсить с батчом

Не, надо каждый кадр отдельно, чтобы задержка была минимальной.

ls-h ★★★★★
(22.09.21 20:11:55 MSK) автор топика

Ответ на: комментарий от anonymous 22.09.21 19:21:32 MSK

А ещё, почему FLOPS интересует

Я думал измерить FLOPS у модели и посмотреть у каких устройств какая производительность, подобрать подходящее с небольшим запасом, процентов 20.

ls-h ★★★★★
(22.09.21 20:12:58 MSK) автор топика

Ссылка

Ответ на: комментарий от WitcherGeralt 22.09.21 19:10:40 MSK

Какую-то хероту абстрактную спрашиваешь, товарищ.

Просто в Jetson никогда не тыкал, а тут возник вопрос «А давайте его купим. Заработает?»

Какой GPU у тебя сейчас

RTX 2060, 6 GiB

какая сейчас процент загрузки

Занято примерно 1745MiB VRAM, загрузка около 6%, насколько я могу судить по nvidia-smi.

какую конкретно модель джетсонов планируется купить

Вот это я и хочу понять.

ls-h ★★★★★
(22.09.21 20:15:55 MSK) автор топика

Ответ на: комментарий от WitcherGeralt 22.09.21 19:10:40 MSK

А можно просто спецификации почитать.

Моделька не совсем чистый ResNet. Из каких спецификаций можно узнать, насколько она нагружает GPU?

ls-h ★★★★★
(22.09.21 20:18:48 MSK) автор топика

Ответ на: комментарий от anonymous 22.09.21 19:06:38 MSK

Radeon RX 6900 XT

Там работает TF, есть CUDA?

ls-h ★★★★★
(22.09.21 20:19:17 MSK) автор топика

Ссылка

Ответ на: комментарий от ls-h 22.09.21 20:18:48 MSK

Ответ в том же комментарии, на который ты отвечаешь.

Это очень грубо, но вариант более чем рабочий и ещё более очевидный. Смотришь спеку видюхи, на которой гоняешь, там будут указана пиковая производительность в терафлопсах, смотришь процент загрузки, отрезаешь этот процент от терафлопсов в спеке, смотришь спеки моделей джетсонов.

~~WitcherGeralt~~ ★★
(22.09.21 20:34:38 MSK)

Ссылка

Ответ на: комментарий от ls-h 22.09.21 20:15:55 MSK

Выглядит так, что хватит чуть ли не любого вплоть до Nano.

~~WitcherGeralt~~ ★★
(22.09.21 20:38:48 MSK)

Ответ на: комментарий от ls-h 22.09.21 20:18:48 MSK

https://developer.nvidia.com/embedded/jetson-modules

~~WitcherGeralt~~ ★★
(22.09.21 20:45:14 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 22.09.21 20:38:48 MSK

хватит чуть ли не любого вплоть до Nano.

Я думаю, лучше с запасом, какой-нибудь из Jetson TX2.
Скажите, милсдарь Ведьмак, а бывают какие-то платы под модули, кроме dev kit'ов? Например, если мне надо только USB и Ethernet. Или это кастомное производство только?

ls-h ★★★★★
(23.09.21 11:34:08 MSK) автор топика
Последнее исправление: ls-h 23.09.21 11:46:13 MSK (всего исправлений: 1)

Ответ на: комментарий от ls-h 23.09.21 11:34:08 MSK

TX2 довольно мощный, я тестил, но то девкит был.

Спросил тех, кто с ними очень плотно работает, они пилят свои платы.

Также скинули ссылку на готовые: https://auvidea.eu/

~~WitcherGeralt~~ ★★
(23.09.21 12:40:12 MSK)

Ответ на: комментарий от WitcherGeralt 23.09.21 12:40:12 MSK

Также скинули ссылку на готовые

Спасибо!

P.S.: Был бы у NV какой-нибудь сервис, чтобы можно было у них в облаке позапускать на этих Jetson'ах свой код, посмотреть, как работает...

ls-h ★★★★★
(23.09.21 13:15:13 MSK) автор топика
Последнее исправление: ls-h 23.09.21 13:15:30 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ls-h 22.09.21 20:11:55 MSK

Ну а точно есть уверенность что нейронка - узкое место? Иногда бывает что препроцессинг и/или рендеринг тормозят и потом ругают нейронку

omegatype ★★★
(24.09.21 15:46:47 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Подскажите пожалуйста есть ли возможность с маcки выбрать области похожие на эллипсы,

Development

CMakeLists.txt

→

Похожие темы