История изменений
Исправление Aber, (текущая версия) :
Я так понимаю под аппаратным ускорением Neural Network подразумевают векторные операции над int8 и fp16/bf16, а это значит что по PSP без разницы, передавать одно 32-х битное значение, или четыре 8-и битных – объем данных один и тот же, а количество операций в секунду множится.
P.S. загуглил https://forums.developer.nvidia.com/t/how-to-calculate-tops-int8-or-tflops-fp16-of-each-layer-of-a-cnn-using-tensorrt/180832
Похоже TOPS это операции над int8, а TFLOPS – операции над fp16/bf16.
Неужели все так просто?
Исходная версия Aber, :
Я так понимаю под аппаратным ускорением Neural Network подразумевают векторные операции над int8 и fp16/bf16, а это значит что по PSP без разницы, передавать одно 32-х битное значение, или четыре 8-и битных – объем данных один и тот же, а количество операций в секунду множится.