Есть такой проект coqui_stt они форкнули mozilla deepspeech, то-есть на выходе ожидается сетка способная парсить вафли в текст
собрал докер с поддержкой nvidia
взял у mozilla датасет для нашего языка, поставил на тренировку
скрипт тренировки висит, в nvtop видно что скрипт тренировки использует 60% памяти, нагрузка на GPU скачет с 20 до 50%
и так висит целый день
интересно это датасатанисты так и задумали или фича такая?