Я хочу сделать следующее: юзер на сайте заливает аудиокнигу (поддержки только mp3 хватит, но если можно быстро получить другие форматы будет круто), она идет на мой сервер (пока что это мой комп), дальше я хочу получить весь текст аудиокниги и время где он встречается в книге. deepSpeech пока что отдает только текст, он не умеет отдавать время. По этому я решил что с помощью ffmpeg разобью аудиокнигу на фрагменты по 10 секунд (я проверил в среднем в книге за 10 секунд 25 слов читается, думаю точность будет хорошая), натравлю на эти фрагменты deepSpeech.
По мере прогресса хочу все это записывать в firebase (чтоб показать лоадер на сайте).
С чем нужна помощь: deepSpeech отдает это вот в таком формате
Loading model from file models/output_graph.pbmm
TensorFlow: v1.11.0-9-g97d851f04e
DeepSpeech: unknown
2018-12-20 23:18:27.384352: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
Loaded model in 0.0116s.
Loading language model from files models/lm.binary models/trie
Loaded language model in 8.02s.
Running inference.
// МНЕ НУЖНО ТО ЧТО НИЖЕ
text to be found at fanfictiondotnette or by googling harry potter and the methods of reshnality and there was also a lincoln cluded in this file description i'm not a voice actor but i'll do what i can to make it apparent on there is dialog which in between two characters and with that further ado harry potter and the methods of rationality written by eleae
// МНЕ НУЖНО ТО ЧТО ВЫШЕ
Inference took 12.549s for 20.000s audio file.
Для ffmpeg нашел вот такую команду для разрезания на куски
ffmpeg -i input.mp4 -c copy -map 0 -segment_time 8 -f segment output%03d.mp4
Также я достаточно мало работал с nodejs, будут какие-то подводные камни с тем чтоб принять файл? Пока я это все тестирую у себя на компе с достаточно малыми файлами (аудио по ~10 минут), но полноценная аудиокнига например занимает 70 часов времени и 4 гига)