История изменений
Исправление question4, (текущая версия) :
Для 97-минутного фильма:
С попыткой расписать реплики и сохранить в 2 формата (TXT и SRT):
$ time ./main -m ../models/ggml-large-v3-turbo-q8_0.bin -di -l en -of spooner2 -otxt -pp -osrt out.wav
...
real 357m23,550s
user 1248m31,348s
sys 28m2,493s
В итоге почти всем репликам приписало «speaker 1», несколько штук «speaker ?».
Без реплик и только SRT:
$ time ./main -m ../models/ggml-large-v3-turbo-q8_0.bin -l en -of spooner-w -pp -osrt out.wav
...
real 308m24,085s
user 1230m56,615s
sys 0m14,696s
Для сравнения vosk с моделью vosk-model-en-us-0.42-gigaspeech:
$ time vosk-transcriber -i out.wav -l en -t srt -o spooner-v
...
real 101m46,186s
user 101m33,774s
sys 0m16,450s
Получается, на больших файлах (полтора часа, ~70k текста) средняя скорость снижается. vosk остаётся близок к 1:1, но whisper проседает до 1:3.
Но whisper лучше распознаёт. Хотя странно себя ведёт на фрагментах со звуком без речи (инструментальная музыка, шум толпы). Если vosk пытается вычленить звуки похожие на междометия (что бесполезно, но логично), whisper многократно повторяет последнюю членораздельную фразу (что странно).
Исходная версия question4, :
Для 97-минутного фильма:
С попыткой расписать реплики и сохранить в 2 формата (TXT и SRT):
$ time ./main -m ../models/ggml-large-v3-turbo-q8_0.bin -di -l en -of spooner2 -otxt -pp -osrt out.wav
...
real 357m23,550s
user 1248m31,348s
sys 28m2,493s
В итоге почти все реплики приписало «speaker 1», несколько штук «speaker ?».
Без реплик и только SRT:
$ time ./main -m ../models/ggml-large-v3-turbo-q8_0.bin -l en -of spooner-w -pp -osrt out.wav
...
real 308m24,085s
user 1230m56,615s
sys 0m14,696s
Для сравнения vosk с моделью vosk-model-en-us-0.42-gigaspeech:
$ time vosk-transcriber -i out.wav -l en -t srt -o spooner-v
...
real 101m46,186s
user 101m33,774s
sys 0m16,450s
Получается, на больших файлах (полтора часа, ~70k текста) средняя скорость снижается. vosk остаётся близок к 1:1, но whisper проседает до 1:3.
Но whisper лучше распознаёт. Хотя странно себя ведёт на фрагментах со звуком без речи (инструментальная музыка, шум толпы). Если vosk пытается вычленить звуки похожие на междометия (что бесполезно, но логично), whisper многократно повторяет последнюю членораздельную фразу (что странно).