LINUX.ORG.RU

История изменений

Исправление question4, (текущая версия) :

Для 97-минутного фильма:
С попыткой расписать реплики и сохранить в 2 формата (TXT и SRT):

$ time ./main -m ../models/ggml-large-v3-turbo-q8_0.bin -di -l en -of spooner2 -otxt  -pp -osrt out.wav 
...
real    357m23,550s
user    1248m31,348s
sys     28m2,493s

В итоге почти всем репликам приписало «speaker 1», несколько штук «speaker ?».

Без реплик и только SRT:

$ time ./main -m ../models/ggml-large-v3-turbo-q8_0.bin  -l en -of spooner-w -pp -osrt out.wav
...
real    308m24,085s
user    1230m56,615s
sys     0m14,696s

Для сравнения vosk с моделью vosk-model-en-us-0.42-gigaspeech:

$ time vosk-transcriber -i out.wav -l en -t srt -o spooner-v
...
real    101m46,186s
user    101m33,774s
sys     0m16,450s

Получается, на больших файлах (полтора часа, ~70k текста) средняя скорость снижается. vosk остаётся близок к 1:1, но whisper проседает до 1:3.

Но whisper лучше распознаёт. Хотя странно себя ведёт на фрагментах со звуком без речи (инструментальная музыка, шум толпы). Если vosk пытается вычленить звуки похожие на междометия (что бесполезно, но логично), whisper многократно повторяет последнюю членораздельную фразу (что странно).

Исходная версия question4, :

Для 97-минутного фильма:
С попыткой расписать реплики и сохранить в 2 формата (TXT и SRT):

$ time ./main -m ../models/ggml-large-v3-turbo-q8_0.bin -di -l en -of spooner2 -otxt  -pp -osrt out.wav 
...
real    357m23,550s
user    1248m31,348s
sys     28m2,493s

В итоге почти все реплики приписало «speaker 1», несколько штук «speaker ?».

Без реплик и только SRT:

$ time ./main -m ../models/ggml-large-v3-turbo-q8_0.bin  -l en -of spooner-w -pp -osrt out.wav
...
real    308m24,085s
user    1230m56,615s
sys     0m14,696s

Для сравнения vosk с моделью vosk-model-en-us-0.42-gigaspeech:

$ time vosk-transcriber -i out.wav -l en -t srt -o spooner-v
...
real    101m46,186s
user    101m33,774s
sys     0m16,450s

Получается, на больших файлах (полтора часа, ~70k текста) средняя скорость снижается. vosk остаётся близок к 1:1, но whisper проседает до 1:3.

Но whisper лучше распознаёт. Хотя странно себя ведёт на фрагментах со звуком без речи (инструментальная музыка, шум толпы). Если vosk пытается вычленить звуки похожие на междометия (что бесполезно, но логично), whisper многократно повторяет последнюю членораздельную фразу (что странно).